基于主题相关性的网页正文提取方法优化研究(4)_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

基于主题相关性的网页正文提取方法优化研究(4)


超级文本标记语言是标准通用标记语言下的一种应用,同时也是作为一种规范和标准, 它通过标记符号来标记要显示的网页中的各个部分。我们可以这么认为,网页文件本身就是一种文本文件,通过在文本文件中添加标记符,可以告诉浏览器如何显示其中的内容。浏览器按顺序阅读网页文件,然后根据标记符解释和显示其标记的内容,对书写出错的标记将不指出其错误,且不停止其解释执行过程,编制者只能通过显示效果来分析出错原因和出错部位。但需要注意的是,对于不同的浏览器,对同一标记符可能会有不完全相同的解释,因而可能会有不同的显示效果。
2.2.2    HTML发展历史
超文本标记语言(第一版)——在1993年6月作为互联网工程工作小组(IETF)工作草案发布(并非标准):
HTML 2.0——1995年11月作为RFC 1866发布,在RFC 2854于2000年6月发布之后被宣布已经过时
HTML 3.2——1997年1月14日,W3C推荐标准
HTML 4.0——1997年12月18日,W3C推荐标准
HTML 4.01(微小改进)——1999年12月24日,W3C推荐标准
HTML 5的第一份正式草案已于2008年1月22日公布,仍继续完善
ISO/IEC 15445:2000(“ISO HTML”)——2000年5月15日发布,基于严格的HTML 4.01语法,是国际标准化组织和国际电工委员会的标准。
Wijmo是基于HTML5、jQuery、CSS3和SVG的一个控件包,能够满足构建当今Web系统的需求。基于Wijmo,您的系统运行将更加快速和流畅,外观也会更加引人入胜。Wijmo中所有新的控件都是在符合最新的UI设计潮流的基础上,对新的以及改良后的主题进行封装。优美的、专业的控件外观会让您的应用程序引人注目。比如 ComponentOne Studio for ASP .NET Wijmo 控件包内置的6个主题,同时可以使用jQuery UI项目提供的 30 多个主题,甚至可以使用 ThemeRoller 创建属于您自己的系统主题。
2.2.3    HTML基本语法
<head></head>是HTML语言中一对基本的标记符号,这对标记符号分别表示头信息的开始和结尾。它们中间则包含了页面的标题内容,当然,它本身在浏览器中是不作为内容来显示的,但是对它的一些设置则会影响到网页的显示效果。标题标记符用于定义网页的标题,标题的内容会显示在网页窗口的标题栏中。
表2.1 HTML标签
标签    描述
<head>    定义了文档的信息
<title>    定义了文档的标题
<base>    定义了页面链接标签的默认链接地址
<link>    定义了一个文档和外部资源之间的关系
<meta>    定义了HTML文档中的元数据
<script>    定义了客户端的脚本文件
<style>    定义了HTML文档的样式文件
<body></body>;,网页中显示的实际内容均包含在这2个正文标记符之间。正文标记符又称为实体标记。
2.2.4    HTML特点
超级文本标记语言文档制作不是特别复杂,同时它的功能也非常强大,支持不同数据格式的文件镶入,这也是万文网(WWW)盛行的原因之一,其主要特点如下:
简易性:超级文本标记语言版本升级采用超集方式,从而更加灵活方便。
可扩展性:超级文本标记语言的广泛应用带来了加强功能,增加标识符等要求,超级文本标记语言采取子类元素的方式,为系统扩展带来保证。
平台无关性:虽然个人计算机大行其道,但使用MAC等其他机器的大有人在,超级文本标记语言可以使用在广泛的平台上,这也是万文网(WWW)盛行的另一个原因。 (责任编辑:qin)