基于主题相关性的网页正文提取方法优化研究(4)
时间:2018-04-03 15:03 来源:毕业论文 作者:毕业论文 点击:次
超级文本标记语言是标准通用标记语言下的一种应用,同时也是作为一种规范和标准, 它通过标记符号来标记要显示的网页中的各个部分。我们可以这么认为,网页文件本身就是一种文本文件,通过在文本文件中添加标记符,可以告诉浏览器如何显示其中的内容。浏览器按顺序阅读网页文件,然后根据标记符解释和显示其标记的内容,对书写出错的标记将不指出其错误,且不停止其解释执行过程,编制者只能通过显示效果来分析出错原因和出错部位。但需要注意的是,对于不同的浏览器,对同一标记符可能会有不完全相同的解释,因而可能会有不同的显示效果。 2.2.2 HTML发展历史 超文本标记语言(第一版)——在1993年6月作为互联网工程工作小组(IETF)工作草案发布(并非标准): HTML 2.0——1995年11月作为RFC 1866发布,在RFC 2854于2000年6月发布之后被宣布已经过时 HTML 3.2——1997年1月14日,W3C推荐标准 HTML 4.0——1997年12月18日,W3C推荐标准 HTML 4.01(微小改进)——1999年12月24日,W3C推荐标准 HTML 5的第一份正式草案已于2008年1月22日公布,仍继续完善 ISO/IEC 15445:2000(“ISO HTML”)——2000年5月15日发布,基于严格的HTML 4.01语法,是国际标准化组织和国际电工委员会的标准。 Wijmo是基于HTML5、jQuery、CSS3和SVG的一个控件包,能够满足构建当今Web系统的需求。基于Wijmo,您的系统运行将更加快速和流畅,外观也会更加引人入胜。Wijmo中所有新的控件都是在符合最新的UI设计潮流的基础上,对新的以及改良后的主题进行封装。优美的、专业的控件外观会让您的应用程序引人注目。比如 ComponentOne Studio for ASP .NET Wijmo 控件包内置的6个主题,同时可以使用jQuery UI项目提供的 30 多个主题,甚至可以使用 ThemeRoller 创建属于您自己的系统主题。 2.2.3 HTML基本语法 <head></head>是HTML语言中一对基本的标记符号,这对标记符号分别表示头信息的开始和结尾。它们中间则包含了页面的标题内容,当然,它本身在浏览器中是不作为内容来显示的,但是对它的一些设置则会影响到网页的显示效果。标题标记符用于定义网页的标题,标题的内容会显示在网页窗口的标题栏中。 表2.1 HTML标签 标签 描述 <head> 定义了文档的信息 <title> 定义了文档的标题 <base> 定义了页面链接标签的默认链接地址 <link> 定义了一个文档和外部资源之间的关系 <meta> 定义了HTML文档中的元数据 <script> 定义了客户端的脚本文件 <style> 定义了HTML文档的样式文件 <body></body>;,网页中显示的实际内容均包含在这2个正文标记符之间。正文标记符又称为实体标记。 2.2.4 HTML特点 超级文本标记语言文档制作不是特别复杂,同时它的功能也非常强大,支持不同数据格式的文件镶入,这也是万文网(WWW)盛行的原因之一,其主要特点如下: 简易性:超级文本标记语言版本升级采用超集方式,从而更加灵活方便。 可扩展性:超级文本标记语言的广泛应用带来了加强功能,增加标识符等要求,超级文本标记语言采取子类元素的方式,为系统扩展带来保证。 平台无关性:虽然个人计算机大行其道,但使用MAC等其他机器的大有人在,超级文本标记语言可以使用在广泛的平台上,这也是万文网(WWW)盛行的另一个原因。 (责任编辑:qin) |