网络特定文本信息抓取及统计(3)

    标记语言是一套标记标签 (markup tag)
HTML 使用标记标签来描述网页
HTML 标签
HTML 标记标签通常被称为 HTML 标签 (HTML tag)。
HTML 标签是由尖括号包围的关键词，比如 <html>
HTML 标签通常是成对出现的，比如 <b> 和 </b>
标签对中的第一个标签是开始标签，第二个标签是结束标签
开始和结束标签也被称为开放标签和闭合标签
HTML 文档 = 网页
HTML 文档描述网页
HTML 文档包含 HTML 标签和纯文本
HTML 文档也被称为网页
Web 浏览器的作用是读取 HTML 文档，并以网页的形式显示出它们。浏览器不会显示 HTML 标签，而是使用标签来解释页面的内容：
<html>
<body>

<h1>My First Heading</h1>

<p>My first paragraph.</p>

</body>
</html>

2.2 搜索技术
2.2.1 搜索技术简述
     随着互联网的迅猛发展、WEB信息的增加，用户要在信息海洋里查找自己所需的信息，就象大海捞针一样，搜索引擎技术恰好解决了这一难题。搜索引擎是指互联网上专门提供检索服务的一类网站，这些站点的服务器通过网络搜索软件或网络登录等方式，将网上大量网站的页面信息收集到本地，经过加工处理建立信息数据库和索引数据库，从而对用户提出的各种检索作出响应，提供用户所需的信息或相关指针。用户的检索途径主要包括自由词全文检索、关键词检索、分类检索及其他特殊信息的检索。下面以网络搜索机器人为例来说明搜索引擎技术。
2.2.2 索引技术
索引技术是搜索引擎的核心技术之一。搜索引擎要对所收集到的信息进行整理、分类、索引以产生索引库，而中文搜索引擎的核心是分词技术。分词技术是利用一定的规则和词库，切分出一个句子中的词，为自动索引做好准备。索引多采用Non—clustered方法，该技术和语言文字的理解有很大的关系，具体有如下几点：
(1)存储语法库，和词汇库配合分出句子中的词汇；
(2)存储词汇库，要同时存储词汇的使用频率和常见搭配方式；
(3)词汇宽，应可划分为不同的专业库，以便于处理专业文献；
(4)对无法分词的句子，把每个字当作词来处理。
索引器生成从关键词到URL的关系索引表。索引表一般使用某种形式的倒排表(inverted list)，即由索引项查找相应的URL。索引表也要记录索引项在文档中出现的位置，以便检索器计算索引项之间的相邻关系或接近关系，并以特定的数据结构存储在硬盘上。
2.2.3处理技术
    检索器的主要功能是根据用户输入的关键词在索引器形成的倒排表中进行检索，同时完成页面与检索之间的相关度评价，对将要输出的结果进行排序，并实现某种用户相关性反馈机制。
通过搜索引擎获得的检索结果往往成百上千，为了得到有用的信息，常用的方法是按网页的重要性或相关性给网页评级，进行相关性排序。这里的相关度是指搜索关键字在文档中出现的额度。当额度越高时，则认为该文档的相关程度越高。能见度也是常用的衡量标准之一。一个网页的能见度是指该网页入口超级链接的数目。能见度方法是基于这样的观点：一个网页被其他网页引用得越多，则该网页就越有价值。特别地，一个网页被越重要的网页所引用，则该网页的重要程度也就越高。结果处理技术可归纳为：
(1)按频次排定次序，通常，如果一个页面包含了越多的关键词，其搜索目标的相关性应该越好，这是非常合乎常理的解决方案。网络特定文本信息抓取及统计(3):http://www.youerw.com/jisuanji/lunwen_3461.html