内容检索系统最关键的部件还是查询器,查询器的输入数据大都为用户的查询语句,用户按照搜索引擎的查询语法规则输入将要检索的语句以及检索条件。简单的查询器只能满足用户实现输入查询串的文本框,复杂的查询器可以让用户对查询条件进行限制,例如:逻辑运算、时间信息等等。查询器的输出数据包括:文档的标题、摘要、连接等信息,而且列表的条数在查询扩展机制的作用下能达到用户最大限度的需求。
总之,内容查询系统主要是用来提供查询的。出了搜索功能外,还提供与用户相关的其他功能。例如:用户注册、广告投放等。所有的搜索引擎提供的都是站内搜索,数据都是预先存储在本地的。
2.2 网页信息抓取软件的工作方式
目前网页信息抓取技术主要依赖于自动采集软件,也称为网络蜘蛛或网络爬虫亦或机器人,利用Web中的链接递归访问新网页。其主要功能是自动从Internet上的各种Web站点抓取Web文档,并从Web文档中提取一些信息来描述该Web文档,为搜索引擎站点的哦数据库服务器和更新数据库提供原始数据,这些数据包括HTML、标题以及HTML文件中的各种链接。
网页信息抓取软件(Spider)的的运行方式如图2-2-1所示:首先互联网页面中精心选择一部分网页,以这些网页的连接地址作为种子URL,将这些种子URL放入待抓取URL队列中,爬虫从待抓取的URL队列逐个读取,并将URL通过DNS解析,把链接地址转换为网站服务器对应的IP地址,然后将其和网页相对路径名称交给网页下载器。对与下载到本地的网页,一方面将其存储到页面库中,等待建立索引后再接着处理;另一方面将下载网页的URL放入已经抓取URL队列中,这个队列记载了爬虫系统已经下载的网页URL,以避免网页的重复抓取。对与刚下载的网页,从其中抽取所包含的的所有链接信息,并在已经抓取URL队列抓取调度中会下载这个URL对应的网页。如此这般,形成循环,直到抓取URL队列为空,这代表着爬虫系统已将能够抓取的网页金属抓取完,此时完成可一轮完整的抓取过程。论文网
现如今,网页信息抓取策略有如下几种:
(1) 宽度优先抓取策略
宽度优先抓取的略是一种非常简单直观且历史悠久的遍历方法,在搜索引擎爬虫一出现就开始被采用,新提出的抓取策略往往会以这种方法作为比较基准。这宗策略是极其强悍的一种方法,所以至今这种方法也是很多实际爬虫系统采用的抓取的略。这种方法没有明确提出和使用户网页重要性衡量标准,只是机械的将新下载的网页抽取链接,并添加到待抓取URL队列中,以此来安排URL的遍历顺序。虽然这种方法可以降低同意服务器的访问频度,但是其时间复杂度和空间复杂度比较大。
(2) 非完全的PageRank策略
PageRank策略是一种注明的连接分析算法,可以用来衡量网页的很重要性。其基本思路是:对与已下载网页,加上待抓取URL中的URL一起,形成一个网页集合,在此集合中实现PageRank计算,计算完成后,将待抓取URL队列中的网页按照PageRank值由高到低排序,形成的序列就是爬虫接下来要遍历的序列。在接下来未金子那个下一轮PageRank计算之前,新下载的网页中或许有的连接的重要性很高,这时PageRank会给这些URL一个临时的PageRank值,然后汇总这个网页的所有的连接的PageRank值,如果这个值比待抓取URL的PageRank值高,那么就优先下载这个URL。文献综述
(3) 大站优先策略
大战优先策略很直接:以网站为单位来衡量网页的重要性,对与待抓取URL队列中的网页,根据所属网站归类,如果哪个网站等待下载的页面很多,则优先下载大型网站,因为大型网站往往包含更多的页面。监狱大型网站往往是著名企业的内容,其网页质量一般较高,所以这个思路虽然简单,但是有一定依据。实验表明这个算法效果要优于宽度优先遍历算法。