分布式爬虫服务器的设计与实现(4)

1。全文索引性搜索引擎：这种搜索引擎主要靠爬虫收集各个网站的数据从而建立起自己的数据库。通过搜索用户所提供的查询条件来对数据库中的记录进行匹配。并按照一定的顺序返回查询结果。这种搜索引擎的性能就主要由数据库的容量、更新速度和搜索速度三个方面决定。

2。目录索引式搜索引擎：该搜索引擎只是对于不同的网络连接进行了分类，并形成了一个分类的列表。用户可以自己选择相应的网址，并不需要在检索的过程中提供关键字和其他多媒体信息。

3。元搜索引擎：这种搜索引擎将会接收用户的搜索请求，然后将该请求会被转发给其它几个搜索引擎同时进行处理，最终对于多个搜索引擎的结果进行重新的整合和处理后返回给用户。[6]

4。垂直型的搜索引擎:针对于特定的领域提供搜索服务。如：机票搜索、漫画搜索、旅游搜索等等。主要是为了在特定的范围给用户提供更加优质的搜索服务。搜索的质量主要取决于该搜索引擎的数据库规模的大小。

2。3搜索引擎的基本原理

搜索引擎的工作过程可以主要的归结为三个最基本的过程：

1。通过爬虫模块从互联网上抓取信息放入数据库中。

2。建立全文索引库的索引模块。

3。用户查询模块。

工作原理图：

图2。1搜索引擎工作流程图

1。爬虫模块。首先，每一个搜索引擎最基本的模块就是爬虫模块。爬虫模块负责了为搜索引擎汇集搜集互联网上的信息。网络爬虫会从自己的网页库中选取需要进行抓取的网页，然后根据不同的抓取策略，对于网页中的超链接，继续进行深度的抓取。并保存在自身本地的数据库中，最终形成搜索引擎的基本数据库[7]。

2。网页预处理。当网页从互联网上抓取下来的时候还要进行一部分的预处理工作。主要的工作是对于关键字的提取，以及索引库的建立。并且要完成网页去重等一系列的工作。

3。提供检索服务。根据用户所提供的关键字对于数据库中的信息进行匹配并最终通过一定的排序和处理后展示给用户。文献综述

2。4搜索引擎的组成

1。搜索引擎的抓取系统

搜索引擎的数据搜集系统的主要组成便是网络爬虫。网络爬虫会检索整个互联网的网页并一步一步向下抓取。网络爬虫抓取的每一个网页都会按照特殊的存储方式和分类方式存储在一个临时的地方。

2。分析处理系统

当网络爬虫抓取的内容进入临时数据库中时，数据分析处理系统就会对于其中的数据进行具体的处理。会对于每一个网站进行判断，然后进行抛弃，或者加入数据库的处理。因为爬虫可能在抓取的过程中下载了重复的网页，所以必须对于临时的数据进行处理后。剩下的符合需求的网页才能被放入数据库中。

3。储存系统

存储系统中的数据是经过分析处理系统进行净化过的“干净”数据。对于不同类别的网页进行了分别的存储。同时存储系统也要支撑对于其数据库的实时更新。这个系统对于搜索引擎来说十分重要。

4。缓存系统

缓存系统会将用户搜索的一些内容存储在缓存中，当用户进行再次的检索时可以快速的将其中的内容展现出来，它的目的主要是为了提高整个系统的效率。

5。显示系统

显示系统主要是将缓存中的数据和信息快速有效的展示给用户。所以基本上来说，显示系统和缓存系统的连接十分紧密。

2。5网络爬虫对于搜索引擎的意义

网络爬虫是搜索引擎抓取系统的重要构成成分。为搜索引擎承担着数据的收集工作。在整个系统中起了极大的作用。而且网络爬虫的对于数据的更新速率以及抓取策略的选取会对整个搜索引擎系统有很大的影响。所以设计一个好的爬虫系统能够使用户得到更加精准的搜索结果和良好的使用体验。[8]来:自[优.尔]论,文-网www.youerw.com +QQ752018766- 分布式爬虫服务器的设计与实现(4):http://www.youerw.com/jisuanji/lunwen_93449.html