与此同时,互联网信息的迅速变化使得信息采集做到信息的及时更新具有一定难度。即便网络爬虫时常刷新,更新数据,但由于需要更新的信息数量实在过于巨大,很多采集系统刷新一次有时需要几天甚至于几十天的时间,因此信息的失效率很高。
不同需求的网络用户往往具有不同的检索目的和要求。传统的搜索引擎所提供的信息检索服务显然已经不能满足网民日益增长的个性化服务需求。因此互联网信息的定向采集就具有了相当大的发展前景,互联网信息定向采集技术的完善也就有了相当高的迫切性。
1.2国内外研究现状
1.3论文研究内容
本文通过对网络爬虫,页面分析以及排队论的研究,结合数据库技术,设计并实现一款简单、方便可以定向采集的互联网信息采集程序。互联网信息采集系统是对网络上某些或某类站点进行内容分析和分类整理,从网页中提取有效数据加工,得到所需要的常常是该领域绝大部分资料,是新一代网络应用的方向,它不同于搜索引擎,纯智能化技术不能满足需要。它也不同于基于代理因特网信息获取的WebClone系统及各类离线浏览器,它们下载的是页面,不能直接让用户抽取所需要的数据项,不便自动实时监测源网站的更新信息等。
互联网信息采集程序通过提供一个基于定制模板的下载机制,准确定位所需信息在网页HTML结构树中的位置,把指定网页的HTML文件解析成XML结构树并下载指定位置的内容,提取准确而高效的信息,并且能定期自动跟踪相关网站或网页,进行比较分析,抽取和规整入库等,对互联网信息进行有针对性的定向采集,进而从互联网上获取所需信息。
本文主要内容包括:
(1)介绍Spider技术和页面分析技术的相关概念。重点讲述数据项的定义,数据库映射以及数据项的抽取与替换。
(2)对本文要设计的互联网信息采集程序进行了需求分析,并完成了程序的设计。同时对系统数据库的设计进行了分析,并列出了本系统核心的功能设计。
(3)应用排队论的理论对并行式的网络爬虫进行了详细分析,使用正则表达式对URL过滤进行了重新设计,并研究了页面抓去与处理的相关方法,实现了基于代理的增量更新和页面内容的分析。
(4)对互联网信息采集程序的设计与实现进行了总结,并对未来的工作进行了展望。
2相关概念与技术
2.1Spider技术简介
2.1.1网络爬虫的定义
网络爬虫(Web Spider)也叫做网络机器人,是一种“自动化浏览网络”的程式。这种电脑程式是为了自动从互联网上获取特定的资料,或为了组织网络上的资料所设计的。
网络爬虫从网站的某一个页面(通常是首页)开始,读取网页内容,找到网页中的其它链接地址,然后通过这些链接地址来寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
2.1.2网络爬虫基本工作原理
网络爬虫是一个自动提取网页的程序,它为搜索引擎从互联网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获 得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根 据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网 页URL,并重复上述过程,直到达到系统的某一条件时停止,另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查 询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。 网络爬虫互联网信息采集程序的开发(2):http://www.youerw.com/jisuanji/lunwen_73570.html