在信息化时代的今天互联网技术的发展与应用给人们带来了极大的便利,万 维网【15】的巨大空间使得其对信息量的包容异常庞大。我们虽然能获取大量的信 息,但是问题也随之而来,网络给我们提供的信息并非是我们所需要的精确数据, 其中可能包含着与之相关的所有信息。如何在庞大的信息源中获取到符合我们特 定要求的信息,将其归纳整理后显示,成为网络信息化时代的一个热门的研究方 向,在这一方向中,Web 信息抓取技术是最主要的实现技术。68475
Web 信息抓取【8】技术也叫做 Web 信息采集,是一种从网站上批量快速获取数 据信息的计算机软件技术。目前 Web 数据采集【2】主要分为面向主题的 Web 数据 采集、深层网络 Web 数据采集【9】、网站地图 Web 数据采集、分布式 Web 数据采集 等【16】。
Web 信息抓取技术主要是指从给定的网址出发通过 Web 页面之间的超级链接 关系,从 Web 上自动的获取页面信息,并且随着链接不断向所需要的 Web 页面扩 展的过程。实现这一过程主要是由基于 Web 数据采集软件来完成的。论文网
大致来说,基于 Web 的数据采集系统主要是指这样一个程序,从一个初始的 URL 集出发,将这些 URL 全部放入到一个有序的待采集队列里。而采集软件从这 个队列里按顺序取出 URL,通过 Web 上的协议,获取 URL 所指向的页面,然后从 这些已获取的页面中提取出新的 URL,并将他们继续放入到待采集队列里,然后 重复上面的过程,直到采集软件根据自己的策略停止采集。对于大多数采集软件 来说,到此就算完结,而对于有些采集软件而言,它还要将采集到的页面数据和 相关处里结果存储、索引并在此基础上对内容进行语义分析。目前 Web 数据抓取 技术的主要应用就是网络爬虫【1,6,10】。目前 Web 数据抓取技术的主要应用就是网 络爬虫(Crawler)。网络爬虫技术被广泛应用在互联网的各种领域,使人们可以 方便快捷的获取各种信息,并以文本图片视频的方式实现。
网络爬虫工作原理:从一个或若干初始网页的 URL 开始,获取初始网页上的 URL,在抓取网页的过程中,不断从当前页面上抽取新的 URL 放入队列,直到满足 系统的一定停止条件。通用网络爬虫注重的是尽可能多的采集信息页面,而忽视 了对信息采集的顺序与相关内容。
我们利用利用互联网搜索引擎技术实现有针对性、行业性、精准性的数据抓 取,并按照一定规则和筛选标准进行数据归类,并形成数据库文件的一个过程。 利用 Web 数据采集技术,通过对特定网站或网页中数据的结构进行分析,设定特 定的采集规则,可以将感兴趣的信息从中抽取出来,并保存到数据库或其他格式 文件中,以供 SQL 或 XML 查询语言查询,或者供其他应用程序使用
目前 Web 信息抓取技术的发展势头正盛,在传统抓取技术的基础上,很多新 的各具特色的信息采集系统悄然诞生。在国内外的研究历程中,Web 信息抓取技 术发展大致可以分为以下几种研究方向:基于整个 Web 的信息采集,增量式 Web 信息采集,基于主题的 Web 信息采集技术,基于用户个性化的 Web 信息采集技术, 基于 Agent 的信息采集技术,迁移的信息采集,基于元搜索的信息采集等等。而 大家在实际的研究应用中往往各种技术的综合应用更加广泛。
在以上几种技术方向中,基于主题的 Web 信息采集的研究比较热门,在国外 人们称之为 Focused Crawler,指的是有选择性的寻找与提前定义的主题集相关 的页面的信息采集。国际上比较成熟的信息采集系统,印度理工大学和 IBM 研究 中心的研究人员共同开发的基于主题的 Web 信息采集器;Aggarwal 提出的正对 两个假设的基于主题的 Web 信息采集技术;美国 Stanford 大学的动态页面采集 系统 Hidden Web Exposew Project;北大天网等等。北大天网是国内高性能网 络爬虫的先行者,它的构架经历了集中式向分布式的改进,能够胜任 10 亿级的 网页搜索,其基于站点的两阶段哈希机制有效地解决了搜索过程中 Crawler 动态 加入与退出的相关问题。 Web信息抓取技术研究现状:http://www.youerw.com/yanjiu/lunwen_77012.html