网页抓取策略国内外研究现状
时间:2017-02-27 11:49 来源:毕业论文 作者:毕业论文 点击:次
网页抓取策略的研究,国外开始于20世纪90年代末。Cho等人在文献中第一次引入了网页抓取策略的概念。他从stanford.edu域上抓取了180,000个网页,在此数据集上使用爬虫模拟器对比了宽度优先网页抓取策略,基于反向链接数的网页抓取策略以及基于PageRank的网页抓取策略。国外语义Web研究Stanford大学语义web研究组研制的查询语言DBQ是一个比较有影响的系统,它是基于DAML的。另一个基于DAML的语义web信息检索系统是美国Maryland设计的HOWLIR系统,它采用DAML-JESSDB-一个基于DAML的推理系统-作为推理引擎。6104 国内对网页抓取策略的研究起步较晚。近些年对这一领域的研究主要是针对国外前些年的研究成果。国内先后有北东大学、清华大学、国家智能研究中心等高校和研究单位对搜索引擎技术开展研究,并开发表了几个较好的系统。如由北京大学计算机系网络研究室开发的“天网”中英文搜索引擎,在系统规模及系统性能方面达到了国外中型搜索引擎系统的技术水平,为国内用户提供了很好的互联网搜索服务,受到了用户的好评。目前有不少的公司已经进入或正在进入搜索引擎领域,百度、Google、雅虎中国、中搜、新浪爱问、搜狐搜狗、搜搜等典型搜索引擎企业,也包括中国电信等即将进入该市场的企业,奇虎、接刮、搜职等垂直接索企业;以上海火速、中企动力等为代表的搜索引擎代理商和渠道商。然而,国内的大部分研究并没有在大规模的数据集中进行实验,相关研究与国外相比还存在一定的差距,特别是在垂直搜索这一块,还是欠缺的。 由于现在社会,信息类的爆炸性增加,人们很难辨别选择。所有在出门之前,往往先用搜索引擎查找乘车路线;购物前,先用搜索引擎找到最低价格。搜索引擎已经成为人们大脑中的记忆体。 随着搜索领域的不断发展,加上人民对信息质量要求的不断提高,过去几年中出现了众多,如搜房,职位搜索等垂直搜索引擎和相关网页特定信息抓取工具,许多工具到目前为止还只是研究原型,也有一些开始推出商业化版本。 我相信在将来随着人们对信息的越来越来精益求精,以及用户体验的不断提高,基于垂直搜索的特定文本抓取一定会大放光彩,会出现越来越多的类似软件。 (责任编辑:qin) |