网页抓取策略的研究,国外开始于20世纪90年代末。Cho等人在文献中第一次引入了网页抓取策略的概念。他从stanford.edu域上抓取了180,000个网页,在此数据集上使用爬虫模拟器对比了宽度优先网页抓取策略,基于反向链接数的网页抓取策略以及基于PageRank的网页抓取策略。国外语义Web研究Stanford大学语义web研究组研制的查询语言DBQ是一个比较有影响的系统,它是基于DAML的。另一个基于DAML的语义web信息检索系统是美国Maryland设计的HOWLIR系统,它采用DAML-JESSDB-一个基于DAML的推理系统-作为推理引擎。6104
国内对网页抓取策略的研究起步较晚。近些年对这一领域的研究主要是针对国外前些年的研究成果。国内先后有北东大学、清华大学、国家智能研究中心等高校和研究单位对搜索引擎技术开展研究,并开发表了几个较好的系统。如由北京大学计算机系网络研究室开发的“天网”中英文搜索引擎,在系统规模及系统性能方面达到了国外中型搜索引擎系统的技术水平,为国内用户提供了很好的互联网搜索服务,受到了用户的好评。目前有不少的公司已经进入或正在进入搜索引擎领域,百度、Google、雅虎中国、中搜、新浪爱问、搜狐搜狗、搜搜等典型搜索引擎企业,也包括中国电信等即将进入该市场的企业,奇虎、接刮、搜职等垂直接索企业;以上海火速、中企动力等为代表的搜索引擎代理商和渠道商。然而,国内的大部分研究并没有在大规模的数据集中进行实验,相关研究与国外相比还存在一定的差距,特别是在垂直搜索这一块,还是欠缺的。
由于现在社会,信息类的爆炸性增加,人们很难辨别选择。所有在出门之前,往往先用搜索引擎查找乘车路线;购物前,先用搜索引擎找到最低价格。搜索引擎已经成为人们大脑中的记忆体。
随着搜索领域的不断发展,加上人民对信息质量要求的不断提高,过去几年中出现了众多,如搜房,职位搜索等垂直搜索引擎和相关网页特定信息抓取工具,许多工具到目前为止还只是研究原型,也有一些开始推出商业化版本。
我相信在将来随着人们对信息的越来越来精益求精,以及用户体验的不断提高,基于垂直搜索的特定文本抓取一定会大放光彩,会出现越来越多的类似软件。
- 上一篇:物联网技术国内外研究现状和发展趋势
- 下一篇:网上书店国内外研究现状和意义
-
-
-
-
-
-
-
msp430g2553单片机高精度差分GPS技术研究
洪泽湖常见水生经济动物资源现状的调查
数据采集技术文献综述和参考文献
浙江省嘉兴市典型蔬菜基...
糖基化处理对大豆分离蛋白功能的影响
浅议电视节目主持人的策划意识
松节油香精微胶囊文献综述和参考文献
油画创作《舞台》色彩浅析
高校计算机辅助教学英文文献和中文翻译
慕课时代下中学信息技术课程教学改革