Web信息抽取技术国内外研究现状

20世纪80年代中后期，Internet逐步形成。信息检索的发展更多地与Internet相关。Web信息检索——搜索引擎成为了信息检索领域研究的主流方向。20世纪90年代，加拿大蒙特利尔的麦吉尔大学（McGill University）计算机学院的三位学生Alan Emtage、Peter Deutsch、Bill Wheelan开发了一种搜索FTP文件的Archie。1994年麦克•马丁博士（Dr.Michael Mauldin）在Carnegie Mellon大学拥有一个搜索项目，他们将John Leavitt的蜘蛛程序接入到其索引程序中，由此诞生了Lycos，成为了第一个真正意义上的搜索引擎。几乎在同时期，斯坦福大学的两名博士生费罗（David　Filo）和杨致远（Gerry　Yang）在美国创建了Yahoo。1997年J.Kleinberg首先提出了一种算法名叫HITS算法：通过内容权威度（Authority）和链接权威度（Hub）来对网页质量进行评估。1998年斯坦福大学博士生Sergey Brin和Larry Page共同研发了如今最知名的搜索引擎Google，并创造性地提出了PageRank算法。随后，学者们提出了将统计语言模型和信息检索想结合的新思路，词频统计（Term Frequency）和文档频率（Document Frequency）等成为语言模型检索方法中的有机组成部分。进入20世纪，文本分类、聚类、信息抽取、多媒体IR、文本摘要、问答系统、文本挖掘、Web挖掘等研究纷纷涌现，各种与之相关的实验和应用系统也随之出现，各种评测会议和评测方法进一步推动了相关研究的发展。作为搜索引擎，也由第一代基于关键词的搜索上升到了第二代基于超链接的检索，而后到目前的第三代基于概念的检索。各类垂直搜索引擎与只能搜索引擎纷纷出现。20512
国内许多研究机构也对Web信息抽取相关领域也进行了深入的研究。对信息抽取模型、文档和查询的表示及特征权重计算方法、用户查询相关性的匹配策略、查询结果排序方法、用户相关度反馈机制和查询扩展方法以及相关的文本分类、文本挖掘、Web挖掘、基于内容的图像检索以及自然语言处理等方面进行了充分的研究，取得了相当多的研究成果。此后，国内的相关研究机构开始尝试参加TREC等国际评测，并且取得了好的成绩。 Web信息抽取技术国内外研究现状:http://www.youerw.com/yanjiu/lunwen_12317.html