Web信息抽取技术国内外研究现状_毕业论文

毕业论文移动版

毕业论文 > 研究现状 >

Web信息抽取技术国内外研究现状

20世纪80年代中后期,Internet逐步形成。信息检索的发展更多地与Internet相关。Web信息检索——搜索引擎成为了信息检索领域研究的主流方向。20世纪90年代,加拿大蒙特利尔的麦吉尔大学(McGill University)计算机学院的三位学生Alan Emtage、Peter Deutsch、Bill Wheelan开发了一种搜索FTP文件的Archie。1994年麦克•马丁博士(Dr.Michael Mauldin)在Carnegie Mellon大学拥有一个搜索项目,他们将John Leavitt的蜘蛛程序接入到其索引程序中,由此诞生了Lycos,成为了第一个真正意义上的搜索引擎。几乎在同时期,斯坦福大学的两名博士生费罗(David Filo)和杨致远(Gerry Yang)在美国创建了Yahoo。1997年J.Kleinberg首先提出了一种算法名叫HITS算法:通过内容权威度(Authority)和链接权威度(Hub)来对网页质量进行评估。1998年斯坦福大学博士生Sergey Brin和Larry Page共同研发了如今最知名的搜索引擎Google,并创造性地提出了PageRank算法。随后,学者们提出了将统计语言模型和信息检索想结合的新思路,词频统计(Term Frequency)和文档频率(Document Frequency)等成为语言模型检索方法中的有机组成部分。进入20世纪,文本分类、聚类、信息抽取、多媒体IR、文本摘要、问答系统、文本挖掘、Web挖掘等研究纷纷涌现,各种与之相关的实验和应用系统也随之出现,各种评测会议和评测方法进一步推动了相关研究的发展。作为搜索引擎,也由第一代基于关键词的搜索上升到了第二代基于超链接的检索,而后到目前的第三代基于概念的检索。各类垂直搜索引擎与只能搜索引擎纷纷出现。20512
国内许多研究机构也对Web信息抽取相关领域也进行了深入的研究。对信息抽取模型、文档和查询的表示及特征权重计算方法、用户查询相关性的匹配策略、查询结果排序方法、用户相关度反馈机制和查询扩展方法以及相关的文本分类、文本挖掘、Web挖掘、基于内容的图像检索以及自然语言处理等方面进行了充分的研究,取得了相当多的研究成果。此后,国内的相关研究机构开始尝试参加TREC等国际评测,并且取得了好的成绩。 (责任编辑:qin)