1。2。3 索引的建立
分词工作结束后,如何将分词结果存储至本地,并使得信息能更加方便高效地查询,索 引便应运而生[8]。由于文本数据量很大,而且数据之间没有结构关系,传统的关系型数据库便 不再适用,有必要的话,要自定义数据结构形式及存储方式,这对于没有学过数据结构的人 来说,是一件很大的挑战。
1。2。4 查询处理
汉语博大精深,一词多义普遍存在,相同的词语在不同的语境下就有不同的含义,根据
本科毕业设计说明书 第 3 页
关键词检索文本,存在一定的误差。另一方面,查询返回的文件与查询输入密切相关,如果 输入内容的区分度不好,则较难返回正确的内容。
其次,对于搜索引擎而言,由于数据量巨大,查询的效率同样是一件麻烦的事情。查询 所需时间包括计算所有文档与查询的相似度所需时间和根据各个文档相似度排序所需时间, 而本文中涉及数据量较小,只考虑计算文档相似度的时间。论文网
1。3 本文的主要工作与内容安排
进入新世纪以来,社会步入了高速信息时代,信息检索取得了很大的飞跃,特别是在大 型商用领域,搜索引擎成了我们获取信息的入口。本文查阅了大量文本检索的论文和书籍, 学习研究了信息检索的理论框架和关键技术。重点讨论了词项权重的分配及文本相似度匹配 的问题,并编写程序实现简单的信息检索程序。
本程序在 windows 平台,通过 Spyder 集成的 python 开发环境,利用第三方开源库及自 行编写的代码,实现了文本分词、词项权重的分配以及文本检索排序等功能。
本文安排如下:
第一章, 引言部分,介绍本课题研究的背景、意义,分析了信息检索实习的难点问题。 第二章, 概述文本检索相关技术,介绍了文本检索的核心算法模型。
第三章, 程序的编程实现,包含程序的结构,以及结果分析。 第四章, 结论部分,以及接下来要学习的部分。
第 4 页 本科毕业设计说明书
2。 文本检索相关技术分析
2。1 引言
2。2。1 文本检索概述
信息检索主要研究的是信息的获取、建模表示、组织存储方式和快速访问 [9]。从文字符 号开始出现,就已经有了信息检索,远古的人们利用文字书写记录某些重大事件,供后人查 阅借鉴,此过程也就是信息检索的过程。为了能更加快速的获取与查阅文档,索引便出现了, 例如书籍中的目录、图书馆的书籍的索书号等。而电子计算机的出现后,信息检索理论与计 算机技术迅速结合,使得信息检索技术飞速地应用和发展。1950 年 3 月 Calvin Mooers 创造 性地首次提出了“Information Retrieval”这个术语词汇[10]。20 世纪 60 年代到 70 年代,人们 利用计算机建立的文本检索系统,已经可以小规模的应用于科技和商业文献, 并且取得了成 功。
从概念上讲,信息检索有广义和狭义之分。广义上,先将信息组织存储在一个集合中, 然后根据用户的查询,从信息集合中检索出相应的信息子集,以满足用户的查询需求。而狭 义上,研究主要集中在优化检索部分,研究的重点是如何更加高效快速地从信息语料库文档 集中找到与用户查询需求相关的信息子集,并且追求返回的信息子集的高准确性,关注的仅 仅是信息查找的部分。
从技术层面,文本检索技术可以看作信息检索。因为文本是视频或者音频经分解后的最 终表示形式,又因为文本的表示非常简洁,导致文本检索迅速发展,其它形式的信息检索技 术,也需要以文本检索技术为基础。文本检索大规模商用的典型例子包括谷歌、雅虎、必应、 InfoSeek 等这些外文搜索引擎和百度、360 搜索、腾讯 SOSO 等中文检索引擎,而这些搜索引 擎的功能又不仅限于文本搜索,如谷歌和百度都已经开发了图片搜索,可以以图搜图,这些 搜索引擎在信息检索领域无疑是非常成功的。 TF-IDF算法实现Web内容的搜索与排序(3):http://www.youerw.com/jisuanji/lunwen_87271.html