2。2。2 文本检索过程
信息检索操作的对象主要是无结构和半结构化的数据,包括文本内容、图片影像和语音 等多媒体信息。将文本内容的主要内容,或者语音文件的语音特征,或者图片影像的文件格
本科毕业设计说明书 第 5 页
式、色彩深度、纹理特征[11]等提取出来用以建立索引。文本检索式是相对较单的信息检索方 式,本文只研究文本内容为对象的检索,图 2。1 是文本检索的基本流程图。
2。2 文本表示模型
2。2。1 文本解析
文本解析是为了识别出文本的内容和结构。在文本检索的过程中,文本解析是文本检索 的预处理过程,其主要关注文档内容中的词和短语,而文本解析的质量直接影响文本检索的 效果,是信息检索过程中至关重要的一步。这个过程主要包括以下几个步骤:
① 词项切分 词项切分主要在于从文档语句中获取词项。第一章也介绍了,汉语分词不同于英语分词,
由于汉语的书面表述中是以句子为基本单位的,只有句子之间才有符号分割,句子中的词语 之间并没有任何分隔标记,只能从语义上去分割词语,而中文词语的语义又具有多样性,这 就使得词语之间的界定缺乏标准,导致中文分词比英文分词要难上百倍。文献综述
本程序中的分词系统采用字典与统计组合的分词法,分词时加载一个已经建立好的字典 去匹配文本目标,当遇到字典中已经存在的词时,就将该次切分出来;如果遇到字典中没有 的词,再用特定的算法切分词项[12]。分词效果和采用字典的质量密切相关,而字典的建立与 维护是一件十分耗时费力的事情,通常字典的建立需要统计大量文本内容,然后根据各词出
现的频率再进行筛选,最终决定把哪些词放入字典,哪些词不放入字典。
② 停用词去除 在人们的语言表述中包含许多功能词(功能词是指例如英语中的介词、冠词、代词、和
连词等,汉语中也有类似的词语),这些功能词非常普遍,但这些功能词在文档和用户需求进 行匹配时价值不大,这些词需要彻底从词汇表中去除。这些词称为停用词[13](stop word)。我 们在信息检索过程中可直接过滤这些停用词,能有效缩小索引空间的大小,增加检索效率, 提高检索效果。在构造检索系统过程中可人工维护一个标准停用词词表[14],把没有意义的词 从词表中删除。
虽然去除停用词具有上述所介绍的这么多好处,但是去除停用词会影响检索系统的召回 率。例如,用户想查找有关短语“to be or not to be”的文档,在去除停用词后,对这个短语来 说,这条查询文档就只有词项 “be”,这就使得很难找到包含该短语的文档,中文的信息检索 也有类似的情况。由于去除停用词会引起这样的弊端,一些搜索引擎采用了全文索引,即对 所有词语建立索引,包括停用词[15],而一些现代的信息检索系统更关注如何利用语言的统计 特性来更好地处理常见词的问题。本文中采用了停用词去除的处理方法,导致弊端会在结果 分析中提到。
2。2。2 词项权重计算
在词项分割出来后,下一步就是对每个词项根据其特性赋予一定的权重。George Zipf 在 1949 年出版了一本惊世之作《人类行为和最省力原则》,在这本关于自然出现分布律的书籍 中,Zipf 观察到词项出现的频率与其 rank 成反比例关系[8]。即如果 rank 可以看作重要性的度来,自,优.尔:论;文*网www.youerw.com +QQ752018766- TF-IDF算法实现Web内容的搜索与排序(4):http://www.youerw.com/jisuanji/lunwen_87271.html