TF-IDF算法实现Web内容的搜索与排序(4)

2。2。2 文本检索过程

信息检索操作的对象主要是无结构和半结构化的数据，包括文本内容、图片影像和语音等多媒体信息。将文本内容的主要内容，或者语音文件的语音特征，或者图片影像的文件格

本科毕业设计说明书第 5 页

式、色彩深度、纹理特征[11]等提取出来用以建立索引。文本检索式是相对较单的信息检索方式，本文只研究文本内容为对象的检索，图 2。1 是文本检索的基本流程图。

2。2 文本表示模型

2。2。1 文本解析

文本解析是为了识别出文本的内容和结构。在文本检索的过程中，文本解析是文本检索的预处理过程，其主要关注文档内容中的词和短语，而文本解析的质量直接影响文本检索的效果，是信息检索过程中至关重要的一步。这个过程主要包括以下几个步骤：

① 词项切分词项切分主要在于从文档语句中获取词项。第一章也介绍了，汉语分词不同于英语分词，

由于汉语的书面表述中是以句子为基本单位的，只有句子之间才有符号分割，句子中的词语之间并没有任何分隔标记，只能从语义上去分割词语，而中文词语的语义又具有多样性，这就使得词语之间的界定缺乏标准，导致中文分词比英文分词要难上百倍。文献综述

本程序中的分词系统采用字典与统计组合的分词法，分词时加载一个已经建立好的字典去匹配文本目标，当遇到字典中已经存在的词时，就将该次切分出来；如果遇到字典中没有的词，再用特定的算法切分词项[12]。分词效果和采用字典的质量密切相关，而字典的建立与维护是一件十分耗时费力的事情，通常字典的建立需要统计大量文本内容，然后根据各词出

现的频率再进行筛选，最终决定把哪些词放入字典，哪些词不放入字典。

② 停用词去除在人们的语言表述中包含许多功能词（功能词是指例如英语中的介词、冠词、代词、和

连词等，汉语中也有类似的词语），这些功能词非常普遍，但这些功能词在文档和用户需求进行匹配时价值不大，这些词需要彻底从词汇表中去除。这些词称为停用词[13]（stop word）。我们在信息检索过程中可直接过滤这些停用词，能有效缩小索引空间的大小，增加检索效率，提高检索效果。在构造检索系统过程中可人工维护一个标准停用词词表[14]，把没有意义的词从词表中删除。

虽然去除停用词具有上述所介绍的这么多好处，但是去除停用词会影响检索系统的召回率。例如，用户想查找有关短语“to be or not to be”的文档，在去除停用词后，对这个短语来说，这条查询文档就只有词项 “be”，这就使得很难找到包含该短语的文档，中文的信息检索也有类似的情况。由于去除停用词会引起这样的弊端，一些搜索引擎采用了全文索引，即对所有词语建立索引，包括停用词[15]，而一些现代的信息检索系统更关注如何利用语言的统计特性来更好地处理常见词的问题。本文中采用了停用词去除的处理方法，导致弊端会在结果分析中提到。

2。2。2 词项权重计算

在词项分割出来后，下一步就是对每个词项根据其特性赋予一定的权重。George Zipf 在 1949 年出版了一本惊世之作《人类行为和最省力原则》，在这本关于自然出现分布律的书籍中，Zipf 观察到词项出现的频率与其 rank 成反比例关系[8]。即如果 rank 可以看作重要性的度来,自,优.尔:论;文*网www.youerw.com +QQ752018766- TF-IDF算法实现Web内容的搜索与排序(4):http://www.youerw.com/jisuanji/lunwen_87271.html