2.对文本相似性检测系统中各部分知识进行研究,如中文分词算法和技术、文本表示模型、文本相似度计算方法,同时各类相似度计算方法进行了解和比较,分析各种算法的优缺点、适用特点。本文对现有的向量空间模型的余弦相似性算法进行改进,不仅分析其余弦相似性角度和余弦距离,从而纵向比较文本的相似度文献综述。
3.根据改进的算法,设计并实现文本相似性检测系统,并通过复旦大学语料库进行各类阈值的设定,最终通过测试集测试相似性比较效果。
1。4 本文的组织结构
本文共分为五章,文章的结构如下:
第一章即绪论,概述了文本取证技术(文本相似性检测技术)的国内外研究现状、目前技术存在的不足之处和本文提出的解决方法。
第二章介绍了实现中文文本取证技术的相关理论基础和技术,并分别分析了实现该取证技术各流程的常用实现方法和技术、该技术存在的问题和本文采取的技术手段。
第三章介绍了传统的TF-IDF算法并分析其不足之处,针对该算法存在的问题进行改进。
第四章阐述了文本取证技术的具体实现方案,对实现方案各个阶段的任务做了详细分析,同时对主要技术实现的相关代码进行解释。
第五章对各类阈值参数进行实验设置,并对比分析了改进的TF-IDF函数相对于传统函数在文本取证技术上准确度、召回率和宏平均方面的优势。
2 相关理论基础
中文文本的文件取证技术是一项繁杂的工作,如文本描述模型、中文的自动分词技术、特征向量提取技术、文本相似性比较技术,都是实现文本取证的必要技术。本章对实现文本取证中相似性检测各阶段的理论和技术进行分析。
2。1 文本描述模型简介
文本描述模型是指将无法用程序算法直接进行分类或相似度判定的一种非结构化的数据化为计算机能识别的形式,即将文本形式化[17]。如近几年来使用较多且效果较好的一种信息检索模型,由Salton等人于20世纪60年代末提出的向量空间模型[18],是一种简便、高效的文本表示模型。文件(语料)被视为由被赋予不同权值的关键特征词形成的多次元向量空间,关键特征词的集合通常为文件中至少出现过一次的词组[19]。在向量空间模型中,文本可以用特征项向量表示,即D=(T1,T2,…,Tn),其中Tk即上述确定的特征(1≤ k ≤n)。对文本中的n个特征向量,我们给每个特征项根据重要程度赋予不同的权重来表示其对文本的贡献度,即D=(T1,W1;T2,W2;…;Tn,Wn)。该特征表示中Wk是 Tk的权重(1≤ k ≤n)。
向量空间模型(或词组向量模型) 是一个应用于信息检索、信息聚类分类代数模型。由以上分析可知,文本的关键词及其数量统计是该技术的重要手段。向量空间模型关键词的权重便于统计,模型简单,计算方便,但是每个关键词都被同等对待,特征向量较为单一,代表性不足。来,自,优.尔:论;文*网www.youerw.com +QQ752018766-
除此之外,描述文本较常用的方法还有布尔逻辑模型和概率模型[20]。布尔模型集合论和布尔代数的一种经典模型,对分出来的关键词对应其是否出现在分词词典中,对应权值为0或1,文档检索也是由布尔逻辑运算来决定的。它具有简洁的形式化,同时便于我们理解,但是在准确匹配,信息需求方面存在不足[21]。因此布尔模型通常只能用于检索相关的不同文档,对这些文档的相似度不能进行测试;概率模型是用概率来表示特征项,即给定一个用户的目标文件和集合中的文档,用概率模型来估计用户目标文件与文档相关的概率。概率模型假设这种概率只由目标文档和检测文档决定。在信息检索和信息分类的研究中,通常为了计算方便需要对概率模型做一些假设,比如:假设需要检索的单元在相关文档集中的分布相互独立(即同类或相似文章中),在不相关文档集中(即不同类或不相关文档)的分布也相互独立。但是这一假设与实际情况并不完全一致[22]