在词频统计技术中,一般采用向量空间模型(VSM)来表示,VSM模型广泛应用于信息检索领域。VSM模型中,文档空间被认定为是由独立的词条组成的空间向量集,每个文档被表示为一个特征向量来计算其相似度,常用的计算公式有点积法和余弦法。
2.3.1.1 SCAM
1995年,Narayanan Shivakumar和Hector Garcia-Molina等人研制的SCAM系统是基于词为匹配单位的抄袭检测工具。通过对相似度、检索代价等各方面的分析,SCAM工具在信息检索领域的空间向量模型(VSM)基础上提出了相关频率模型(RFM)。为了避免非重点词语多次出现而导致的相似度误差,相关频率模型RFG设定了一个亲密集用来收集文档和待检测文档中相似词语出现次数达到一定数目的词。
SCAM系统是在分析了COPS系统不足之后改进的,性能比COPS更优良。但是SCAM也有其不足之处,基于词的检测模块使得相似度的计算偏高,导致一些不属于抄袭的文档被判为抄袭文档。
2.3.1.2 CHECK
1997年,由香港理工大学的Antonio Si和Hong Va Leong等人研制的CHECK抄袭系统也是采用基于词频统计的方法。CHECK系统主要由文档注册、文档比较和文档解析三个模块组成。文档注册模块是将未注册且非拷贝的文档注册到源文档数据库中。文档比较模块是将输入的待匹配文档与已经注册的文档进行检测,并查看结果是否存在抄袭。文档分析模块是建立内部索引结构的,为文档注册和文档检测提供便利。CHECK系统将文档按照章、节、段构造树,章为根节点,段为最小单元节点。每个节点按照词频统计法提取该结构关键信息作为节点信息并且为每一层的节点信息加权,以便于相似度的计算。在检测过程采用深度遍历法,从根节点信息开始检测,只有在父节点匹配成功后才能进入下一层节点检测,这样就避免了不必要的检测次数。
CHECK系统以文本结构作为检测的基本结构,根据词频统计的方法提取重要信息建立检索树,采用深度遍历的方法,当父节点匹配失败时,停止子节点的检测,避免了不必要的次数,提高了检测性能。
2.3.2基于数字指纹技术的检测方法
数字指纹是指与用户和某次购买过程有关的信息。在抄袭检测技术中,数字指纹是指选取文档中一定长度的字符串作为“指纹”,并把这些“指纹”映射到HASH表中,最后计算出HASH表中相同的指纹个数以此作为两篇文档的相似度的鉴定方法。源[自[优尔^`论`文]网·www.youerw.com/
2.3.2.1 SIFF
1994年,Manber设计的SIFF工具中首次提出了“指纹”的概念,对以后数字指纹在抄袭检测技术的发展上有着重大意义。在指纹提取过程中为了避免插入和删除操作的干扰,实现两篇文章相同部分的同步,Manber设计在文档中随意选择一组字符串定义为锚,查找当前文档中所有的锚,以锚开始选取固定长度为50的字符串作为一个“指纹”。通过对指纹相似个数的统计得出文档的相似度。
SIFF工具主要应用在大型文件系统中查找相似文档,并不能直接用于文档的抄袭检测中。但是他提出的数字指纹技术为以后很多检测工具的设计提供了理论基础。
2.4 本章小结
本章首先介绍了抄袭与剽窃的定义,然后简单介绍了当前的抄袭检测工具及其实现技术种类和实现技术原理。针对每一类检测方法分别列举了几项当前较典型的抄袭检测工具,分析它们的实现方法和性能的优劣。