在文件取证技术发展上,数字指纹和词频统计是取证技术的两大主流技术。相似度检测技术起源于国外,因而在国外技术较为成熟,但是这些技术多数是对英文文本进行区分,检测出来的文本关键特征不明显、准确度不高,同时不够全面,这些问题是影响该技术准确性的大问题。由于英文每个单词都代表一个词,每个单词可以区分对待,而中文一个句子可以由多种词义的词语组成,因此中文文本需要分词等预处理过程。另一方面,中文语言存在同义词,其语句中也有主动被动等多种表达形式,不同关键词在不同语句中有不同的意义,这也成了相似检测技术的一大难题。76967
数字指纹算法的文件相似性检测技术的核心在于通过传统哈希算法形成文件指纹来进行多文件间的快速比对[2],该技术能简单有效的处理海量文本,没有复杂的转换过程,能够实现指纹唯一性和高分布性的生成,应用普适性强[3]。1994年亚利桑那大学的Manber提出Sif工具提出将文件映射成指纹进行检测,是最早的数字指纹检测算法[4]。接着,1995年斯坦福大学Brin等提出COPS系统,将系统用于文件复制检测中。1997年Broder等人提出的Shingling技术用于检测两个文档间的相似技术,通常用于网页去重。悉尼大学的Wise提出的YAP工具和2000年Monostori等人建立的MDR系统,则是数字指纹系统在分块和分句计算的进一步运用与实现。指纹取证根据MD5计算对象粒度的不同又可分为三大类:全文计算,分句计算,分块计算[5]。其中以全文计算最为常用,既简单的以文件作为输入得到该文件的MD5指纹,这种算法速度极快,匹配率高,思路简单,但对于稍作改动的文件即会产生完全不同的MD5值造成漏判,这在取证中是不能容忍的。
基于词频统计的文本相似性检测算法通过现有的分词技术对文本进行分词,对分出来的字或词进行统计计算其频率,并根据其频率进行赋值得到文本的特征向量,最后通过空间向量模型来计算不同文档之间的相关度[6]。由于这种技术主要针对不同文本的特征向量及其数量,因此只要是针对能够代表文本的特征向量的相似检测技术。1995年斯坦福大学等人提出SCAM模型以及以SCAM为基础的DSCAM模型,该模型在原有传统的词频检测算法中对文档进行检测,是最早的检测系统[7]。1997年香港理工大学Si等人提出CHECK模型,是一种在句子相似度方面改进的复制检测系统[8];2001年宋擒豹等提出的CDSDG(即数字产品的复制检测系统模型),该系统解决了文章中单独复制一段的问题[9]。2006年西安交通大学鲍军鹏等提出的高频模型HFM,该系统提高了检测速度和效率。论文网
由于基于词频和向量模型的算法将文件中的每个分词后的词语同等对待,对其重要程度没有进行区分,因此该算法检测结果准确度较低,容易误判,有时并不能满足实际要求。不同的关键字、词在文档中有着不同的区分性和关键程度,因此不同位置、不同语义信息的关键词应该赋予不同的权值。另外,此类检测方法还存在一个问题,由于中文词典涵盖量较广,分词后产生的关键字较多,使文本特征向量维度变大,使文本检测时间加长[10]。
同时,另一种相似性比较算法正在兴起,基于语义结构的文本相似性检测算法的突破在于对于中文文本的最大问题——同义词进行了相应处理[11]。该算法使分词机制的效率和准确率有了很大的提升,但其对语义结构的依赖也使准确率受机器语义理解能力和人工操作的限制[12]。同时文本重构过程的引入和海量数据模型训练也使得算法的效率仍有待提升,同时由于机器对于语义结构理解能力的不确定性使得该算法存在很大的准确性问题,成了语义理解相似性比较的最大问题,由于只能判定疑似同源,判定确定相似仍需人工大量介入进行最终裁定,在实际大数据环境下检测不现实[13]。 文件取证技术国内外研究现状:http://www.youerw.com/yanjiu/lunwen_88377.html