基于文本挖掘的文件相似性检测方法是数据挖掘方面比较早的一种相似性检测算法。文本挖掘技术主要是指从文本集或语料库中挖掘有效可用或有意义的模型和规则并最终形成归纳性成果的过程[14]。文本挖掘利用人工智能和机器智能的方法,结合中文语言处理技术,分析大数据环境下的海量文本源和语料库,抽取或标记关键字,同时将类Apriori的关联、聚类、分类等规则算法应用于中文文本挖掘,计算出文本集或语料库中相同或相关几类特征值的特征集,同时基于该特征向量在满足最小置信度的前提下求出所有的关联项目,基于此求出各类文本中特征项的关联关系,从而了解不同文本间的关联关系,找出其相似度或相关度。文本挖掘技术可以解决从多文本进行多段落抄袭的现象,即“东拼西凑”,而且针对中文文本相似性检测的准确率较高切但该算法存在的弊端是分词系统的准确率和效率仍需改善[15],对分词词典的一致性和规模性要求较高,且对特征词的同义词进行识别困难;另一方面由于中文文本挖掘规则的引入,在使用自然段落划分或指定划分对文本进行分块时,对关键特征量提取粒度进行控制较为困难,在相似性检测中容易造成漏判[16]。

总结现有的文件取证技术和系统,发现几点不足:

1。现有的词频检测算法与系统很少对关键词进行语义分析,对同义词进行处理,也没有考虑关键词的位置等信息,对文中特征向量的语义、位置等信息没有区分对待。而且词频检测算法的关键词维度过高,数量较大,在关键词的提取中对很多无意义的词、经常出现的词没有进行处理。计算权值的时候对出现次数较少的关键人名和地名信息不够敏感。

2。现有的语义检测和指纹检测作为单独算法进行文本相似性比较时,在大数据环境下检测速度慢、效率低。并且这两种算法没有考虑关键词的统计数量,对关键内容的提取效果低。

3。现有算法在对文档进行特征提取的过程中,提取的特征向量往往过多,导致相似性检测的时间较长,如何减少文档特征向量以提高检测速度成为了关键问题。

因此,在对现有技术进行改进的前提下,提出结合分词系统和基于改进的向量空间[17]模型的TF-IDF算法的动态加权文件相似性比较技术,在文本分层检索、特征权重、特征降维等方面提高相似度比较的速度,同时结合基于语义理解、关键词位置和命名体权重等方案重置关键词权重,提高相似度比较的准确度。

上一篇:转动惯量测试系统国内外研究现状
下一篇:吡唑类化合物的研究现状

多媒体技术对教学影响的国内外研究现状

3D打印技术国内外研究现状和参考文献

生态浮床技术国内外研究现状

HTML5三维全景展示技术国内外研究现状

转向架安全监测技术的研究现状

激光焊接的技术研究现状

铝合金的焊接技术研究现状

新課改下小學语文洧效阅...

互联网教育”变革路径研究进展【7972字】

麦秸秆还田和沼液灌溉对...

安康汉江网讯

老年2型糖尿病患者运动疗...

网络语言“XX体”研究

LiMn1-xFexPO4正极材料合成及充放电性能研究

我国风险投资的发展现状问题及对策分析

张洁小说《无字》中的女性意识

ASP.net+sqlserver企业设备管理系统设计与开发