4。2 文件取证系统界面以及功能 15
4。3 模块设计 16
5 系统测试与评估 23
5。1 系统运行环境 23
5。2 测试数据 23
5。3 评价标准 23
5。4 各类阈值的选择 24
5。5 三种取证算法的比较 27
结 论 31
致 谢 33
参 考 文 献 34
1 绪论
1。1 本课题的研究意义
随着计算机技术、通信网络技术的迅速发展,信息以爆炸的形式出现在我们的生活里,这种信息具有大容量,形态多样的特点。海量信息中以多种形态存在的电子文件,通常包含丰富的内容,同时易于获取且时效性极强。电子文件在用户间传递时可能会发生版本的变化;在网站论坛转帖的过程中可能会产生格式、字符的改变;误操作和电子设备故障会导致文件的部分字节丢失或损坏;罪犯会恶意修改文件的标题、关键词等进行掩饰。此外,被删除的文件经过数据恢复后与原文件相比往往会有部分内容丢失而导致内容改变或乱码;对网络数据进行数据重组得到的文件与原文件相比也会有格式或者部分字符上的差异。电子文件的脆弱性给取证带来了极大的困难,因此,研究适应于大数据环境下的同源文件的挖掘和取证技术,是目前亟待解决的一大问题。另一方面,大数据环境下电子文件以爆炸的信息呈现在用户面前,在成千上万的互联网信息中,面对冗余的信息用户通常很难快速而准确地找到自己感兴趣的信息。因此,研究大数据环境下文件相似性技术对用户快速进行信息过滤和攫取提供了方便。论文网
文件取证技术,即在大数据环境下的海量信息中寻找与目标文件相似或用户感兴趣的信息文件等。相似性检测技术,能够快速、准确而全面地检索目标文档与大数据中海量文档的相似相关信息。本文立足于解决在海量文件信息中如何快速自动分类以准确的查找相似文本的信息,可以帮组企业挖掘感兴趣的产品信息(例如网购),帮助用户找到需要的相似信息,同时也可以帮助安全部门进行舆情分析,是文档复制检测技术、信息检索和过滤、文档自动分类聚类的一种有效手段,在文本分类等管理系统、文本复制查重检测技术、数字图书馆、搜索引擎、文本信息过滤和监督、企业海量数据分析、摘要自动生成等多种领域有良好的应用效果[1]。
1。2 国内外研究现状
1。3 本文的主要工作
本文基于词频统计知识对现有的TF-IDF算法进行改进面,结合相似度计算知识进行完成文本相似度检测系统,主要工作如下:
1。基于TF-IDF算法的改进。本文首先对几种传统的特征抽取算法进行分析:基于指纹分析的方法、基于词频统计的方法、TF-IDF统计方法。这几种常见的特征抽取方法中我们将文本关键词统一对待,特征向量具有单一性。本文在传统的TF-IDF算法上进行改进,考虑关键词的语义、位置信息、长度、命名体识别因子等,与传统TF-IDF权值方法相结合,计算得到关键词总权重。其次,赋值后的关键词的权重各不相同,为了提取权重较高即对文本贡献值较大的关键词,同时也为了提高检测速度,我们对所得关键词的权重值经过训练集文本测试设定一个阈值,即对文本特征向量进行降维,我们对训练集文本进行训练得到一个实验阈值,我们只提取权值大于这个实验阈值的关键词。最后,为了提高分词器的分词效果,同时也便于对不同文章进行检测,我们在系统中增加了停止词词典,并且根据自己的需要可以修改词典,甚至可以加入领域词典。