3。2 文本预处理 12
3。3 文本特征提取 13
3。4 文本表示 15
3。5 基于传统数据挖掘算法的文本分类器 16
3。6 基于深度学习算法的文本分类器 17
3。7 分类评价标准 21
4 实验设计及结果分析 23
4。1 实验环境和实验数据 23
4。2 实验 1:测试训练样本数对各类算法分类效果的影响 23
4。3 实验 2:测试类别数对各类算法分类效果的影响 25
4。4 实验 3:测试不同语料库下各类算法的分类效果 27
4。5 实验 4:大数据量实验 28
4。6 实验 5:情感分析实验 32
5 文本数据的价值挖掘与应用 33
结 论 36
致 谢 37
参 考 文 献 38
第 II 页 本科毕业设计说明书
1 绪论
1。1 研究背景
大数据的时代每时每刻都产生大量的数据,这些数据里可能包含市场趋势、舆情状况、 用户偏好等大量有价值的信息。提取这些有价值的信息在大数据时代下具有重大的意义。大 数据主要有以下几个特点:论文网
(1)数据量大,往往达到了百万、千万甚至更高的数量级,已经无法单纯地依靠人工 对其进行分析;
(2)数据类型多,常见的类型有:文本、音频、视频、图片等;
(3)价值密度低,以文本为例,往往一篇很长的文章,真正涉及关键问题的部分就一 小段。
根据某种需要对大量数据进行分析分类,挖掘其潜在价值,可以实现某种特定的应用。 本文以中文文本数据的价值挖掘为切入点,说明大数据时代的数据价值挖掘研究。
1。2 研究现状
1。3 研究内容
本文对大数据时代的数据价值挖掘进行研究,以中文文本数据的价值挖掘为切入点,运 用深度学习算法对中文文本数据的主题类别和情感极性进行提取。并且通过实验的方式对传 统的文本分类算法和基于深度学习算法的文本分类算法在文本分类上的性能进行测试、分析和比较。另外,本文还对文本分类技术的应用前景进行分析,并运用 Gated Recurrent Unit[8]和 lucene 实现一个文本分类与搜索系统,对该技术进行一个简单的应用。
2 大数据时代的数据价值挖掘技术
本章主要对传统的数据挖掘算法、深度学习算法和基于 Hadoop 的大数据挖掘进行基本 的介绍。