毕业论文论文范文课程设计实践报告法律论文英语论文教学论文医学论文农学论文艺术论文行政论文管理论文计算机安全
您现在的位置: 毕业论文 >> 论文 >> 正文

试题库自动分类系统设计+TFIDF文本自动分类+数据挖掘

更新时间:2016-8-25:  来源:毕业论文

《计算机应用基础》课程题库自动分类系统
摘要:为了能够有效地组织和分析海量的文本信息资源,免去繁琐又低能的人工分类过程,文本自动分类系统将是简便又高效的最佳选择。本课题设计一个文本自动分类系统,利用文本词性与分类的样本词性的比较,返回最接近文本词性的样本的分类,从而得到分类结果。本系统通过中科院分词技术进行文本分词、统计分词结果、通过TFIDF计算各词的词权、再与各个分类样本的词形成向量,在向量空间模型(VSM:Vector Space Model)中通过向量余弦定量比较相似度确定类型。自动分类系统基于dot net平台,本文来自优~文^论#文,网,毕业论文 www.youerw.com 加7位QQ324.9114找源文适用与微软各个版本的操作系统。自动分类系统通过接口对数据进行传输操作,数据安全性大幅度提升。系统中提供用户分类样本的制作和新分类创建的接口,无需人工统计样本,也无需被样本种类所限制,也为将来系统的成长做铺垫,可以通过不断的分析文本来增加样本数据量,精确相似度计算精度,真正成为能够自我成长和完善的智能成长性系统。
关键词: 文本自动分类;文本分词;TFIDF;向量空间模型;向量余弦定理
Automatic Categorization System of <Fundamentals of computer application>
Abstract: To effectively organize and analyze large number of text, is removed from the tedious and low energy artificial classification process, text automatic categorization system is great choice. This topic is to design a text automatic categorization system, using the word and the classification of the samples was compared to return the closest classification, so as to get the result. The system through text segmentation, statistical word segmentation results, calculated each word right by TFIDF, and then compared to vector cosine similarity with various classifications of the word right to determine the type. Automatic categorization system based on dot net platform and it can be used in various versions of the operating system for Microsoft. Automatic categorization system used the interface for data transmission and data security is greatly improved. System provides the user the interface of making classification samples and creating new classification, it will not be limited by sample types. It is order to the future of the system. It can increase the amount of sample data and accurate similarity calculation precision through continuous analysis of texts .It will be able to become a self-development and improve the smart growth system.
Keywords: text automatic categorization;Text segmentation; TFIDF;VSM; vector cosine theorem
目录
摘要 i
Abstract i
目录 iii
1 绪论 1
1.1 课题的目的和意义 1
1.2 国内外研究现状与水平 1
1.3 发展趋势 2
2 分析 3
2.1 系统的总体功能 3
2.2 系统功能简介 3
2.2.1 中文分词 3
2.2.2 数据挖掘 4
2.2.3 分类器 4
2.3 系统方案的选定 4
2.3.1 分词系统方案的选定—ICTCLAS中科院分词系统 4
2.3.2 数据挖掘系统方案的选定—TFIDF算法 6
2.3.3 分类器方案的选定—空间向量模型VSM 6
2.4 系统的扩张功能分析 7
2.4.1 文本批量处理 7
2.4.2 样本导入接口 7
3 文本自动分类功能的实现 8
3.1 分类流程 8
3.2 文本分词的实现 8
3.3 分词统计的实现 10
3.4 数据挖掘的实现 12
3.4.1 TFIDF算法描述 12
3.4.2 TFIDF算法的实现 13
3.5 分类器的实现 15
4 系统扩充功能的实现 18
4.1 样本制作的实现 18
4.1.1 样本数据结构 18
4.1.2 样本制作的实现 21
4.1.3 样本向量的实现 24
4.2 批量处理的实现 25
5 分类的优化与改进 28
5.1 对于原功能的测试 28
5.1.1 测试样本 28
5.1.2 测试结果 28
5.1.3 测试分析 29
5.2 特殊符号干扰关键词 29
5.2.1 选择题的字母与占位符 29
5.2.2 填空的下划线 30
5.2.3 对题库内不关键的关键词的处理 32
5.3 TFIDF算法改进 33
5.3.1 TFIDF的漏洞 33
5.3.2 改进方法 33
5.4 样本扩充 34
5.5 改进结果 36
6 《计算机应用基础》试题测试 38
6.1 《计算机应用基础》试题的样本及类型 38
6.2 《计算机应用基础》试题测试 38
7 系统的展望 40
7.1 为不同领域的分类提供不同的算法 40
7.2 对属于多个类型或不属于任何类型的分类处理 40
7.3 形成C/S网络架构,共享分类样本 40
8 系统的使用说明 42
8.1 系统的环境 42
8.2 系统的使用 42
8.2.1 主界面 42
8.2.2 导入测试 43
8.2.3 分类测试 43
8.2.4 关键词挖掘 44
8.2.5 样本制作 45
8.2.6 文本分类 48
9 结论 52
9.1 系统小结 52
9.2 心得体会 52
致谢 54
参考文献 55,2858

[1] [2] [3] [4] [5] [6] [7] [8] 下一页

试题库自动分类系统设计+TFIDF文本自动分类+数据挖掘下载如图片无法显示或论文不完整,请联系qq752018766
设为首页 | 联系站长 | 友情链接 | 网站地图 |

copyright©youerw.com 优文论文网 严禁转载
如果本毕业论文网损害了您的利益或者侵犯了您的权利,请及时联系,我们一定会及时改正。