毕业论文论文范文课程设计实践报告法律论文英语论文教学论文医学论文农学论文艺术论文行政论文管理论文计算机安全
您现在的位置: 毕业论文 >> 论文 >> 正文

试题库自动分类系统设计+TFIDF文本自动分类+数据挖掘 第6页

更新时间:2016-8-25:  来源:毕业论文
图3.1为分类的流程,首先先获取待分类文本,然后对文本进行分词处理,分词后再统计分词后词的数量,通过这些数量来计算出每个词的词权,也就是数据挖掘,之后再通过分类器进行分类,输出结果。
了解了分类流程之后就可以一步一步的进行功能的实现,而第一步要做的就是文本的分词功能。
3.2文本分词的实现
调用中科院分词系统,是文本分词功能的实现方案,本次研究中所要达成分类的效果,就是需要挖掘出文本中的关键词,而挖掘关键词之前就必须把文本分词,分词之后就能进行统计和挖掘。实施这部分的具体流程如下图3.2:

图3.2 分词流程图
分词流程,首先需要获取待分词内容,也就是文本内容,然后需要装载中科院分词系统的字典,其次调用中科院分词系统进行分词处理,完成后使用空间进行分词结果的显示。
我们使用一个Textbox输入一段题目,用分词系统进行分词测试,并通过Textbox显示分词结果。如图3.3 分词结果

图3.3 分词结果
如图3.3可见系统已经可以把整段的文本分词成为一个一个词,之后变可以对其分词结果进行统计。
3.3分词统计的实现
通过之前的中科院分词系统的分词,我们将得到一个数组,这个数组就是分词结果,而分词统计需要统计出每个词出现的次数,文本中的词数,文本中不重复词的词数。为之后所要进行的数据挖掘TFIDF算法做好充分的准备。
通过中科院分词系统返回的数组是中科院分词系统自带的,为了不修改中科院系统程序并之后能够更好的控制,我在统计的时候把统计后的结果存放入我新创的数组中。具体实现流程如下:

上一页  [1] [2] [3] [4] [5] [6] [7] [8] 下一页

试题库自动分类系统设计+TFIDF文本自动分类+数据挖掘 第6页下载如图片无法显示或论文不完整,请联系qq752018766
设为首页 | 联系站长 | 友情链接 | 网站地图 |

copyright©youerw.com 优文论文网 严禁转载
如果本毕业论文网损害了您的利益或者侵犯了您的权利,请及时联系,我们一定会及时改正。