摘要简述了数据挖掘中关于分类问题的具有代表性的算法,对文中的文本分类的算法提供了理论支持。详细介绍了TF/IDF算法的原理以及各个术语的意义,并且介绍了这个方法在信息论里面的理论依据。基于数据挖掘的分类方法和TF/IDF方法的概念,对南京公积金网站的大量样本进行了分析,整理出这些文本样本的词语出现的频度,并由此确定用于分类的关键词。依据TF/IDF的思想,建立了权重模型,确定阈值和关键词的权重,再对新添加的文本进行分类。共建立了两种权重模型,分别从二维情况推广到多维情况。用Matlab表现了实验结果,并且对它们的分类效果运用图表的形式进行了比较。最终将分类器的准确率提高至接近80%。87571
毕业论文关键字 TF/IDF 分类 数据挖掘 权重 阈值 模型 分析
毕业设计说明书外文摘要
Title Classification on Web based on TF/IDF Character
Abstract By a Brief introduction of representative classification arithmetic in Data Mining , it is easier to make the definition of text classification clear。 The method and theory of TF/IDF has been clarified in details, along with the meaning of the terms and the supportive evidence in Information Theory。 With all these definitions and theoretical basis, a lot of training and observation has been dong to the text samples from the Nanjing Gongjijin Web, which collects the term frequency。 By doing this, the key words can be found。 The model also decides the weight of the key words and the threshold value of classed。 Therefore the new text samples can be classified using the model automatically。 Also the performance of the model then is going to get carefully analyzed and then optimized。 Finally the correct rate is nearly 80%。
Key words TF/IDF classification data mining weight threshold vaule model analyze
目 次
1 引言 1源-于,优~尔^论=文.网www.youerw.com 原文+QQ7520~18766
1。1 信息分类的研究背景 1
1。2 主要工作及安排 1
2 数据挖掘中的常见分类算法介绍 3
2。1 基本概念介绍 3
2。2 分类算法介绍 4
3 TF/IDF算法的介绍 12
3。1 概念介绍 12
3。2 TF/IDF的信息论依据 13
4 对南京公积金网站的研究及分类情况 15
4。1 准备工作 15
4。2 权重(Weight)的确定 15
结 论 27
5。1 图表实验结果 27
5。2 关于实验结果的思考 27
致 谢 28
参 考 文 献 29
1 引言
1。1 信息分类的研究背景
人类进入网络时代之后信息趋向多元复杂,数量更是不可计算,大数据的时代已经来临,我们需要从这些信息中提取自己所需要的。所以,对这些信息进行分类是处理它们的第一步。