在各种纷杂的信息中,又属文字信息居多:手机应用里的新闻,电子书,甚至亲友之间短信微信都一点点的充斥着我们的生活。现代人已经越来越习惯于用在网页上浏览信息的方式去解决问题。甚至政府部门,公安机关等等都有自己专属的官方网页微博等。而百姓在网上咨询问题也已经不再少见新鲜,因为这种方式节约了人们的时间和精力,不需要专门去找相关部门去解决问题。所以,越来越多的网络上有越来越多的信息咨询专属平台。From+优 尔-论+文W网www.youerw.com 加QQ752018`766
若是可以在人们提交一个问题文本之后就自动把这个问题归类,对于回答的工作人员,术业有专攻,他们可以更专业的为人们服务,也提高了他们的工作效率。对于老百姓来说,如果可以有些问题的分类,他们也便于在这些已经解决的地方查询也许就能找到问题的答案。
住房、医疗等问题是事关国家又与个人息息相关的话题。企业具有义务为在职的员工缴纳公积金,这种强制的方式可以保障每个职工的住房要求。在我国房价一直居高不下的大背景下,住房公积金对于职工具有非常重要的保障意义。
南京公积金官方网站(http://gjj。nanjing。gov。cn/)中人们对于公积金贷款等问题的非常关注,经过观察,在线咨询中每天都有新问题的咨询,所以提前对信息进行分类显得非常必要。
TF/IDF方法提出了一种建立模型的思想,运用模型确定用于分类的关键词的权重和分类的阈值,从而实现自动对文本进行分类。
1。2 主要工作及安排
本文的最终目的是对文本进行分类,并且要求分类器有较为良好的性能,让它的检测准确率尽量达到80%以上。
前期工作是阅读数据挖掘方面的关于分类的知识,先对分类的思想和基本的方法有了解,对于基本概念有掌握。
然后再对已知类别的大量样本文本(即训练样本集)做分析,运用TF/IDF的思想建立模型,对关键词赋予权重,确定阈值,思考如何能使分类模型的分类性能更优。用上述模型中确定的关键词权重阈值等数据,对重新获取的文本类别进行预测分类。论文网
如何建立模型、确定权重和阈值是本文工作中最难也是最核心的问题。这个步骤将会对整个分类器的分类性能造成直接影响。
最终将以图表、配图、matlab等形式配合展现分类的结果,这样可以使分类模型的准确率结果尽可能的直观,容易比较。
2 数据挖掘中的常见分类算法介绍
2。1 基本概念介绍
数据挖掘的过程中分类是非常关键的环节,分类的目的是运用一个分类函数或者说分类模型(也称分类器)将数据库中的元组映射到预先给定的类别中的一个类别。分类模型常常被用于预测[2]。分类的概念可用如下语言描述:
给定一个数据库 和一组类 ,所谓分类问题就是确定一个映射 ,每个元组 被分配到一个类中。类 包含映射到该类别的所有元组,即 。这些预先设定好的类是不互相包含或重叠的[16]。
一般来说,数据分类(Date Classification)有两个步骤组成:建模和使用[14]。首先建模是指,我们需要分析数据库中的元组的属性来构造模型。为了建立分类模型而被分析的数据元组形成训练数据集。训练数据集中的单个元组被称为训练样本,训练样本是随机地从样本群中选取。这样保证了分类的客观真实。建立好模型之后,我们需要检测它的准确性,在训练样本之外随机选取样本,运用模型进行分类,将已知类标号与该样本的学习模型类预测结果进行比较,多选取一些样本就可以得到该分类模型的准确率。若使用者对该准确率满意,则可以使用该分类模型对需要分类的数据元组进行分类,如果不满意该准确率,可以对模型进行改进重复上述步骤[11]。