基于相似性的检索是指根据一组共同的关键字找出相似的文档。这类检索的输入应该是基于相关度,其中相关度的度量是根据与关键词的近似性,关键词的权重等等。
本设计主要对它的处理如下:
(1)对于K类中的每一类文本,先提取能代表该类的三十个关键词语。
(2)依照权重计算方法,计算每一篇文本中各类三十个关键词的权重。
(3)同一篇文本中同一类的关键词按照权重大小进行降序排列。
(4)取每一类总关键词中的top n个关键词,组合成一个特征向量。
由上可知,所有文本的向量文数降到了K*N文,如果要聚集七类文档,top n选4,那么每一篇文本用一个28文向量就可以表示出来,这样大大降低了向量的文度,方面于以后的算法聚类!当然这种方法对关键词的依赖就大了,所以关键词的数量不能太少,且一定要起到那一类的代表性作用。
2.1.3.6文本聚类过程本文来自优-文~论^文.网原文请找腾讯3249,114
文本聚类主要依据聚类假设:同类的文本相似度较大,非同类的文本相似度较小。作为一种无监督的机器学习方法,聚类由于不需要聚类过程,以及不需要预先对文本手工标注类别,因此具有较高的灵活性和自动化处理能力,成为对文本信息进行有效组织,摘要和导航的重要手段。文本聚类的具体过程[3]如图2-1:
论文网http://www.youerw.com/
图2-1 文本聚类的过程
2.2 K-means算法
关于数据挖掘中的聚类算法有很多种,作为统计学的一个分支,聚类分析己经被广泛地研究了很多年,主要集中的基于距离的聚类分析。其中最经典的就是基于K-Means(K-均值)的算法。K-Means算法在聚类方法的分类中,属于划分方法的一种。在划分方法中,首先要给定要划分的数目k,创建一个初始划分,然后才有一种迭代的重定位技术,尝试通过对象在划分间移动来改进划分。K-Means算法以k作为参数,把n个对象划分为k个簇,以使簇内具有较高的相似度,而簇间的相似度较低。相似度的计算根据一个簇中对象的平均值(被看作簇的中心)来进行。该算法尝试找出使误差平方和函数值小的k个划分,通常都以局部最优而结束。
2.2.1 传统K-means算法介绍
输入:聚类个数k,以及包含 n个数据对象的数据库。
输出:满足方差最小标准的k个聚类。
处理流程:
1): 从 n个数据对象任意选择 k 个对象作为初始聚类中心;
2): 循环(3)到(4)直到每个聚类不再发生变化为止;
3): 根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;
4): 重新计算每个(有变化)聚类的均值(中心对象);
k-means 算法接受输入量 k ;然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。
2.2.2 K-means算法特点
K-Means算法的特点--采用两阶段反复循环,结束的条件是不再有数据元素被重新分配:
(l)指定聚类,即指定数据 到某一个聚类,使得它与这个聚类中心的距离比它到其它聚类中心的距离要近。
上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9] 下一页
基于K-means的文本聚类算法研究 第7页下载如图片无法显示或论文不完整,请联系qq752018766