2 研究现状论文网http://www.youerw.com/
2.1 文本聚类
2.1.1 文本聚类的定义
文本聚类[1]就是将一个训练文献集分成若干称为聚类簇(cluster)的子集,每个聚类簇中的成员之间具有较大的相似性,而聚类簇之间的文本具有较小的相似性。文本分类一般是通过统计方法或知识工程方法来实现的。知识工程方法需要编制大量的推理规则,因此其开发费用相当昂贵。相比之下,统计方法由于其简单的机制,为大多数实用文本分类系统所采用。在基于统计的各种分类方法中,它们的共同点是从文本中提取词汇信息,并以特征向量的形式来表示文本。
2.1.2 文本聚类的应用本文来自优-文~论^文.网原文请找腾讯3249'114
文本聚类的主要应用点包括[2]:
(1) 文本聚类可以作为多文本自动文摘等自然语言处理应用的预处理步骤。其中比较经典的例子是哥伦比亚大学开发的多文本自动文摘系统News blaster。
该系统将新闻进行聚类处理,并对同主题文档进行冗余消除、信息融合、文本生成等处理,从而生成一篇简明扼要的摘要文档。
(2)对搜索引擎返回的结果进行聚类,使用户迅速定位到所需要的信息。比较典型的系统有Infonetware Real Term Search。Infonetware具有强大的对搜索结果进行主题分类的功能。另外,由Carrot Search开发的基于Java的开源Carrot2搜索结果聚合聚类引擎2.0版也是这方面的利用,Carrot2 可以自动把自然的搜索结果归类(聚合聚类)到相应的语义类别中,提供基于层级的、同义的以及标签过滤的功能。
(3)改善文本分类的结果,如俄亥俄州立大学的Y.C.Fang等人的工作
(4)文档集合的自动整理。如Scatter/Gather,它是一个基于聚类的文档浏览系统。
2.1.3 文本聚类的关键技术
在文本上进行挖掘与传统数据库上挖掘的一个重要的区别就是,文本是非结构化的数据。为了把数据挖掘的算法应用在文本对象之上,就必须对文本进行预处理,使文本最终表示成为一种结构化形式,同时需要保证这种结构化的形式能够充分体现出文本对象自己的特点,突出文本对象间的差异,以便于对文本的区分。文本的预处理技术对于文本挖掘来说是一个非常重要的环节。可以说,预处理的质量直接影响到了最终的挖掘结果。同时针对不同的挖掘目的,预处理的方法也存在着不同。但是基本上主要包括以下将要介绍的几个步骤。
上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9] 下一页