其次,文本数据库中,存储最多的数据是所谓的半结构化数据(semi- structured data),它既不是完全无结构的也不是完全结构化的。例如,一个文档可能包含结构字段,如标题、作者、出版日期、长度、分类等等,也有可能包含大量的非结构化的文本成分,如摘要和内容。所以,处理文本信息和处理普通结构化信息是存在区别的,这就要求进行文本数据处理的方法能够处理大量的非结构化信息。
再者,文本分析需要自然语言理解的支持。典型的大量文档中只有很少一部分与某一个体或用户相关,如果不清楚文档中的内容,就很难形成有效的查询,也很难从文本数据中分析提取有用的信息。目前,虽然对于语义分析的技术得到了发展,但是机器仍然对自然语言不能从语义上进行很好的理解。这一点也是与其他类型数据的一个重要区别,需要在文本数据处理的方法中充分考虑到语义的分析。
1.2 课题研究的理论与实际意义本文来自优-文~论^文.网原文请找腾讯3249'114
文本聚类是一种典型的无指导机器学习问题,它与文本分类的不同之处在于,聚类没有预先定义好的主题类别,它的目标是将文档集合分成若干簇,要求同一簇内文档内容的相似度尽可能大,而不同簇间的相似度尽可能小。
论文网http://www.youerw.com/ 文本聚类的应用很广泛,它的主要作用和意义在于:更好地发现文本集合内在的类别特性。文本聚类被用来发现无结构的(unstructured)文本集合中的“潜在概念”信息,这些信息可以有助于组织和搜索数量庞大的文档集合。文本聚类技术可以对没有类别标示的文本集合进行分析,发现其中应该具有的类别信息,并且对集合中的文档进行类别标识,分析和标识文档的类别将有助于文档内容信息的发现。所以,更进一步来讲文本聚类技术也可以用来对文档集合提取摘要,消除文本集合之间的歧异,而且文本聚类技术也能够帮助搜索引擎返回的结果进行定位。
文本聚类在文档处理过程中有效减少人为的因素影响和人力资源浪费。围绕着文本信息这一资源开展的各个领域学术研究和业界应用非常活跃,如近年出现的各种搜索引擎、数字图书馆和电子商务等。这些领域的研究者在信息检索和分类研究方面所取得的成果是喜人的,但是仍然存在着许多需要解决的问题,即处理效果并不能让人满意。在一定程度上,许多工作还需要人为的干预。这样就可能造成人为性错误的可能性,另外也造成了大量人力的浪费。而在数据挖掘领域中,聚类技术正是一种客观的无监督技术。将聚类技术应用在文本分析处理上,可以最大程度上地减少信息检索工作中的人为因素,并且能够节省复杂文本分析过程中的人力资源。
正是出于文本聚类在文本挖掘领域中重要的理论意义和实践意义,本文将对文本聚类技术进行探讨研究,并且对传统K-Means聚类算法做了一点重要改进。
上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9] 下一页
基于K-means的文本聚类算法研究 第2页下载如图片无法显示或论文不完整,请联系qq752018766