聚类分析算法研究k-means算法
时间:2018-04-25 20:33 来源:毕业论文 作者:毕业论文 点击:次
摘要数据挖掘是现在处理信息和数据库方面热门的研究课题,是最具有发展潜力的关键技术之一。聚类分析算法是数据挖掘中一个重要方法,用于发现数据库中未知数据的分类,有着非常广泛的应用。 论文对聚类分析进行了介绍和讨论,首先介绍了聚类算法的分类,并对每种分类下的算法进行了简单分析,详细分析了划分方法中的k-means算法,介绍了现有的几种初值选取的方法,分析了层次方法中的CURE算法,并基于IRIS数据集对k-means算法和CURE算法进行了验证。21812 毕业论文关键词 聚类分析 k-means算法 CURE算法 毕业设计说明书(论文)外文摘要 Title The research of clustering analysis Abstract Data mining is a hot research topic now processing information and databases, is one of the key technologies of the most development potential.Cluster analysis is a data mining algorithm is an important method for discovery of unknown classification data in the database has a very wide range of applications. Papers on cluster analysis were presented and discussed, first introduced classification clustering algorithm, and the algorithm for each category were simple analysis, detailed analysis of the pision method of k-means algorithm, introduced the existing several initial selection method to analyze the hierarchical method CURE algorithm, based on IRIS data set for k-means clustering algorithm and CURE algorithm are verified. Keywords clustering analysis k-means algorithm CURE algorithm 目 次 1 绪论 1 1.1 课题的研究背景 1 1.2 国内外研究现状 2 1.3 本文的主要内容和结构安排 2 2 聚类分析的概述 4 2.1 聚类分析的基础知识 4 2.2 聚类分析的分类 6 2.3 聚类分析的性能比较 9 3 k-means和CURE算法 11 3.1 k-means 11 3.2 k-means初值的选取 13 3.3 改进的k-means算法 14 3.4 CURE算法 15 4 算法运行与性能分析 18 4.1 Iris数据 18 4.2 实验结果分析 19 结论 27 致谢 28 参考文献 29 1 绪论 1.1 课题的研究背景 近年来,随着信息技术和计算机技术的快速发展,数据库技术得到了迅猛发展,目前,数据库已经在人们的生活中广泛应用。产生越来越多的数据,如文本、图像、视频以及音频数据等,这些数据发挥了当前效用后,数据的价值也随时间而降低,被作为资料存起来。由于这些资料的范围广复杂度高,很难准确的形容和有效的利用,因此如何从中提取有用的信息和知识,成为了人们一项艰巨的任务。为了解决用户从这些大量数据中挑选出其间所蕴涵的有价值的知识,人们结合统计学、数据库、计算机和人工智能等技术,提出了数据挖掘(Data Mining,DM)技术。 数据挖掘,通俗的讲就是数据库中知识的发现(Knowledge discovery in database,KDD),从大量无序的数据中发现隐含的、有效的、有价值的、可理解的模式,进而发现有用的知识,并得出时问的趋向和关联,为用户提供问题求解层次的决策支持能力。有人说,Data Mining在数据库界使用更流行,而KDD在人工界使用更广。也有人说,一般在研究领域称作KDD,而在工程领域称之为数据挖掘。数据挖掘使用的方法及对应的功能:预估模型,用来分析已有的数据集并确定有关数据的一些本质特征。预估模型的两种类型分别是分类和预估。分类的目的是确定一个可以将对象、观测结果和记录等分离开的规则,并且用这个规则把数据分到已规定好的类别里去。数值预估是通过建立预估模型来估计与记录数据相关联的连续数据;聚类,聚类分析,主要算法有K-均值聚类、人口统计学聚类,神经网络聚类;关联分析,关联规则分析,序列模式分析,相似时间序列分析;预测:时间序列预测,算法有统计的时间序列模型,例如,ARIMA、Box-Jenkins、神经网络。 (责任编辑:qin) |