1.3研究内容和研究方法

在数据挖掘中,聚类主要解决的是在不知道类别标签的情况下的样本数据分类问题。聚类和分类的区别主要在于:分类是用已经知道了类别标签的样本数据去训练一个分类器,再用该分类器对其他未知类别的样本进行归类,属于有导师、有监督的学习;聚类是完全不知道各个样本的类别,而需要按照一定的聚类度量准则直接进行聚类,属于无导师、无监督的学习。

    系统聚类问题主要有两种形式,一种是对研究对象本身进行分类,称为 型聚类;另一种是对研究对象的观察指标进行分类,称为 型聚类。目前,聚类主要运用在图象处理、模式识别、客户信息分析、金融分析、医学、军事等诸多领域中。

在聚类分析中,K-means算法是一种经典的基于划分的聚类算法,它是目前应用最广泛也最成熟的一种聚类分析方法。但是该算法存在着对初始聚类中心的选择非常敏感,容易取得局部最优解,对噪声数据和孤立点数据比较敏感等问题。此外,由于K-means算法采用的是一种以距离作为度量数据点间相似度的方法,故无法发现任意形状的簇,而只能发现数据点分布较为均匀的类球状簇。

基于此,本课题主要研究各种聚类算法的优缺点及重点对K-means聚类算法展开分析研究。并通过实验数据采集,对K-means聚类算法进行仿真模拟,应用范围也较广

上一篇:VB+access某钢铁企业能源数据库的设计+源代码+答辩PPT
下一篇:大型机的外汇业务管理系统的设计与实现挂牌外汇对私外汇业务

基于Apriori算法的电影推荐

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

python基于决策树算法的球赛预测

现代虚拟制造技术及應用前景分析【1935字】

流控制传輸协议SCTP的分析与研究【1047字】

校园一卡通数据系统的學...

10万元能开儿童乐园吗,我...

中国学术生态细节考察《...

神经外科重症监护病房患...

国内外图像分割技术研究现状

志愿者活动的调查问卷表

C#学校科研管理系统的设计

公寓空调设计任务书

医院财务风险因素分析及管理措施【2367字】

AT89C52单片机的超声波测距...

承德市事业单位档案管理...