1.1、数据挖掘简介
人们获取、接触数据的机会和方法随着计算机技术的高速发展以及网络的遍及变得越来越便捷[ ]。随着时间的增长,在计算机文件和数据库中保存的数据增长速度越来越快,数据量越来越庞大,而使用这些数据的人希望从庞大的数据量中获取更加重要、有用的信息。而像数据库中简单的结构化查询语言,无法发现大量随机数据中隐含存在的关联,也无法依据现有的这些随机分布的数据来预测将来的发现趋向。数据挖掘技术就是为了处理上面提到的这些情况,并且针对数量庞大的数据进行剖析解决的一门新技术。
1.2、聚类分析概述
数据挖掘的重要研究范围之一就是聚类 [ ]。聚类也被称为无监督分类,它是将需要进行研究的大量对象划分为由相似度高的对象组成的多个类的过程,在分类之前我们对数据集的分布特点是不了解的。聚类主要是依据样本间相似性或相异性的衡量标准将大量随机分布的数据分到几个不同类别中,且同一类中的样本要保证高相似度,而属于不同类的样本之间相似度要保证高相异性的方法[ ]。聚类结果中的每一类都是根据需要分类的数据隐含存在的特征来划分的,聚类结果中每一类也叫做簇。聚类算法中划分的是未进行分析且随机分布的大量数据,最后得到的结果就是大量数据划分后的几个类别,这些类构成一个分区结构[ ]。
1.3、管理分区技术研究进展
影响作物生产能力、营养利用效率和环境效应的主要原因有地形地貌的差异、土壤养分等要素的空间变异等原因。因而近年来精准农业研究的主要方向之一是对存在较大空间变异的地区进行管理分区。管理分区技术经常要使用到许多种数据,如江候民等人定义区域性管理分区是基于土壤电导率;白由路和黄绍文等人对县域地区进行管理分区划分的依据就是土壤主要营养成分的指标和含量。李翔等人定义管理分区是依据区域标准多年来小麦产量空间的变异性[ ]。能够综合反映作物与土壤等环境要素的相互影响的方式是提取作物的生长信息,而基于作物成长信息的空间差异进行管理分区的划分可实现较好的效果;黄彦等结合小麦不同生长期遥感影像提取的归一化植被指数与土壤养分数据进行县域范围的管理分区研究,取得了较好的分区效果[ ]。
1.4、聚类分析研究现状
聚类分析作为统计学的一个分支,己被广泛地研究了多年,主要集中在基于距离的聚类分析。人们按照不同范畴内的不同需求研究出了不同的聚类方法。主要分为基于层次、网络、密度、划分的聚类算法[ ]。
近年来基于划分的聚类算法的研究目标主要有以下几个:
(1)初始值的选择以及输入顺序对聚类结果的影响
(2)算法的效率问题
当人们将聚类方法应用到具体某些事物时,还是会遇到一些问题和困难,主要有以下一些方面
(1)异常点的处理十分困难
(2)聚类结果一般没有绝对的标准
(3)对聚类的每一类的语义进行解释比较困难
1.5、本文研究内容
本论文的主要研究工作有
(1)介绍了几种聚类算法,分别为K-均值聚类算法、最大最小值算法、模糊C均值算法、亲和传播算法、基本蚁群聚类算法、改进的蚁群聚类算法及基于最大最小值的蚁群聚类算法,分析并比较了这几类算法的优缺点。
(2)使用这几种不同的聚类算法对小麦生长环境因子的样本点进行分类,对比不同样本点的聚类结果,得出不同情况下的样本点相对最适合的聚类算法。
(3)将聚类结果用arcgis软件转化为图像,使分类效果更加形象、直观。 matlab基于小麦生长环境因子的管理分区算法研究+源代码(2):http://www.youerw.com/jisuanji/lunwen_25238.html