2.1.1 数据的标准化转换
1)标准差标准化
第 个变量的标准差为
(2.4)
本式表明对第 个变量 个数据进行标准差标准化。
,其中 (2.5)
经过转换后数据的均值为0,标准差为1。
2)极差标准化
第 个变量的标准差为:
(2.6)
,其中 (2.7)
经过转换后数据的均值为0,极差为1。
3)极差正规化
它的变换式为:
(2.8)
转换后数据的均值为0,极差为1。
2.2.2 距离
距离是聚类分析常用的分类统计量,两变量之间的距离越小,两变量就越接近。在聚类分析中,经常常用到的几种距离的定义:
明氏(Minkowski)距离为:
,其中 (2.9)
当 时,曼哈顿距离为:
(2.10)
当 时,欧氏距离为:
, (2.11)
在实际应用中,我们常取欧氏距离为:
(2.12)
当 时,切比雪夫距离为:
(2.13) 聚类分析算法研究k-means算法(3):http://www.youerw.com/jisuanji/lunwen_14189.html