聚类分析算法研究k-means算法(3)_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

聚类分析算法研究k-means算法(3)


2.1.1  数据的标准化转换
    1)标准差标准化
    第 个变量的标准差为
                                                 (2.4)
    本式表明对第 个变量 个数据进行标准差标准化。
           ,其中                                   (2.5)
    经过转换后数据的均值为0,标准差为1。
    2)极差标准化
    第 个变量的标准差为:
                                                 (2.6)
                ,其中                             (2.7)
    经过转换后数据的均值为0,极差为1。
    3)极差正规化
    它的变换式为:
                                                      (2.8)
    转换后数据的均值为0,极差为1。

2.2.2  距离
    距离是聚类分析常用的分类统计量,两变量之间的距离越小,两变量就越接近。在聚类分析中,经常常用到的几种距离的定义:
    明氏(Minkowski)距离为:
               ,其中                       (2.9)      
    当 时,曼哈顿距离为:
                                                  (2.10)
当 时,欧氏距离为:
            ,                              (2.11)
在实际应用中,我们常取欧氏距离为:
                                                (2.12)
    当 时,切比雪夫距离为:
                                                  (2.13) (责任编辑:qin)