22
5.3本文使用模型的缺点 22
致谢 23
参考文献 24
1引言
消费是拉动经济增长的三架马车之一,一个地区的消费模式也会对当地经济发展有着深刻的影响。不同地区消费模式的不同,也反映了当地经济运行的情况。研究一个省或者地区的消费模式,对于掌握当地的经济状况具有重要的意义;研究一个省或者地区的消费模式,对于推动一个地区的经济发展具有重要的参考意义。
消费模式是一个宽泛的概念,具体到抽象化的定义,还需要指标化和定量化。找到能刻画一个地区消费模式的指标,且这个指标能够量化表示。消费支出的内容可以指标化,可以用一般等价消费的金额把这些指标量化。
有了刻画消费模式的指标,并且有了能量化这些指标的方法。接下的对于地区消费模式的判别就是统计学范围的内容。先将消费模式进行分类,分好类后,我们就有了一定的特征依据。
由于系统聚类方法是现代统计学中较通俗易懂且应用广泛的聚类方法。本文先采用系统聚类的 方法对样本进行分类。在分类之后,类的属性已经确定。对于所给样本给的我们要按照一定的统计学方法判别该样本的归属。对于判别的方法有距离判别法、贝叶斯判别法、费歇判别法等。
距离判别法、费歇判别法和贝叶斯判别法各有优缺点。距离判别法和费歇判别法以实变函数中的广义距离为基础的判别方法。贝叶斯判别则是以概率为基础的判别分析方法。贝叶斯判别分析是以贝叶斯理论为基础的判别分析方法。贝叶斯判别法考虑了先验信息和后验信息,信息利用比较充分,因此判别成功的概率相比于以距离为准则的判别方法较高。
2模型介绍
2.1系统聚类模型
2.1.1系统聚类模型
系统聚类方法的原理是按照一定的方法将需要聚类分析的对象的特征指标化,将这些指标采用一定的方法量化。比如结合实绩将指标量化后的结果标准化,当然在某些同量纲的情况下,可以直接采用数据,用广义的马氏距离就可以进行聚类分析。
系统聚类在确定聚类的度量衡之后,第一步每个样本各自为一类。然后根据样本每个指标数据,根据一定的距离定义,算出每个类两两之间的距离。将距离最小的两个类归为一类。以此类推,知道最后将所有的类归成一类。最后会得出一个树型图,然后根据需要按照树型图对样本进行树型分类。
2.1.2系统聚类中距离的定义与概念
现设有个样品,用表示样品,表示第 个样品的第 个指标值,且第个的均值和标准差记作和。另外,表示第个样品与第个样品之间的距离。
在系统聚类中有各种距离的概念,其中有以下几种距离:
其中 为正整数。其中 被称为明考斯基距离。
当 时,即 ,就是日常最通俗易懂的绝对值距离。
当 时,即 ,就是易被大家接受的欧式距离。
当然还有最重要的切比雪夫距离,就是当 时,此时的 就是切比雪夫距离。
不难看出,如果直接使用带量纲的数据计算样本间的明考斯基距离,并且以明考斯基距离作为聚类的准则,将会产生由于量纲的原因带来影响。因此,由于量纲的原因将会出现错误的聚类。此外若样本中具有极端值,由于极端值具有离中心也会影响聚类分析的效果。
为了更好地解决量纲和极端值给系统聚类准确性带来的影响,我们可以借鉴标准正态化的思想将样本数据进行标准化处理。对样本标准化处理后得到不带有量纲和排除(减小)极端值影响的标准化数据,再用标准化数据进行系统聚类分析,这样可以大大提高系统聚类的有效性和可行性。 贝叶斯分析在模式判别中的应用(2):http://www.youerw.com/shuxue/lunwen_56274.html