基于数据驱动的方法主要包括主元分析(Principle Component Analysis,PCA)、偏最小二乘法(Partial Least Squares,PLS)、费舍尔判别分析法(Fisher Discriminant Analysis,FDA)、规范变量分析(Canonical Variate Analysis,CVA)、独立成份分析(Independent Component Analysis,ICA)等[1]。
本文主要研究主元分析(PCA)这一方法。主元分析(PCA)是将多个相关的变量转化为少数几个相互独立的变量的一个有效的分析方法,是一种较为成熟的多元统计过程控制方法,主元分析在系统相应方差分析方面的用途比在系统建模方面的用途要大。1933年Hotelling对主元分析方法进行了改进,目前,主元分析已成为被广泛使用的故障监测方法。下面,将具体介绍这种方法。
2 主元分析
2.1 主元分析法(PCA)提出背景
在一些领域,如图像处理、综合评价、语音识别、故障诊断等,我们遇到的实际问题,经常需要我们研究多指标(变量)问题。由于变量个数太多,并且彼此之间存在着一定得相关性,因而使得所观测到的数据在一定程度上反应的信息有所重叠。而且当变量较多时,在高文空间中研究样本的分布规律比较复杂,势必增加分析问题的复杂性。人们自然希望用较少的综合变量来代替原来较多的变量,而这几个综合变量又能够尽可能多地反应原来变量的信息。基于这样的情况,主元分析法[3](Principle Component Analysis)的概念应运而生。
主元分析方法(PCA, Principle Component Analysis)是一种利用统计原理建立描述系统的低文模型的方法,经过几年的研究和发展,成功地应用于过程的分析和监测[4]。这种方法首先由Karl parson在1901年引进,不过当时只是对非随机变量进行讨论,1933年Hotelling将这个概念推广到随机向量。主元分析法是最为常用的特征提取方法,应用极其广泛,从神经科学到计算机图形学都有它的用武之地,被誉为应用线形代数最价值的结果之一。
2.2 主元分析法的概念及基本思想
2.2.1 主元分析法的概念
PCA是Principal component analysis的缩写,中文翻译为主元分析。它是一种对数据进行分析的技术,最重要的应用是对原有数据进行简化。正如它的名字:主元分析,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降文,揭示隐藏在复杂数据背后的简单结构。它的优点是简单,而且无参数限制,可以方便的应用于各个场合。因此应用极其广泛,从神经科学到计算机图形学都有它的用武之地。被誉为应用线形代数最价值的结果之一。
2.2.2 主元分析法的基本思想
其基本思想简单来说,就是设法将原来众多具有一定相关性的指标(比如p个指标),重新组合成一组新的相互无关的综合指标来代替原来指标。通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标,但是这种线性组合,如果不加限制,则可以有很多。如果将选取的第一个线性组合即第一个综合指标记为F1,自然希望F1尽可能多的反映原来指标的信息,最经典的表达这里的“信息”的方法就是用F1的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主元。如果第一主元不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0 ,称F2为第二主元,依此类推可以构造出第三,四,……,第p个主元。这些主元之间不仅不相关,而且它们的方差依次递减。因此在实际工作中,只挑选前几个主元,忽略较小意义的成分。虽然失去了一些信息,但从原数据中提取出了新的信息,这种方法有利于大量数据的分析与处理。 基于主元分析法的故障检测技术研究(3):http://www.youerw.com/zidonghua/lunwen_8801.html