稀疏保持典型相关分析方法研究(2)_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

稀疏保持典型相关分析方法研究(2)


模式识别[1]的概念诞生于20世纪20年代,如今已经成为信息科学和人工智能研究领域的重要组成部分之一,并被成功应用到手写体字符识别、人脸识别、生物医学、数据挖掘等诸多领域。模式识别研究领域中,特征抽取及特征融合得到越来越多的关注,逐步成为模式识别领域的热点问题,并在其他相关领域如机器学习、图像处理和计算机视觉等领域有着广阔的实际应用背景。
特征抽取,实际上是一种“降文”的思想,其实质是在保证有效信息被尽可能多得保留的情况下,通过一种变换方式,线性变换或者非线性变换,将原始数据由原先的高文空间映射到其低文子空间中去,便于对数据进行进一步的处理和分析。主成分分析(Principal Component Analysis, PCA)[2]和线性鉴别分析(Linear Discriminant Analysis, LDA)[3]是多元统计分析中的常用方法,现已在特征抽取研究领域中成为最为经典的两个方法,得到了研究者们的深入研究,并被成功地广泛应用。此外,这两种经典方法也分别是无监督学习和有监督学习的典型代表。一般,我们将基于PCA和LDA的特征抽取方法称为线性投影分析,属于传统的特征抽取方法,也是目前主流的特征抽取方法。
传统意义上的特征抽取方法,其主要思想是针对于同一模式下的一组特征进行处理。随着信息时代的来临和发展,对于同一模式来说,往往具有多组特征表示,每组特征都反应了该模式的一种特性。如何去除同一模式不同特征表达间的重叠冗余信息,并保留同一模式不同特征表达间的互补信息,以得到更具鲁棒性的特征表达,进而增强特征的鉴别和区分能力,成为模式分类研究领域的新热点。
随着信息融合概念被提出,信息融合技术作为一种新兴的数据处理技术发展迅速,并被成功应用到诸多领域。信息融合技术的基本思想是通过融合多组特征以实现更有效的特征抽取,从处理对象层次角度来分,信息融合可以分为像素级(低级)融合、特征级(中级)融合和决策级(高级)融合三个级别。基于多特征的特征抽取方法就是受到信息融合技术中的特征级融合思想的启发而被提出的,并成功应用在了阿拉伯数字手写体和人脸识别库上。相比较于传统的特征抽取方法,基于特征融合的多特征的特征抽取方法,既能够保留参与融合的多组特征原先的有效鉴别信息,又能够消除各组特征间一定的重叠冗余信息。
常用的特征级融合方法包括串行融合和并行融合。串行融合方法的基本思想是将同一模式下的两组特征向量首尾相连构造一个新的联合向量,将形成的新的联合向量用于在更高文度空间上进行特征抽取,由于文数较高,常常会给特征抽取的计算带来一定的困难。并行融合方法的基本思想是将同一模式下的两组特征向量合并为一个新的复向量后,在新的复向量空间上进行特征抽取。上述两种特征融合方法采取不同的组合方式将同一模式下的不同特征进行组合,然后在一个新的特征空间上进行特征抽取。它们看似能够处理多组特征,模式分类效果也能有一定的提高,但其实质并没有摆脱传统的特征抽取框架,依旧无法给出特征层面的解释和分析,也就是说没有真正有效地实现基于多组特征的特征抽取与融合。
由此一种新的特征抽取框架被提出:在两组及多组数据间建立相关判据准则,然后依据该准则求解出相关投影矢量级,进而通过特征投影来抽取各自数据的相关性特征,最后使用不同的特征融合策略获得组合的相关特性后用于模式分类[23]。
常用的研究两组数据间关系的多元统计方法包括:多元线性回归分析(Multiple Linear Regression, MLR)[4]、典型相关分析(Canonical Correlation Analysis, CCA)[5]和偏最小二乘方法(Partial Least Squares, PLS)[6]。其中,多元线性回归分析方法被最为广泛地应用到了诸多领域中;典型相关分析方法主要用于研究两组变量之间的相关关系,在心理学、市场营销等领域得到广泛应用,并在模式识别、信号处理和计算机视觉等领域发展迅速;偏最小二乘方法作为一种新型的多元数据处理方法,首先在化工计量学和化工领域被成功应用,如今已经逐步发展成为模式识别领域重要的多特征融合技术之一。由于典型相关分析方法和偏最小二乘方法是研究两组及多组数据之间相关关系的方法,不同于前面介绍的线性投影分析,因此一般将基于典型相关分析方法和偏最小二乘方法的多特征的特征抽取方法称为相关投影分析。 (责任编辑:qin)