在过去,人们提出了很多特征提取的算法,可分为有监督学习和非监督学习,线性和非线性。其中,目前使用最多的线性特征提取方法是主成分分析(PCA)[3,4,5]以及线性判别式分析(LDA)[6,7,8]。PCA将原始的高维数据映射到一个低维子空间中,该低维空间由全部原始数据组成的协方差矩阵求得的最大特征值所对应的特征向量张成的。PCA能在最小均方误差的意义下,寻找最能代表原始数据的投影方法。然而,由于没利用到类别信息,所以PCA是一种完全的非监督学习方法。论文网
不同的是,LDA是一种有监督的学习方法,其本质思想是选择的最佳投影方向是使Fisher准则函数达到极值的向量,使得在该方向上样本投影后,能在实现类间离散度的最大化的同时实现类内离散度的最小化。
然而,PCA和LDA都是从全局欧式结构考虑的。但是,最近的研究结果表明:人脸图像很有可能驻留在一个非线性流形之上,并且不同的人脸图像会处在不同的流形之上[9-12]。基于此,为了寻找原始高维数据中的本质低维流形,人们提出了很多诸如等距特征映射(ISOMAP)[9,10,11]、局部线性嵌入(LLE)[11,12]以及拉普拉斯特征映射(LE)[13,14]等算法在内的流形学习算法。实验表明,这些算法对于模拟数据和真实的数据,比如能够找到人脸图像数据有意义的低维嵌入,然而如何去评价这些算法的效果仍不明确。He等人新提出了一个算法:局部保留映射(LPP)[15,16,21],其目标函数是最小化映射后数据的局部散布矩阵。与其他流形学习算法相比,LPP算法的优势明显,比如:更加明显的映射、更易于计算等。
然而,无论是ISOMAP、LLE、LE还是LPP,它们均属非监督学习,因此不能利用样本的类别信息。因此,人们提出了很多有监督的流形学习算法,例如:Bo等人提出了CMVM算法(constrained maximum variance mapping )[17,18],该算法能够在将不同类别分开的同时保持任意流形的全局结构。也就是说,该算法可以在得到最优结果的同时不破坏其他类的全局结构。然而,该算法在分离不同类别时,把与本类不同的其余类别都考虑进去了,这虽能达到将不同类分开的目的,但因各个类间距的不同,对于距离最远的类和距离最近的类不应一视同仁,而应分别对待。同时在构建局部散布矩阵时也没有考虑到近邻点的类别信息,这有可能使一个点的近邻包含不是该点所在类的点,这对后续的处理不利。Yan等人提出了MFA算法(Marginal Fisher Analysis)[19,20],该算法分别设计了一个本质图(intrinsic graph)和一个惩罚图(penalty graph),其中本质图描述了每一类中类内近邻点的关系,并且每个点都与它的K近邻相连,惩罚图描述了边缘点的近邻关系,不同类的边缘点以点对形式被连接起来。但是该算法也存在一些缺点,比如:不同类之间的边缘点点对的个数难以确定,而且距离最远的类和距离最近的类不应一视同仁,而应分别对待。Wankou Yang等人提出MMDA算法(Multi-Manifold Discriminant Analysis)[1,22],该算法在LPP的基础上,使用每一类数据的类内权重矩阵的和去加权该类的均值,然后将类间均值视为新的数据,寻找一个最优的投影矩阵能够同时最大化加权类均值的类间散布矩阵和最小化每一类的类内散布矩阵。但是该算法存在使用加权的类均值去衡量类内数据存在一定的偏差,尤其是当数据分布比较无规则的情况下这种表现更加明显。
在上述的这些算法中或多或少的都要加入一些人为设定的参数,如:LPP、CMVM、MMDA中邻域大小参数,这些参数对于算法的最终性能会有很大影响。为了克服这种缺陷,本文提出了一种基于局部保留映射的无参数的特征提取算法。首先为了削弱噪声对计算的影响,采用相关系数去衡量数据点之间的距离,然后采用了一种自适应的无参数的方法来选择类与类数据之间近邻点,通过这种方法实现类间参数的自适应选择,与此同时,采用基于类内相关系数的类内领域选择方法来实现类内参数的自适应选择,最后建立目标函数,采用Fisher准则即同时使得类间距离达到最大并且类内距离达到最小,实现特征提取。