为了高效地分析和理解图像,需要用明确定义的数字、向量或矩阵或其他数学形式来表示给定的图像。图像特征是从原始图像中抽取的数学形式,它蕴含了原始图像中的形状、颜色、纹理、结构、主成份等信息。一个用心设计的图像特征往往会对各种计算机视觉任务带来很大的性能提升。
1.2研究内容与研究方法
1.2.1 特征抽取的一般研究方法
对图像提取特征时,稳健性和鉴别性是两个最重要的特性,他们直接影响了后续计算机视觉处理任务的性能。稳健性是指能够稳定地消除图像在各种变换下的不利情形,比如光照变化、视角变化、噪声、遮挡等的影响。鉴别性是指对于显著不同的图像,抽取的特征需要有数学上的显著不同性,因此对不同的图像有较好的鉴别性。这是一对互为矛盾的特性。稳健性会降低对不同图像之间差异的敏感性,而鉴别性则要求对不同图像之间的差异要更加敏感。因此在设计图像特征表示方法之时,需要权衡鉴别性和稳健性之间的重要性,使得获取的特征更加适应后续计算机视觉任务。
对特征抽取质量好坏的评价通常由后续计算机视觉任务的实验性能好坏来决定。图像识别是一个常用的手段:对于同一个数据库,使用同一种实验策略、相同的预处理手段和分类器,最后识别率越高表明了图像特征的鉴别性越强;对图像加上平移、翻转、噪声、遮挡等等干扰,识别率越高同时也表明了图像特征的稳健性越好。实际实验时,一般还会在多个数据库上做多组实验,综合地评价图像特征的性能。
1.2.2 特征抽取方法
一般来说,各种特征抽取方法可以简单地分成两个大类:局部特征抽取方法和全局特征抽取方法。局部的特征抽取方法着眼于局部小窗口,对小窗口内的像素值进行变换后,将变换后的结果融合(级联,并联等)为最终特征;全局的特征抽取方法整体看待单张图像或整体看待训练集中所有图像,一般通过统计分析的方法构建全局特征。
全局特征抽取方法中,最经典的工作是特征脸(Eigenface)[2],即主成分分析(PCA)。该方法通过大量样本进行无监督学习,分析主成份得到一组用来表示人脸的正交基,这组正交基构成一个子空间。原图像在子空间中投影即为求得的图像特征。其他具有代表性的工作还有线性鉴别分析(FLDA)[3]等。在线性特征方法的基础上,研究人员提出了核方法(如核主成份分析(KPCA)[4]、核线性鉴别分析(KLDA)[5]等)来解决非线性特征抽取问题。核方法在许多实际应用中被证明是非常有效的[6][7]。最近,颜水成[8]等人提出了图嵌入框架,许多基于流形学习的方法都可以看作是这个方法下的特例,比如ISOMAP[9],LLE[10],Laplacian Eigenmap[11][12]和LLP[13]等。实验证明这些方法对人脸图像提取的特征符合人类的认知规律。
与PCA、FLDA之类的全局特征提取方法相比,局部特征提取方法在处理光照、表情和姿态变化时更具有稳健性。Gabor小波[14]和局部二值模式(LBP)[15]是过去十年中比较流行的两种局部特征抽取与图像表示方法。Gabor小波的卷积核(kernel)与哺乳动物的视网膜简单细胞感受野(reception field)非常相似,符合生物特征同时效果出色,因此它在人脸识别领域被广泛使用。此外,Gabor小波也有效提取了空间频率、局部性和方向性等局部构造信息。这些局部构造信息不容易受到图像因照明变化和面部表情变化造成的不良影响。局部二值模式因为其简单有效,并且在图像纹理分析任务上的优秀表现而受到广泛的关注。由局部二值模式衍生出的许多方法也在许多应用中得到有效运用,比如增强局部纹理特征[16]和高阶局部描述子[17]在人脸识别中的应用。具体来说是计算局部二值模式直方图:将图像拆分成一系列小窗口,通过计算小窗口中LBP值的直方图来表示图像[17][18]。一些工作将LBP与Gabor特征结合在了一起,得到了比使用单一特征更加稳健的特征表示方法。比如局部Gabor二值模式直方图序列[19],基于LBP动态纹理特征的人脸表情识别[20]和基于空间、尺度、方向协同特征的人脸识别[21]。