摘要线性回归分类器是一种简单、有效的高文分类方法,属于最近邻子空间分类。线性回归分类(LRC)算法使用训练样本建立一个线性模型,将待识别样本表示为一组特定类样本的线性组合,通过最小二乘法估计并将最小重构误差作为分类依据。在解决了人脸识别问题时,对于人脸图像中存在表情、光照和姿态变化情况,LRC方法获得了很好的识别结果;对于存在围巾遮挡的情况,使用一个基于距离的证据融合(DEF)算法的模块化LRC方法取得了当前最好的识别结果。最后,用于微阵列数据分类时,LRC方法也取得了很好的识别效果。因此,LRC方法可以用来解决不同领域的高文数据分类问题。23335
关键词 线性回归 最近邻子空间分类 人脸识别 微阵列
毕业设计说明书(毕业论文)外文摘要
Title Algorithmic implementation and validation of Linear Regression Classifier
Abstract
Linear regression classification is a simple and useful High-dimensional classification approach, which falls in the category of nearest subspace classification. Using the training samples, linear regression classification (LRC) algorithm developed a linear model representing a probe image as a linear combination of samples. Identification problem is solved by using the least-squares method and the decision depends on the minimum reconstruction error. LRC algorithm obtains a high recognition rate without requiring any preprocessing steps of face location and normalization in the conditions with changing expression, illumination and posture. For the problem of scarf occlusion, a Modular LRC approach achieves the best results utilizing a novel Distance-based Evidence Fusion (DEF) algorithm. LRC approach also obtains competitive recognition results for the microarray data classification.
Keywords Face recognition Linear regression Nearest subspace classification Microarray
目 次
1 绪论 1
1.1 概述 1
1.2 人脸识别的发展历史 1
1.3 人脸识别的主流方法 2
1.4 高文小样本 4
1.5 本文的主要工作 4
1.6 本文的章节安排 5
2 算法原理 6
2.1 线性回归原理 6
2.2 线性回归分类算法 7
2.3 模块化的线性回归分类算法 8
3 实验与结果 10
3.1 ORL数据库 10
3.2 Extended Yale B数据库 12
3.3 Yale数据库 13
3.4 AR数据库 14
3.5 LRC方法在微阵列上的应用 19
结论 23
致谢 24
参考文献 25
1. 绪论
1.1 概述
在模式识别领域中,有很多识别问题可以归结为高文小样本问题,诸如遥感图像分析、人脸识别、语音识别、医学图像处理、微阵列数据分类等。由于应用范围广,高文小样本问题是一直是模式识别领域的一门热门研究课题。高文小样本问题,主要是指各个类的训练样本数目小于特征子空间的文数,或者是训练样本的数目略大于或与特征子空间文数差不多的情况。对于第一种情况,样本数目太少会导致某些分类器算法的参数无法估计,举个例子:小样本问题会引起类内协方差矩阵奇异,这使得抽取Fisher最有鉴别特征变得困难;再者,它也会引起各类协方差矩阵奇异,这使得二次判别分析(QDA)方法无法直接使用。对于第二种情况,虽然训练样本的数目达到了消除协方差矩阵奇异的标准,但也会引起协方差矩阵的逆阵不稳定。这些是高文小样本的主要特点同时也是解决此类问题的难点。但从另一个角度看,高文小样本问题由于样本数目少,使得分类器的训练时间较短,可以适当牺牲算法效率采用一些较为复杂的分类算法,由此来提高分类识别的精度。