1.1 课题背景及相关发展
目标检测与追踪是计算机视觉领域一项最基本的挑战,在公共安全、医疗检测、交互设计以及公安刑侦等行业有着重要的发展前景和市场价值。而行人检测作为目标检测的一个部分,由于行人动作变化大、肢体形态丰富、局部遮挡、光照条件以及复杂背景等问题,一直是目标检测领域国内外学者研究的一个重要问题[1]。
随着计算机技术的不断发展以及计算机视觉领域研究的不断深入,行人检测技术近些年也得到空前发展,概括起来行人检测的方法主要分为两类:一类方法不需要使用训练好的模型,直接对图像进行目标检测与提取。常用的方法包括目标行人与背景的分离、边缘检测、运动检测等[2][3]。这类方法通常运行速度慢,并且行人检测的鲁棒性很低,很难投入到实际工程中进行运用。
另一类方法通过训练好的模型检测行人在图像中的位置。Dalal和Triggs[4]使用梯度方向直方图(HOG)和线性支持向量机(SVM)建立起一个行人检测系统,有效地改善了行人检测的效果。但是由于该系统中只使用了一个根模型来表示目标行人,当出现行人姿势变化较大、背景比较复杂等问题时往往很难准确检测行人。为解决这一问题,Felzenszwalb等人[5]提出了基于可变形部件模型(DPM)的算法,通过建立部件模型的方法有效地解决行人的变形问题,从而提高了行人检测的鲁棒性。但是该方法由于需要建立图像金字塔以及需要在金字塔的每一层的每一位置进行匹配过程,导致系统的检测效率十分低。
为了解决计算效率的问题,Felzenszwalb等人[6]又进一步提出了基于级联的检测方法,通过主成分分析减少特征维数以及建立多个弱分类器级联的模式来实现快速行人检测。该方法相对于DPM的算法在基本保持原来的检测精度的同时效率有了非常大的提高。此后,基于级联的策略,很多学者对分类器的级联模式提出了很多其他的方法[7-10],进一步地提高了系统的检测效率。
1.2 本文使用图像数据库介绍
目前的行人检测算法常用图像数据库包括INRIA数据集[4],Caltech数据集,PASCAL VOC数据集[5]等。本文使用的图像数据库为INRIA数据库以及实际交通监控采集的图像集。INRIA数据库由于其复杂背景,是目前使用最多的行人数据库,数据库包含含有614张正样本(2416个行人)以及1218张负样本的训练集,以及含有288张正样本(1126个行人)以及453张负样本的测试集,如图1.1为数据库中部分图片。数据库中大部分的行人为正立的站姿,并且没有遮挡情况,所以目前已有的行人检测算法已经取得很好的检测效果。
图1.1 INRIA数据库部分图片
图1.2 监控场景数据库部分图片
虽然行人检测的检测效果以及效率针对已有的图像数据库都有很大的提高,但是对于实际的复杂环境依旧存在着很多问题,因此对于实际应用尚不成熟。例如对于监控图像,由于监控图像都是从高处俯视拍摄,监控图像往往会存在视角的问题;目标行人距离摄像头位置较远会导致目标行人的分辨率较低;实际监控场景往往在户外,还会导致光照、遮挡等问题,这些因素的存在都会造成行人检测效果变差。图1.2为实际交通场景采集的监控图像集的部分图片,该图像集的数量更加丰富,其中包括由1247张正样本以及7177张负样本组成的训练集以及含有764张正样本的测试样本集。图片的姿势变化比较大,而且存在很多遮挡的情况,因此无论是数量还是复杂度都较INRIA数据库难度有所增加。本文以此数据库进行实验,分析比较现有算法存在的优缺点,并做进一步的研究工作,使得算法在实际工作中有更好的适应性。 HOG监控场景下的行人检测算法研究(2):http://www.youerw.com/jisuanji/lunwen_42519.html