计算机视觉中运动目标检测和识别的研究,在20世纪30年代就开始了。但早期较成功的还主要是刚体运动的研究。五十年代左右,对于非刚体的研究逐渐2。人的运动分析在人机交互、监控、机器人等方面具有广阔的应用前景,因而激发了全世界的很多工作人员的研究兴趣。在心理学方面,Johansson[5]在他著名的MLDs(Moving Light Displays)实验中发现即使运动点的数目很少,人们也能从中识别出运动的模式,如走、起立等。由此引出了一个问题:在不恢复结构的情况下,可否从运动中直接识别运动模式。在运动学方面,阐述人体运动原理的时候需要先研究出人体的模型。在舞蹈学方面,长久以来人们一直致力于设计针对芭蕾、戏剧、舞蹈的高水平的人体运动表达。在计算机图像学方面,则侧重研究人体运动的合成。78804
在美国、欧洲和日本,许多大型的视觉监控项目已经展开,并成为许多国际学术会议的关键议题。20 世纪 90 年代,美国国防部成立了高级研究所,研究出了在军用和民用场所发挥了重要作用的VSAM(Visual Surveillance and Monitoring)[6]视频监控系统,该项目的视频监控系统。Wren等的Pfinder是一个在大视角范围内的基于外形和色彩的对人进行跟踪的实时系统[7]。Olson等实现了一种更通用的运动目标检测和识别系统[7],它根据帧间图像变化来检测运动物体,并采用最近邻匹配与一阶预测技术来跟踪运动目标。21世纪以来,为了实现增强国防、提高民用场所的自我保护能力、抵御恐怖分子的袭击等功能,麻省理工大学等 20 多所高校联合开启了一个重大的项目,它叫做 HID[8](Human Identification at a Distance),它在理想的情况下可以实现视觉检测技术的多模式化,可以在远距离条件下实现对人物的检测、识别以及分类处理。Maryland大学开发了 W4视频监控系统,它能在室外判断个体之间的交互、分析目标个体行为以及通过建立外形模型实现多目标跟踪。Collins等介绍了由CMU和Sarnoff公司共同开发的一种视觉监控系统,它通过多个彼此协作的摄像机对处于复杂环境里的人和车采取持续跟踪,并对目标进行识别和行为分析[9]。论文网
我国对智能监控系统的研究比国外晚了一些,国内从2002年开始每年都会召开有关智能监控方面的学术研讨会。在此领域,模式识别国家重点实验室(中科院)在多个方面如行为分析、人体目标识别、交通监控等,展开了全面系统的探讨,其研究所取得的相对丰富成果,也领先于中国的其他机构、组织等。与此同时,对于智能监控系统的研究,中国不少高校进行了诸多有益尝试。21世纪以来,我国在智能交通监控、机器人视觉、医学细胞追溯等诸多方面已经实现了对运动图像的分析[10]。目前,国内已开发出了一些代表性的视频监控产品,例如北京中和讯飞科技有限公司开发的智能视频分析处理器Sin-Video1403P,可以对多目标异常行为进行实时的检测和报警[11]。
目前,基于视频的运动目标检测算法主要有三种:光流法、帧差法和背景差分法,这三种算法都有各自的优缺点。1981年,Horn和Schunck通过将二维速度场与图像灰度相联系,从而引入了光流约束方程,得到一个计算光流的基本方法[12] 。Meyer等人[13]在对光流法进行了深入研究的基础上,提出在光流场中采用基于轮廓的跟踪方法,该方法在摄像机运动的情况下能够有效的对运动目标进行检测和跟踪。Barron等人[14]通过使用简单而有效的门限,先分割图像,再计算光流,通过消除杂乱的背景光流来得到较好的目标光流。Roland等人[15]利用相邻帧差,通过局部闽值的迭代松弛技术实现图像边缘的光滑滤波。甘明刚等人[16]提出一种三帧差分和边缘信息相结合的运动目标检测算法,该算法有效地改善了一些情况下帧间差分法会出现“双影现象”的问题。郝豪刚和陈佳琪等人[17]提出五帧差分法和背景差分法相结合的运动目标检测算法,该算法利用背景差分法和帧间差分法性能上的互补来获得较好的检测结果。背景差分法有均值法、中值法、核密度估计法、Surendra背景更新、单高斯模型和混合高斯模型等,从20世纪以来,相继出现了一批批成熟的背景差分法,Wren等人[18]提出了单高斯模型,该方法在单一背景下能够获得较好的检测结果,但是不适合复杂背景。Stauffe:等人在单高斯模型的基础上提出了混合高斯模型,混合高斯模型在外界环境比较复杂的条件下仍然可以得到很好的检测效果。左军毅等人[19]提出时间平均模型和混合高斯模型双模式切换式的运动目标检测算法。除了以上三种的算法外,还有一些学者尝试采用其他的算法进行运动目标检测,例如,郝志成和吴川等人[20]提出的基于稳定矩阵的动态图像运动目标检测算法,该算法通过在短时间内自动的感知背景变来快速的建立背景模型[11]。