1 绪论 1.1 选题背景和意义 近年来,随着计算机硬件技术和人工智能技术的迅猛发展,新型人机交互技术备受青睐,研究符合人类交流习惯的自然人机交互技术[1]变得异常活跃。这些研究主要包括人脸识别、面部表情识别、视线跟踪、手势识别、体态识别,语音识别等等[2,4]。苹果公司率先使用手指掌控手机,微软公司推出的自然体感传感器Kinect以及谷歌公司最近推出的谷歌智能眼镜等,都是新型交互技术飞速发展过程中的典范。总的来说,人与计算机的交互技术正逐步从以传统鼠键方式向以新型自然人体语言方式、从以计算机为中心向以人为中心转变,它将是越来越自然、简单、体验丰富的“人机交流”技术[2]。 手势作为人类最自然的表达方式之一,在日常生活中得到了广泛的应用;手势生动、形象、直观,而且蕴涵着丰富的信息,是人与人沟通的重要媒介[3]。基于手势的交互已经成为现代人机交互技术的重要内容。手势识别的应用前景也十分广阔:1)虚拟现实技术可以带来全新的用户体验,基于手势的交互是虚拟现实技术的重要组成部分,利用手势可以对虚拟现实中的场景和仪器设备进行控制;2)手语是具有特定时间序列的手势集合所表示的语言,源]自=优尔-·论~文"网·www.youerw.com/ 是聋哑人之间相互交流的自然语言,也是听人和聋哑人交流的首选方式,往往也是必需方式。聋哑人和不懂手语的听人之间交流是非常困难的,而事实上大多数听人都不懂手语。如果有一套手语翻译系统,则将大大方便聋哑人与听人之间的交流,进而为促进人类向高度文明发展作出贡献[2,3,4];3)探索手势识别技术,可以提高计算机对人类行为的理解能力,使计算机更加智能,而且这种技术将来也可以用于相关或者相似的领域,从而使计算机更好地为人类服务,等等。 虚拟现实技术除了能带来全新的用户体验还具有重要的现实意义,而利用手势可以对虚拟现实中的场景和设备进行进行控制[2,4],这种技术可以用在开发大型的体感游戏之中,更重要地是,它可以用来参与构建海员、飞行员和宇航员等特种专业人才的训练系统。
1.2 手势识别研究现状简介 从应用形式的角度来看,现有的手势识别主要分为两大类,静态手势识别和动态手势识别。静态手势,即手部区域的静态图像或静态特征,它对应着模型参数空间里的一个点;而动态手势,即手或者臂的运动轨迹,则对应着模型参数空间里的一条轨迹[2]。常用的静态手势识别算法可分为神经网络算法、模板匹配和统计分析算法等。与静态手势不同,动态手势同时涉及到了空间和时间状态,因此,绝大多数动态手势都被建模为其参数空间里的一条轨迹[2,4]。现有的动态手势识别算法主要分为三类:基于动态时间规整[8](Dynamic Time Warping, DTW) ,基于隐马尔可夫模型[18](Hidden Markov Model,HMM),基于压缩时间轴[2]。 从手部区域分割的角度来看,手势识别技术主要分为基于彩色(灰度)信息和基于深度信息两类。在深度摄像头未普及之前,大量的论文和工作都在讨论如何从彩色(灰度)图像和彩色(灰度)视频流中更好地将手部区域从动态的、复杂的的背景中分割出来。 这显然很有难度,因为它极易受光照等外界条件的干扰,而大量论文在解决问题之前都给出了或多或少的限定条件, 这就使得所研究的算法很难应用于实际系统中。文献综述基于彩色(灰度)信息分割手部区域的方法主要分为三种:基于运动信息、基于运动模板和基于颜色信息[2]。 基于运动信息的手部区域分割方法是通过对彩色(灰度)视频流中前后两帧图像做差分运算来检测手的,前提要求场景中只有手在运动,当手运动时则图像发生变化。基于运动模板的手部区域分割方法采用模板匹配方法寻找运动的手,一般把二维可变形模板作为插值节点去近似物体轮廓[2]。基于颜色信息的分割,即基于肤色模型的分割,在背景和光照干扰小时分割效果较好。 事实上,手部区域的分割是手部跟踪和静态手势识别的基础,其结果的好坏会严重影响系统总体性能的优劣。和彩色(灰度)摄像机相比,深度摄像机的工作与光照无关,即光照变化对其不会产生影响。对深度数据进行二值化等处理,能够极大简化背景减除操作, 轻而易举地将人手从复杂多变的背景中准确地分割出来。 容易看出基于深度信息的分割方法无论是在时间复杂度还是在识别率方面都明显优于传统的基于彩色(灰度)图像的方法。 Kinect基于手势识别的三维场景视点控制算法研究(2):http://www.youerw.com/zidonghua/lunwen_66690.html