人机交互即是指人与计算机或机器通过输入输出设备进行沟通交流的方式。从开始的使用一维命令行界面到现在绝大多数使用的二维图形界面[1],计算机的发展极大地减轻了用户的记忆负担,解放了用户的双手,但同时,随着手机与平板等移动终端多点触摸技术的发展,直接使用人体对计算机进行操控,把双手从键盘、鼠标等输入设备中解放出来,提高交互的自然性和丰富性,成为未来人机交互技术的主要发展方向。
2008年,比尔·盖茨提出“自然用户界面(NUI)”的定义[2],相比于“图形用户界面(GUI)”受限于计算机的硬件设备等交互媒介,它直接通过人体的视觉、触觉、语音等实现用户和计算机的交流,表现出更强的自然性、简洁性和丰富性,不仅打破了传统的交互方式,同时可以提供给用户更好的交互体验。在现实生活中,人与人之间的交流除了通过语音之外,手势是使用最为广泛的肢体语言,它能处理简单和复杂的内容,更好地表达个人的想法,而手势本身所具有的简单、友好、自然等优势[3],并不存在信息传递困难的问题,把手势引入到人机交互中,成为如今人机交互技术的热门发展方向。
与已经存在的交互方式相比,手势交互虽然开发更为复杂,但也具有许多优势:记忆负担小,学习成本低,不需特意记忆鼠标,键盘的功能;可以远程操控,是非接触式的交互;交互内容更为丰富,不同的动作代表不同的操作命令,不像传统交互的单击、双击、滑动等单调的操作命令。
手势识别是基于手势的人机交互技术发展的基础。使用摄像头捕捉手势,并通过计算机视觉技术进行识别成为如今手势识别的主流方式。计算机通过摄像头捕捉到手部运动,从而转换成相应的命令执行。例如人们可以用手在空中画出各种各样的图形,或选择空中不同的点来构建模型,未来的人机交互系统可以把这些手上动作转化成图形或操作命令,直接对计算机进行操作。
虽然基于手势的人机交互技术发展有一定的历史。但由于受到图像采集设备的限制,手势交互的发展在2010年之前都一直处于实验阶段[4],直到三维摄像设备的出现,极大地推动了手势交互的发展。文献综述
早期摄像机技术的发展都更多地关注摄影记录材料和转印技术的改进,一直发展到现如今的CCD/CMOS镜头,但这些摄像机都是只针对2D平面图像,忽略了距离信息的采集,传统摄像机得到的图像处理和分析由于缺乏距离信息而存在失真现象。而随着Kinect摄像头的面世,它为获取图像的三维信息提供了可能。2010年,微软推出了一款三维体感摄像机[5],它就是Kinect三维摄像头,具有语音识别、骨骼跟踪、人脸识别、手势识别及麦克风输入等多种功能。它的宣言—“你就是控制器”,生动地表达了自然人机交互的交流方式,成功地展现了其强大的自然性,为准确地获取图像,对图像进行处理分析,弥补图像分析技术中的短板提出了新的可能性。
基于手势的人机交互有着广泛的应用前景,手势交互率先在游戏领域得到了应用,未来将逐步进入人工智能、智能家居、培训教育和仿真技术等领域,使人们的工作生活更为自然、智能化。
1。2 手势识别技术的发展现状
1。3 论文工作安排
本文主要通过Kinect传感器获取实验彩色数据流和深度数据流,使用Matlab对图像进行分析,分割感兴趣的手势部位,提取手势特征,完成手势识别。在这样的工作流程下,主要对静态手势进行实验,并对动态手势识别算法进行了解,为进一步动态手势识别打下基础。