3 深度图与深度编码
3.1 深度图
3.1.1 深度图概念
获取场景中各点相对于摄像机的距离是计算机视觉系统的重要任务之一。场景中各点相对于摄像机的距离可以用深度图(Depth Map)来表示,即深度图中的每一个像素值表示场景中某一点与摄像机之间的距离。机器视觉系统获取场景深度图技术可分为被动测距传感和主动深度传感两大类。被动测距传感是指视觉系统接收来自场景发射或反射的光能量,形成有关场景光能量分布函数,即灰度图像,然后在这些图像的基础上恢复场景的深度信息,最一般的方法是使用两个相隔一定距离的摄像机在不同空间位置上获取两幅或两幅以上图像,通过多幅图像的灰度信息和成像几何来生成深度图。深度信息还可以使用灰度图像的明暗特征、纹理特征、运动特征间接地估算。主动测距传感是指视觉系统首先向场景发射能量,然后接受场景对所发射能量的反射能量。主动测距传感系统也称为测距成像系统。雷达测距系统和三角测距系统是两种最常用的两种主动测距传感系统。因此,主动测距传感和被动测距传感的主要区别在于视觉系统是否是通过增收自身发射的能量来测距。
3.2.2 深度图的作用
随着科学技术和人类认识世界需求的不断发展,传统的机器视觉已经不能满足人们对于三文物体识别的要求。与灰度图像相比,深度图像具有物体三文特征信息,即深度信息。由于深度图像不受光源照射方向及物体表面的发射特性的影响,而且不存在阴影,所以可以更准确地表现物体目标表面的三文深度信息。在VSP中一个重要的问题就是计算,编码和传输准确的深度图像。在多视图视频通信,自由视点视图以及3D播放中都需要使用深度图。所以在编码端必须获取场景深度图并做一定的处理再把它传送到解码器端。深度图在视频编码中的作用很大,可以有效的提高多视图图像传输和多视图视频传输的编码效率。
3.2.3 深度图估计的方法
现在图像深度估计方法主要还是利用双目视差以及运动视差的原理,即利用2个相机同时在不同的空间位置或者利用一个相机移动对同一场景成像,然后在拍摄到的两幅或多幅相异图像中找对应点,利用空间的几何关系计算出景物到镜头的距离,即图像的深度。
基本的双目立体几何关系如下图所示,它是由两个完全相同的摄像机构成,两个图像平面位于一个平面上,两个摄像机的坐标轴相互平行,且x轴重合,摄像机之间在x方向上的间距为基线距离b。在这个模型中,场景中同一个特征点在两个摄像机图像平面上的成像位置是不同的。我们将场景中同一点在两个不同图像中的投影点称为共轭对,其中的一个投影点是另一个投影点的对应,求共轭对就是求解对应性问题。两幅图像重叠时的共轭对点的位置之差称为视差,通过两个摄像机中心并且通过场景特征点的平面称为外极平面,外极平面与图像平面的交线称为外极线。
场景点P在左右图像平面中的投影点分为 和 ,不失一般性,假设坐标系原点与左透镜中心重合。比较相似三角形 和 ,可得下式:
(1)
同理,从相似三角形PNCr和plRCr,可得下式:
(2)
合并两式,可得:
(其中F是焦距,B是基线距离。)(3)
因此,各种场景点的深度恢复可以计算视差来实现。注意,由于数字图像的离散特性,视差值是一个整数。在实际中,可以使用一些特殊算法使视差计算精度达到子像素级,因此,对于一组给定的摄像机参数,提高场景点对应的视差。然而这种大角度立体方法也带来了一些问题,主要的问题有: 视频深度图像的产生和编码+文献综述(5):http://www.youerw.com/tongxin/lunwen_9830.html