基于Kinect的深度图像编码(2)

致谢 30

参考文献 31

1 绪论

1。1 课题研究背景

近年来，随着3D视频从拍摄到显示各个阶段研究的深入，3D视频技术的发展已经越发成熟。这其中尤其包括先进的3D视频编码技术。

3D视频从表现格式上可以大致分为两类【1】。其中，第一类是基于立体声和多视点信号的视频格式。这里的多视点信号旨在展现同一场景画面在不同视角所观看到的情况。而关于这种类别的视频，很重要的一个编码技术是多视点编码（Multiview video coding ，MVC)，它是基于H。264/AVC标准开发而得到的扩展编码技术。MVC标准引入了视差补偿预测的概念，它的基本思路是利用各个视点之间相关性来提高编码性能。由于MVC相对于AVC只存在高级语法的变化，所以它是向后兼容的。目前，随着H。265/HEVC编码标准的发展，基于HEVC的多视点编码（MV-HEVC）也发展起来，它的编码性能相比MVC更加高效和优越。

第二类3D视频格式是基于多视点加深度图的（Multiview video plus depth， MVD)。这种增加了深度视图的增强多视点视频能够经由深度图渲染技术（depth image-based rendering ，DIBR）合成虚拟视点。其中虚拟视点可以展现场景更多角度的视图，以此更加高效地增强3D视频的立体感。针对这种格式的视频信号，3D视频编码联合协作小组（Joint Collaborative Team on 3D video coding）在MVD标准基础上推出了两种编码方案：MVC+D和3D-AVC【2】【3】。其中，MVC+D向后兼容MVC，它将深度数据与纹理数据编码输出封装到单个比特流中。此外，3D-AVC也是基于H。264/AVC标准的3D扩展，它在编码时充分考虑纹理视图和对应深度视图之间的相关性，并利用几个编码工具提高其编码效率。目前，3D-AVC标准已发展到3D-HEVC标准，在编码效率上得到了进一步提高。

单纯的MVC编码的数据量往往很大，对存储和传输带宽要求都是极高的。而基于深度图的MVD的出现，使得3D视频在存储和传输中仅仅需要极少数的视点信息，就可以将场景中的纹理信息的深度信息表达出来，并用于恢复3D场景。由此可见，MVD相比于MVC，其数据量是大大减少的。目前，MVD格式的3D视频越发成为研究的主流，且在众多研究领域中，深度图的相关研究得到了进一步的深入。

1。2 研究目的和意义

由于深度图在合成3D场景虚拟视点方面的重要意义，其在编码领域的研究越来越被关注。深度图中的像素点的值表示的是3D空间中的物体到相机平面的距离信息。而这些距离信息的变化是由灰度变化来表现的，所以直观上它是一幅灰度图。深度图像特征明显，一般具有大的像素平坦区域和明显的边缘轮廓，在编码时相对于纹理视图更加快速和高效。同时，这些深度特征可以在编码时被提取出来，以加速和优化深度图的编码。

此外，与纹理图不同，由于包含距离信息，深度图的获取是十分困难的。一般地，我们可以通过远程红外感应器、结构光感应器、飞行时间相机（time-of-flight，TOF）等类似的混合传感器来获取所需场景中的深度信息【4】。由于复杂的测距技术，这些包含深度传感器的设备的成本都普遍较高，如TOF相机。作为同样包含深度感应器的设备，微软的Kinect【5】价格却较为低廉，只在千元左右。它的推出使得相关深度图研究的成本大大降低，极大地方便了初级的研究者。同时，Kinect的深度分辨率较高，其深度数据共包括13位，在相关深度图细节展示上可以更加完善。且在深度数据可视化处理时，由于包含高精度的13位数据，Kinect可供选择的处理方式也更加多样化。基于Kinect的深度图像编码(2):http://www.youerw.com/tongxin/lunwen_149336.html