视频深度图像的产生和编码+文献综述(2)

2009年《阿凡达》的上映掀起了一股全球3D风潮。中国的3D影院，尤其是IMAX的影院，几乎场场爆满。在超长的三个月的档期中，票房收入13.2亿人民币（约2亿美元），仅次于美国，成为全球第二大票房收入。
无论是国内的还是国外的家电厂商，乘着《阿凡达》的东风纷纷推出3D样机，发布3D产品。这一切预示着3D显示技术的新时代即将到来，在这样一个时刻，你是否了解3D显示到底是如何实现的、这项技术现在发展到一个什么样的阶段、未来这项技术还会带给我们什么样的惊喜？
长久以来，人类眼睛所获得的周围世界的信息是立体的。因此，人们很自然的希望能有一种实时的媒体播放技术，它能够提供给人们就像用自己的双眼来观看物体那样的立体感受。然而传统的图像、视频等媒体播放技术提供给我们的都是平面的信息，无法满足人们的日益增长的需求。近几年提出的立体电视技术（3DTV）和自由视点电视技术（FTV）成为满足人们需求的最有前途的研究方向。同时，随着航天航空、建筑设计和城市规划等相关领域的不断发展，虚拟现实作为实现这一目标的关键技术也成为一个十分热门的研究领域。
立体电视技术、自由视点电视技术以及虚拟现实等前沿技术的核心和关键点都是深度信息的获取，而深度信息的获取本身就是一个很有挑战性的问题。传统的立体匹配的方法虽然在理论上是完美的，但是在实际应用中存在着很多问题：基于图像颜色的立体匹配技术很难找到准确的匹配点，对于颜色单一、无纹理的区域无能为力；利用了空间结构信息的立体匹配技术虽然能准确的找到匹配点，但是这种方法的复杂度很高，并且往往需要人工干预，这也就限制了这种方法的应用范围。另一方面，传统的深度信息获取传感器在获取深度信息时是逐点扫描的，速度慢，很难满足实时的要求，并且只能应用于静态的场景。
可见，深度信息获取仍然是计算机视觉领域的一个十分热门的研究方向，还有很多的问题需要解决。本文主要对深度信息的获取和3D显示的整个流程进行了学习和研究。
1.2 目前的深度信息获取算法和国内外研究现状
1.3 本论文的研究工作和章节安排
本论文主要进行对3D显示所需的深度信息的获取和深度编码的研究。获取深度图的算法采用的是立体匹配的方法，主要通过DERS来实现的。
本文主要内容安排如下：
在第二章中，首先对3D成像原理和3个常用技术进行了介绍，这也是深度信息获得的基础。还介绍了现在研究的热点3DTV的组成和关键技术。
第三章大致的描述了理论上深度图获得的方法以及对深度编码的研究，主要为基于虚拟视点合成的视频编码。
第四章进行了深度图的估计，主要通过DERS获得香槟塔的例子来展示。
2 3D成像原理和3DTV系统
2.1 什么是3D
3D-3 Dimension即3文立体，是相对于2D平面的一个概念。我们人类所生存的世界就是一个三文的空间，我们在现实世界中观察到的物体也都具有三个文度：高度、宽度和深度，我们早已习惯了3D的世界。然而由于技术发展的局限性，在电影、广播电视以及印刷等媒体世界中，我们被局限在了2文世界。3D显示（或称立体成像）技术有几百年的历史，从原理上大致可分为三大类：立体图像对技术(Stereo Pair)、体显示技术(Volumetric Displays)、全息技术(Holography)。
2.1.1 双眼分视 – 立体视觉的根源（立体图像对技术）
人天生具有两只眼睛，而两只眼睛间的距离大体为6-7厘米。正是由于这6-7厘米的距离，当人的双眼注视一个物体时，双眼看到的景象并非一致，而是存在细微的差别。存在细微差别的两幅二文图像，经过大脑的合成最终呈现出立体感。视频深度图像的产生和编码+文献综述(2):http://www.youerw.com/tongxin/lunwen_9830.html