总体上来说,平面视频转三维立体视频在一定程度上以取得了一些研究成果。转化实现的方法大致可以分为需要辅助工具的被动立体显示技术,和不需要任何工具仅用裸眼就可观看的自动立体显示技术两大类[4]。目前,需要辅助工具的被动立体显示技术实现方法有基于图像和基于视频两类实现转换的方法。基于图像的转化方法在于对单幅静态图信息的深度图读取,读取静态图的深度信息从而实现转化,但是这一方式的缺点在于单一图片所蕴含的信息量较小,得到的三维转换效果不太尽如人意。基于视频的转化方式是通过分析一系列视频帧图的信息,与基于图像的三维转换方法相比,能更有效地利用视频序列的帧间运动信息,其转化效果优于基于图像的转化。65576
1. 基于图像的转换方法
这类方法的深度线索是从单幅静态图像中获得的,因此将其称之为单目深度线索。目前研究的单目深度线索的包括:离焦、线性透视图、阴影、图案纹理、对称图案、遮挡等。
(1)离焦(利用单幅图像)
利用离焦作为深度线索的算法适用于满足一定条件的图像。这些图像中的景物位置必须固定,而且这些图像要由位置固定但焦距设置不同的相机所拍摄。例如,需要将观众的注意力由背景转移至前景,或者由前景转移至背景的情况下,就需要改变焦距的设置。为了能够利用在没有调整焦距设置的相机所拍摄的传统视频内容中使用离焦作为深度线索,Wong和Ernst提出了一种基于高斯滤波器二阶导数利用单幅图像的模糊估计技术[5]。论文网
(2)线性透视图
线性透视图指的是两条平行线,随着与观测点距离的增加,渐渐地向一点汇合,最终汇聚并消失于水平面上的一点。平行线上的点离消失点越近,它们看上去离观测者越远,可以利用这样的现象获取深度信息。这方面代表性的工作是由Battiato,Curti 等提出的梯度平面分配的方法[6]。
(3)阴影
图像中景物表面的缓变性包含了景物的形状信息[7]。由阴影获取形状(Shape-from-shading,SFS)指的是,利用景物表面几何特征和图像亮度之间的关系,从灰度图像中重建三维形状的一种技术。SFS是一个公认的不适定问题,类似于由运动向量得出景物结构的问题,从这个意义上说解决的方案可能不存在,可能不唯一,也可能不总是由数据决定。
2. 基于视频的转换方法
这类深度信息线索将其称之为多目深度线索。目前研究的多目深度线索的包括:运动、离焦(利用两幅或多幅图像)、聚焦、剪影等。
(1)运动
观察到的场景和相机之间的相对运动是可以提供深度信息的非常重要的线索。距观察者较近的物体在视网膜中运动的速度比较远的物体快,人的立体视觉主要是通过两只眼睛来实现的。双目立体视觉测距关键是如何找到准确的匹配点[8],从图像序列中抽取景物三维结构被称为由运动而来的结构,运动可以看作是“时间上的视差”,它由运动场表示。所谓运动场,是图像点的二维运动矢量,由场景和相机之间的相对运动而得来。由运动而来的结构的基本假设是物体形状不变以及运动是线性的。有些算法在恢复深度信息之前明确地计算运动矢量场,另外的算法则利用在估计过程中的运动场恢复三维结构[9]。
(2)剪影
图像中物体的剪影指的是,从背景当中分离出来的物体的轮廓。由剪影中获得形状的方法需要利用相机从不同的视点获得场景的多个视图。这个过程加上合适的纹理贴图,就能生成场景中物体的三维模型,使观察者从任意角度都能观察到现实的场景。由剪影中获得形状需要精确的相机定标。对每一帧图像利用背景减法将目标物体的剪影分割出来,获得的剪影以与相机位置相同的投射中心,再次投射进标准三维空间。对剪影再次投影,得到一个类锥体。所有这些类锥体的交叉区域形成一个三维物体的视觉外壳。接下来再对这个立体元素进行处理。这个三维重建的过程就是由剪影中获得形状,这种立体成像的例子是来自在北卡罗莱纳大学教堂山分校工作的迈克尔·弗拉姆博士与大卫盖洛普,他们致力于利用GPU的三维场景来构建立体视觉[10]。