Marr视觉计算理论立足于计算机科学,系统地概括了心理生理学、神经生理学等方面取得的所有重要成果,是视觉研究中迄今为止最为完善的视觉理论。 Marr建立的视觉计算理论,使计算机视觉研究有了一个比较明确的体系,并大大推动了计算机视觉研究的发展.人们普遍认为,计算机视觉这门学科的形成与Marr的视觉理论有着密切的关系.
Marr视觉理论的组成如下:源]自=优尔^`论\文"网·www.youerw.com/
1)信息处理的三个层次
计算理论 表示和算法 硬件实现
计算的目的是什么?为什么这一计算是合适的?执行计算的策略是什么 如何实现这个计算理论?输入、输出的表示是什么?表示与表示之间的变换是什么? 在物理上如何实现这些表示和算法?
2)视觉表示框架的三个阶段
第一阶段(也称为早期阶段):
将输入的原始图像进行处理,抽取图像中诸如角点、边缘、纹理、线条、边界等基本特征,这些特征的集合称为基元图(primitive sketch);
第二阶段(中期阶段):
指在以观测者为中心的坐标系中,由输入图像和基元图恢复场景可见部分的深度、法线方向、轮廓等,这些信息包含了深度信息,但不是真正的物体三维表示,因此,称为二维半图(2.5 dimensional sketch);
第三阶段(后期阶段):
在以物体为中心的坐标系中,由输入图像、基元图、二维半图来恢复、表示和识别三维物体。
1.5 本文的主要内容安排
本文主要分为以下章节:
第一章介绍本课题的选题依据及价值,简单介绍了计算机视觉的一些概念,Marr视觉理论。
第二章主要介绍一下常用的立体匹配算法和匹配代价的计算。
第三章介绍立体匹配代价计算以及几种常用的视差图的获取方法。
第四章介绍动态规划,描述动态规划算法的基本知识与常用算法。
第五章写基于动态规划的立体匹配,详细阐述基于动态规划的立体匹配算法如何实现,并给出单方向DP的实验结果,而之后的一小节则是我参照SGBM算法所做的双方向DP实验结果及分析。
2立体匹配算法的相关概念
2.1 立体视觉匹配原理
立体匹配是寻找同一场景中的两幅不同图像对应点的过程。匹配主要包括两部分,特征检测和特征匹配。由于存在多种的误差因素,比如噪声、亮度差异、遮挡和透视失真等的影响,图像对之间的对应点其实是有差异的。对于同一副图像中的一个特定特征或者窗口,通常在另一幅图像中会有几个候选点的存在,因此必须加入一些额外的约束来帮助获得匹配【2】:
(1)极线约束
在这个约束下,匹配点必然位于其在另一幅图像的极线上,因此时差的搜索沿着极线进行。对于极线经过配准的立体图像对,匹配点的搜索是沿着极线进行的,将潜在的搜索空间由2D降到了1D。
(2)唯一性约束
在这个约束下,第一幅图像只能对应第二幅图像中的一个像素,匹配点是唯一的。
(3)光学测定学相容性约束
在这个约束下,两幅图像中光的亮度可能仅仅差一点。由于在光源、表面法向和观察者之间的相互角度的原因,它们不大可能完全相同,但是差别一般不会很大。实际上,该约束对于图像抓取的条件来说是非常自然的。
(4)几何相似性约束