3)中层视觉(middle level)
主要任务是恢复场景的深度、表面法线方向、轮廓等有关场景的2.5维信息,实现的途径有立体视觉(stereo vision)、测距成像(rangefinder)、从X恢复形状(Shape from X, X = 明暗、纹理、运动).系统标定、系统成像模型等研究内容一般也是在这个层次上进行的。
4)高层视觉(high level)
主要任务是在以物体为中心的坐标系中,在原始输入图像、图像基本特征、2.5维图的基础上,恢复物体的完整三维图,建立物体三维描述,识别三维物体并确定物体的位置和方向。
5)体系结构(system architecture)
高度抽象的层次上,根据系统模型而不是根据实现设计的具体例子来研究系统的结构.为了说明这一点,可以考虑建筑设计中某一时期的建筑风格(如清朝时期)和根据这一风格设计出来的具体建筑之间的区别。体系结构研究涉及一系列相关的课题:并行结构、分层结构、信息流结构、拓扑结构以及从设计到实现的途径等等。
1.3 计算机视觉与相关学科的关系
1)图像处理 (image processing)
图像处理通常是把一幅图像变换成另外一幅图像,也就是说,图像处理系统的输入是图像,输出仍然是图像,信息恢复任务则留给人来完成。
2)计算机图形学 (computer graphics)
通过几何基元,比如线、圆和自由曲面等,来生成图像,属于图像综合,它在可视化(Visualization)和虚拟现实(Virtual Reality)中起着很重要的作用。而计算机视觉正好是解决相反的问题,即是从图像中估计几何基元和其它特征,属于图像分析。
3)模式识别 (pattern recognition)
研究分类问题,确定符号、图画、物体等输入对象的类别.强调一类事物区别于其它事物所具有的共同特征。一般不关心三维世界的恢复问题。
4)人工智能 (Artificial Intelligence)
涉及到智能系统的设计和智能计算的研究.在经过图像处理和图像特征提取过程后,接下来要用人工智能方法对场景特征进行表示,并分析和理解场景.
5)媒体计算 (Multimedia Computing)
文字、图形、图像、动画、视频、音频等各类感觉媒体的共性基础计算理论、计算方法,以及媒体系统实现技术。与计算机视觉相结合以实现下一代计算机能听、能看、会说、会学习为目标。
6)认知科学与神经科学 (Cognitive science and Neuroscience)
将人类视觉作为主要的研究对象。计算机视觉中已有的许多方法与人类视觉极为相似。许多计算机视觉研究者对研究人类视觉计算模型比研究计算机视觉系统更感兴趣,希望计算机视觉更加自然化,更加接近生物视觉。
1.4 Marr视觉计算理论
D.Marr其人D.Marr系英国人,曾在美国麻省理工学院人工智能实验室工作,兼任该校心理系教授。他是视觉计算理论的创始人。
Marr生于1945年1月19日,早年就读于剑桥大学,获得数学硕士、神经生理学博士学位,同时还受过神经解剖学、心理学、生物化学等方面的严格训练。他在英国曾从事新皮层、海马,特别是小脑方面的理论研究。1974年访问美国,并应M.Minsky教授之请,留在麻省理工学院开展知觉和记忆方面的研究工作。他从计算机科学的观点出发,熔数学、心理物理学、神经生理学于一炉,首创人的视觉计算理论,从而使视觉研究的面貌为之一新。Marr于1980年11月17日在波士顿病死,享年35岁。他的理论由他创建的一个以博士研究生为主体的研究小组继承、丰富和发展,并由其学生归纳总结为一本计算机视觉领域著作:Vision: A computational investigation into the human representation and processing of visual information (ISBN 0-7167-1567-8),于他后发表。从人工智能杂志1981年第17卷“计算机视觉”专辑中,我们可以清楚地看到这一理论已产生巨大的影响。 基于动态规划的立体匹配算法(3):http://www.youerw.com/jisuanji/lunwen_65523.html