以上这些技术在发展过程中逐渐融合,形成了目前视频编码标准中典型的混合编码框架,主要包括基于运动补偿的预测、正交变换和熵编码器等关键技术,如图1-1 所示。这些技术一直在不断提高和改进[1]。例如,基于运动补偿的预测从单一的前向预测变为后向预测、双向预测、多参考帧预测;进行运动补偿的块大小从16×16,演变为小至4×4的可变块大小运动补偿;运动矢量的精度也从整像素、半像素到四分之一像素。变换由浮点DCT 改变为整数变换;熵编码也由简单的二维变长编码,发展为三维变长编码,再到基于上下文的自适应变长编码。视频编码原理框图(引用)
传统的压缩编码是建立在香农(Shannon)信息论基础上的,它以经典的集合论为基础,用统计概率模型来描述信源,但它未考虑信息接受者的主观特性及事件本身的具体含义、重要程度和引起的后果[2]。因此,压缩编码的发展历程实际上是以香农信息论为出发点,一个不断完善的过程。在此发展过程中,陆续形成了一系列针对不同应用的视频编码标准。综合标准的制定时间和编码效率,可将这些标准划分为三代。其中,H.261、MPEG-1和MPEG-2是第一代编码标准的代表。其技术特点在于采用前向和双向预测,使用较大的运动补偿块,运动矢量精度为整像素或半像素,对当前运动矢量和相邻宏块之间的差分运动矢量进行编码传送。对预测残差进行基于8×8 块的DCT 变换,熵编码采用二维变长编码。以MPEG-4(Version 1.0,2.0)、H.263、H.263+和H.263++为代表的第二代标准在帧内预测、帧间预测和熵编码方面均有提高。由于它们基本上是同一时段的产物,在技术上也相互交叉。在帧内预测方面,对变换后的直流和交流系数进行水平或垂直方向的差分预测;支持16×16 和8×8 两种块大小预测;在运动矢量的编码时采用周围块运动矢量的中值进行预测。MPEG-4 ASP(Advanced Simple Profile)和H.263++中运动矢量为四分之一精度,熵编码则采用三维编码。
1.1.1 MPEG系列标准
MPEG 是活动图象专家组(Moving Picture Coding Experts Group)的简称。MPEG成立于1988年1月,致力于研究、开发数字压缩标准,在保证活动图象质量的前提下,使传输码率压缩的组织。MPEG所开发的标准被国际标准组织(ISO)和国际电工委员会(IEC)批准为国际标准,形成 MPEG系列。
MPEG-1音视频压缩编码标准在1989年7月开始研究,1992年被ISO/IEC批准为正式标准,全称为码率低于1.5Mb/s的用于数字存储媒体的运动图像及其伴音的编码标准[29]。其主要应用是针对当时出现的新型存储媒体介质CD-ROM,每秒播放30帧,质量级别基本与VHS(广播级录像带)相当。MPEG-1也被用于数字电话网络上的视频传输,如非对称数字用户线路(ADSL),视频点播(VOD),以及教育网络等。
MPEG-2在1991年7月开始研究,1992年被ISO/IEC批准为正式标准,是支持目标码率为4Mb/s-8Mb/s的标准清晰度电视系统(SDTV)和码率为10Mb/s-15Mb/s的高清晰度电视系统(HDTV)的视频编码标准(ISO/IEC13818)。MPEG-2不是MPEG-1的 简单升级,MPEG-2在系统和传送方面作了更加详细的规定和进一步的完善。MPEG-2支持的取样格式有4:2:0,4:2:2,4:4:4等,在时间分辨率、空间分辨率、信噪比方面具有可分级性,其码流结构也可分成不同优先级。此外,MPEG-2还兼顾了与ATM信元的适配问题,可运用于异步传输模式。
MPEG-4在1995年7月开始研究,1998年11月被ISO/IEC批准为正式标准,正式标准编号是ISO/IEC14496。它不仅针对一定比特率下的视频、音频编码,更加注重多媒体系统的交互性和灵活性。MPEG-4标准的系统设计思想是面向对象,采用AV对象(Audio/Video Objects, AVOs)来表示听觉、视觉或者视听组合的内容,并对AV对象提供了一系列的支持。这个标准包含了四个重要部分:系统、视频、音频以及发送的多媒体综合框架[30]。 视频编码中容错率失真优化技术的研究(3):http://www.youerw.com/jisuanji/lunwen_69324.html