1996年,Lienhart和Stuber提出一种基于连通区域的方法,利用视频中文字与背景色彩的高对比度,色彩的一致性,时空的连续性以及大小的相对性,对每一幅图像进行分合处理,再过滤出文本区域,这种方法实现简单,速度快,定位准确,但对于复杂背景的图像文本处理效果不理想,鲁棒性较差[4]。基于纹理分析的方法是将文字区域看作一种特殊类型的纹理来进行处理[5]。这种方法一般对完整的图像进行切割,通过小波变换,Gabor 滤波,FFT 或者空间变化的方法得到分散的方块,然后对其使用分类器进行分类。有些研究人员在处理纹理特征后还与神经网络的方法相结合。基于纹理的方法一般分为四步:纹理特征提取;纹理分割;多尺度融合;字幕区域验证[6]。这种方法适用于不同大小、语言、字体的字幕,鲁棒性良好;但是处理时间长,对于类似于文本纹理的背景区域容易出现误判,在处理中文等具有复杂结构的象形文字时效果不理想。基于边缘角点特征的方法近年来被广泛使用,这种方法利用文字笔画与背景相比具有更为丰富的边缘或角点信息的特点, 首先借用边缘或角点检测获得文字边缘或角点的特征区域,然后过滤非文本区域。Chen提出了基于边缘特征与 SVW 相结合的文本检测方法,先通过边缘算子提取字幕图像的特征点,再用膨胀的方法获得连通区域,结合投影法定位,利用字幕形状特征对区域进行过滤, 最后用SVW对候选区域进行确认[7]。 常用的边缘检测算子有Canny算子、Sobel 算子、Prewitt 算子等,常用的角点检测为 Harris 角点检测。这种方法能够快速检测文字,但在阈值设定方面通用性不好,虚警率较高,字幕定位精度也不高。基于学习的方法采用一种机器学习机制,如支持向量机或小波神经网络等构造一个学习机,在视频帧中对图像进行字幕和非字幕的分类。Jain,Zhong 以及其他人采用一种基于学习的纹理判断方法来分离文档图像中的文本、图像、和半色调图像区域;Jung 和Jeong 等人也用相似的方法在 TIE 中针对复杂颜色的图像[8]。这种方法需要最为复杂的过程进行机器学习和训练,智能度高,效果明显,但效果受训练样本影响较大。
1.2 本文算法框架和章节安排本次毕业设计主要研究标注字幕的字幕检测。 标注字幕指的是通过后期制作添加到视频帧上的字幕,具有以下特点:在时间上,视频字幕通常持续一段时间;字幕通常具有固定的尺寸和颜色;字幕与背景往往具有较高的对比度;字幕常采用规范的字体,具有丰富的边缘信息等。利用标注字幕的以上特点可以设计出视频字幕提取系统,方便进行视频信息的检索。视频字幕提取主要面临的难点有:视频资料数据量庞大,处理的计算量大,处理速度慢;复杂的背景变化使得对视频字幕和背景的区分增加了许多困难。本文中将视频字幕检测分为字幕切换帧检测和切字幕区域定位两步进行。字幕切换帧检测首先对视频帧进行预处理,求取所有的差异帧,然后利用QSDD的原理进行视频字幕切换帧检测,获得字幕切换处的差异帧。然后只在差异帧上进行字幕区域定位,这种方法与逐帧处理相比,能够大大减少视频处理的运算量,缩短视频处理时间;而与抽样处理相比,能够保留较多的字幕帧。字幕区域定位使用了基于边缘的定位方法,根据字幕文字的特点设计边缘检测模板,利用该模板对字幕切换的差异帧进行滤波,获得字幕区域的特征点;利用形态学运算得到连通区域,得到字幕候选区域;对于候选区域中虚警的部分,则根据视频字幕的空间特性设定条件进行筛选,得到视频字幕的定位区域。在算法的最后使用多帧平均的方法对字幕区域进行增强。本文的余下章节安排如下:第 2 章主要研究了字幕切换帧检测算法。首先阐述了利用 QSDD 的方法进行字幕切换帧检测的原理。然后介绍了获得字幕切换帧的算法流程。之后详细介绍了程序算法的具体实现。 基于时空特征的字幕检测算法研究(2):http://www.youerw.com/zidonghua/lunwen_28842.html