目前,关于图像和视频中的文字提取和识别已经有很多研究成果了,但是还没有能够达到完美的方法。
边缘检测是图像中的文字定位和提取的一个重要环节。边缘是图像的重要特征之一,是图像信号的突变点。而关于灰度图像的边缘检测算子有Canny,Sobel,Laplace,Roberts,SUSAN等。而对于彩色图像,信息量更加庞大,更加复杂。研究表明,原来的方法在彩色图像上只能检测到90%的边缘。在[1]中有对SUSAN在彩色图像上的扩展的详细介绍。另一方面,噪声对边缘检测的影响是很大的,早期的边缘检测方法以过零点检测为主,有Robert、Prewitt、Sobel、Laplace算子等。当噪声大量的存在时,就会出现错误的边缘被检测出来,考虑噪声后,出现了Canny、Deriche、Bourenname和Laggoune等边缘检测技术[7]。67764
目前商业的OCR技术对于二值图像中文字的提取识别已经趋于成熟,但是视频中的文字具有分辨率低、背景复杂、文字形态差异大等特点,这给视频中文字的有效提取带来了很大的挑战。
一些图像中对文字的提取方法有基于对称邻域滤波的方法[3],基于多尺度图像分割的方法[5]等。一种新颖的文字提取方法是基于全局匹配小波滤波器、马尔科夫随机场、费舍尔分类器的方法。
一般的打印文档中的文字提取与识别相对比较容易,因为只有白纸和黑字,识别比较简单,而对于自然场景的图像就没有这么简单了,背景不一定单一,文字不一定大小一致,还包括各种影响和噪声等。
通常我们熟悉的RGB色彩空间是感觉不均匀的,一般我们在其他色彩空间进行研究实验,对于色彩空间的介绍见[1],包括RGB、YUV、YIQ、HSV、HIS等。从RGB到YUV、YIQ空间的转换是一个线性的过程,但是到HSV空间的转换不是一个线性的过程。论文网
边缘检测是识别数字图像中亮度变化明显的点,是进行文字提取的关键一步。
在[1]中提出的SUSAN算子进行边缘检测的思想是:用圆形模板在图像上移动,若模板内像素的灰度与模板中心像素的灰度值小于一定阈值,则认为该点为“USAN”。
在[7]中,对常见的边缘检测算法进行了分析。Canny提出的好的边缘检测算法的三个准则是准确的检测、准确的定位、复合边缘的低响应特性和单一边缘的高响特性。Deriche检测采用阶梯型边缘模型和Canny检测三原则,开发出一个像边缘检测器那样的平滑滤波器,这也是第一个Canny问题的解决方案。Madenda检测是针对单一噪声抑制参数去噪效果不理想的问题,提出边缘检测技术必须考虑噪声水平和检测边缘的模糊控制程度。
基于图像的区域特征的自适应检测是通过将输入的图像进行分割,知道满足某一条件,否则继续分割,对每个分割后的小区域分别进行噪声抑制参数和模糊控制参数的估计,通过这样的估计来替代以前的一个图像只有一个噪声抑制参数和模糊控制参数的问题,这样可以更加精确的进行边缘检测。
一般的我们输入图像,经过一定的图像处理,生成候选的文字区,利用字符纹理特征进行进一步的筛选,从而最后得到结果。一般会有两个难点:1)在一个单色目标区域的内部,其色彩通常存在波动;2)在不同颜色区域的交界处往往存在色彩过渡的现象。在[3]中,我们使用对称邻域滤波(Symmetic Neighborhood Filters,SNF)的字符检测方法来解决这一问题。使用对称邻域对图像进行增强处理,在保留图像的真实边缘的同时又可以将图像的单色目标区域内部的干扰点平滑掉。很好的解决了色彩波动和色彩过渡的问题。所谓对称邻域,以一个3*3的模块为例,以被考察点为中心,周围的八邻域图像按照对称原则被分成南-北、 东-西、东南-西北、东北-西南对称的4个区域。由这4个区域可以得到4个滤波基元。每个滤波基元由被考察的中心点和一个对称点对组成。 图像和视频中的文字提取和识别国内外研究现状:http://www.youerw.com/yanjiu/lunwen_76095.html