1 OCR技术的发展历史
1929年,德国的科学家TAUSHECK提出了OCR的概念,至今已经有近90年的历史,从50年代开始,欧美国家开始进行西文OCR的研究,60年代各国开始研究中文OCR技术,而在国内,中文OCR的研究从70年代末和80年代初才开始。84511
OCR的研究可分为三个阶段,分别是算法和方案探索阶段、走向市场和初步实用阶段、系统稳定性与识别率提高阶段。在经过数十年的发展后,字符识别技术已取得了不错成果,国内外均研发了一些较为实用的产品,如国外的SIMPLEOCR,TOPOCR,FREEOCR,微软公司的Microsoft Office Document Imaging软件、国内的清华紫光OCR、汉王公司的文本王、赛酷识别软件等。
2 OCR相关技术的研究现状
(1)图像的二值化方法
二值化方法是图像分割技术,而图像分割又分阈值、边缘检测和区域增强三大类,其中阈值法通常有全局阈值和局部阈值两种,因为其计算量小、实现简单和性能稳定等原因得到了最为广泛的应用,是最基本的二值化技术,而二值化技术的关键在于选择正确的阈值,分为全局阈值法和局部阈值法两方面。论文网
具有代表性的全局阈值法如下[3-6]:
① 最大类间方差法:用阈值把灰度直方图中的灰度值集合分成两类,由类间和类内方差的最大比值来确定阈值。
② 聚类阈值法:利用聚类方法二值化灰度图像的前景类和背景类数据。
③ 基于熵的阈值法:前景和背景两个信息源的熵比值最大时的阈值即为所求阈值。
④ 模糊阈值法:在图像阈值分割技术应用模糊集理论,模糊指数的获得可通过测量灰度图像和其二值版本图像的距离。
局部阈值法即动态阈值法,是适应范围较广的阈值法,可根据像素点特征选择不同的阈值,但是如何在不同情况下选择多个可调的参数是其研究的难点,目前仍没有得到很好的解决。主要包括 Yasuda、J。M。White、Niblack、Eikvil等提出的方法,同时还有阈值曲面法等。
(2)图像切割法
图像切割即是从整个图像中分割提取出单个字符图像,识别的正确率与切割的好坏息息相关,目前有经典切割法、连通区域法、整体切割法等几种常见的切割方法。
① 经典切割法:根据图像本身的统计学属性特征,切割成单个字符图像的方法。代表性的方法是用于打印稿的间距法和基于投影特征分析的切割法,前者是由于打印稿上的字符长宽固定,可以通过平均字宽和间隔距离来估计切分点的位置,而后者主要是利用投影特征进行行字切分,其研究的重点主要是字符的断裂、字符的粘连和字符的紧排,也恰恰是实际文本图像中影响切割效果的最主要的几种情况。
② 连通区域法:该方法是在针对倾斜字体和不规则排版的文本图像时,投影分析法的切割错误就会增强的基础上提出的,其关键是合并与分割操作,即首先找出相通像素区域,然后分析各连通域的特征,通过合并或分割连通域得到切割结果。但是该方法目前主要还只是应用于西文手写体的切分。
③ 整体切割法:将单词作为一个整体来识别,而不是针对一个字母识别,识别器会局限于字典库,所以该方法只能在预先设定的字典库里进行文本图像的切割。
除此外,还有基于识别的切割方法、灰度图像的切割方法等,这里不详细展开介绍了。
(3)特征提取法
特征提取分二值图像特征提取和灰度图像特征提取两方面,它是整个系统的关键环节,即是从单个字符图像上提取统计或结构特征的过程,提取的特征的有效、稳定性也直接影响识别的结果。