同时,OCR系统可以与其他应用系统进行集成,使OCR技术具有更加广泛的应用前景。
1.2票据OCR系统研究的意义
根据前面所述,票据OCR系统属于专业型OCR系统,是一种票据格式的表格自动录入系统。在金融电子化的趋势下,信息技术手段己成为金融行业新的业务增长点。快捷、准确、高效地实现日常业务的信息化已成为银行等金融单位日益迫切的业务需要,票据OCR系统的应用对象适合于银行、税务等行业大量票据表格的自动扫描、识别及电子存储,也可应用于证券、保险、海关等众多领域,为信息的记录、保存、分析、交流提供可靠的途径。
2 OCR系统的技术实现
2.1系统实现过程概述
OCR系统的实现:
票据样本
↓
图像预处理
↓
文本行字切分
↓
文字特征提取
↓
文字识别处理
↓
识别结果
↓
保存
2.1 票据OCR系统实现过程方框图
待识别的票据样本经过光电扫描转换为图像信息,为了方便地提取有效的识别特征,需要对原始图像进行滤波去噪、倾斜扶正、二值化等预处理。图面分析是完成对图像的总体分析,区分出大写文本区域、小写数字区域、印章区域等,各作相应的处理。文本行、字切分是指从整幅图像中切割出文本行,再从行中分离出单个字符的过程。特征提取是整个环节中最重要的一环,它是从单个字符图像上提取统计特征或结构特征的过程,所提取特征的稳定性及有效性.直接决定了识别的性能。识别处理即从学习得到的标准模板库中找出与待识别字符最相似的字符类的过程。最后输出一个唯一的识别结果按指定格式存入数据库中。
2.2系统的技术特点
由上述可知,票据OCR系统的技术实现主要包括:样本数据的输入、图像的预处理、图面分析及字符切出、基于单字符的特征选择和提取、识别模板的设计及判别决策。
2.2.1票据样本的数据输入
本系统采用直接从本地或网络输入票据图像。
2.2.2票据图像的预处理
本系统中的图像预处理包括:为突出字符的有效信息而采取的灰度线性拉伸处理,不仅压缩了字符图像背景灰度的层次,而且使字体灰度分布与背景灰度分布之间的距离得以扩张,最大程度地保证了字符笔划的完整性以及字符和背景的有效分离,显著提高丁二值化的效果。二值化采用了兼顾全局和局部特点的改进的自适应二值化算法,不仅能完成二值化处理,还能优化图像的质量。对二值化以后的图像又进行了水平和垂直两次中值滤波,以及去除噪声块的处理。
- 上一篇:matlab运动模糊图像复原算法的研究
- 下一篇:基于时域旋转对称矩量法飞行目标回波信号仿真分析
-
-
-
-
-
-
-
江苏省某高中学生体质现状的调查研究
浅析中国古代宗法制度
中国传统元素在游戏角色...
巴金《激流三部曲》高觉新的悲剧命运
NFC协议物理层的软件实现+文献综述
g-C3N4光催化剂的制备和光催化性能研究
高警觉工作人群的元情绪...
上市公司股权结构对经营绩效的影响研究
C++最短路径算法研究和程序设计
现代简约美式风格在室内家装中的运用