如今PC和Internet的普及使得电子文档走进了人们的视线中,信息时代的到来使得“电子图书馆”、电子书、文库等电子文档应运而生。电子文档的普及领域变得更宽,应用也原来越广泛。电子文档相对比纸质文档,其优点显著,如:方便携带,占地空间小;更新容易;可检索,使用效率就可大大提高;保留时间也更长久,更可靠,而且如果有需要,随时可以打印出来变为纸质文档。

1。1  问题的提出背景和意义

1。1。1  问题背景

纸质化文档常常采用扫描输入方式,就可以把纸质文档变成数字化的文档图像进行显示,同时也可修改、传输、存储以及管理,十分方便。纸质转换电子文档的早先方法是使用传统扫描仪,但相对较笨重,速度也稍慢,且使用范围也有其限制性,尤其对一些较厚的装订成册的书籍等。当人们使用传统的平板扫描仪扫描或复印一本厚重的书的内容时,输出文件中的文本图像基线通常由于书脊书页的装订而扭曲。这些不可抗的人为因素,常常会给人们对文档内容的辨识增加难度。扫描仪如果想要获得清晰的图像势必要对书籍进行破拆等物理损坏,如果是一些较为珍贵的资料,这显然不可行。因此,一些研究小组已经在研发各种方法来纠正或避免这些文件复印件的扭曲。

现如今,手机、数码相机等手持电子输入设备已经越来越普遍,电子文档的扫描运用也越来越广泛,手持输入设备不仅体积小,携带方便,还可以将无论是单张或者是成册的纸质文档快速方便地转化为电子文档。而且随着科技的发展社会的进步,小型取像设备获得的图像清晰度也在不断提高,已经基本满足人们日常生活的需求。但在手持设备取像过程中,也不可避免的产生失真和扭曲,如焦距失真、光线明暗不均导致的模糊,角度变化产生的线性扭曲以及比较难以去除的非线性扭曲等,这都影响后续的识别精度。

所以将纸质文档转为电子文档,且如何做到高精确、高效率的转换,已经成为当代信息化的一个重要研究方向。

1。1。2  问题研究意义

现在最广泛使用的输入方法是Optical Character Recognition(光学字符识别系统)进行分辨输入。OCR通过识别图像、版面分析等工作,将文字等信息提取成一个个可以编辑的字符,可以再编辑,同时也减少存储空间。

系统大致为:取像后经过数字图像处理技术将图像进行一些处理,然后OCR进行分辨输入。首先用扫描仪将文档材料进行扫描;然后给文档图像预处理,这其中包括去噪、二值化、校正几何畸变等工作;其次图像输入计算机中分析图像版面排布,并提取出文字行;最终识别文本行并且进行编排,输出最后识别完成的电子文本,从而就完成了输入文字的工作。

下图是OCR系统的流程框图:

图1。1  OCR识别系统框图

正如前面提到的,由于装订或者取像条件的限制,取得的图像有一定的失真,这都会影响识别的结果。OCR识别系统因为自身的局限性,版面理解分析算法和图像分割都可能因为图像的失真而失效,产生乱码或者格式错乱。为了使平时的取像,尤其是通过如数码相机等设备取得的图像,更容易被普通的OCR识别,且提高识别的精度,就需要对失真的图进行最大努力的矫正。因为扭曲对文档识别的影响十分显著,越是厚重的装订书籍越是明显,识别率会大大降低,快速校正文档图像从而提高辨别率已经成为今天的图像处理重要课题之一。

如今,数字图像处理技术发展的飞快,扭曲校正就是这次论文的研究方向。扭曲校正虽然已经有一定的发展,但仍然需要继续研究,向高精度高效率前进,这就是图像校正的意义所在。

上一篇:双频环形电桥设计
下一篇:调频连续波雷达的数学建模与理论MATLAB仿真

Matlab时延网络控制系统的输出反馈镇定与仿真

MATLAB广义网络控制系统的稳定性分析与仿真

小波分析用于图像增强的研究MATLAB仿真

线阵DOA估计及波束形成算法MATLAB实现

Matlab小波分析用于图像压缩的研究

MATLAB中继选择方案设计与仿真

MATLAB波束成形方法仿真分析

网络语言“XX体”研究

安康汉江网讯

我国风险投资的发展现状问题及对策分析

新課改下小學语文洧效阅...

麦秸秆还田和沼液灌溉对...

老年2型糖尿病患者运动疗...

互联网教育”变革路径研究进展【7972字】

张洁小说《无字》中的女性意识

LiMn1-xFexPO4正极材料合成及充放电性能研究

ASP.net+sqlserver企业设备管理系统设计与开发