摘要如今,随着扫描设备的进步,手持便携设备在转换电子文档上给人们的生活带来了极大的便利。电子文档的产生,同时带来了光学字符识别系统识别率的问题,因为OCR对图像倾斜敏感度很高,解决这个问题迫在眉睫,所以图像校正处理技术蓬勃发展。本文所探讨的就是扭曲文档图像如何校正的问题。81376
本文通过对现有的几类扭曲文档校正方法的分析和对比中,选取图像重建文本行的方法进行研究。在MATLAB平台下实现了相关的算法。主要过程包括图像预处理(包括二值化和背景去噪),提取曲面投影,转换模型的步骤,通过这些步骤,我们将扭曲的文档输出为平整的文档。另外我们对矫正后的文档进行了对比识别率测试,测试结果证明文中实现的方法能够有效地校正扭曲文档。
毕业论文关键词 数字图像处理 OCR 扭曲校正 MATLAB 识别率
毕业设计说明书外文摘要
Title Research On correction technology Of Arbitrarily Warped Document Image
Abstract Nowadays, with the progress of scanning devices,especially hand-held protable devices, has brought great convenience for people。 Because of the appearance of electronic documents, there has a question about OCR’s recognition rate。OCR is very sensitive to image slope warping, we are supposed to solute this problem。 The technology of digital image processing is developing。 The correction technology is what we discuss in this paper。
In this paper, comparing with several types of distortion correction methods, we choose the method for selecting image by rebuild text line。 Using MATLAB platform, image pre-processing including binarization and removing borders, extraction of curved surface projection and transforming model can be done。 Finally, we get a de-warping document image。 Comparing with the result of OCR rate, the de-warping document image’s rate is more higher。 Test results show that the method in this paper can effectively correct the distortion of the document。
Keywords Digital Image Processing OCR De-warping MATLAB Recognition Rate
目 次
1 绪论 1
1。1 问题的提出背景和意义 1
1。3 论文结构内容和安排 3
2 图像处理技术和平台 5
2。1 数字图像处理技术 5
2。2 MATLAB平台介绍 5
3 图像预处理 6
3。1 灰度化 6
3。2 去除噪声处理 7
3。3 二值化 8
3。4 连通域标记 9
4 图像校正技术介绍 11
4。1 基于Hough变换的图像处理 11
4。2 利用投影轮廓的图像处理 12
4。3 基于文本行重建的图像处理 12
4。4 其他几类图像校正处理技术 13
5 实现基于模型转换的图像校正 14
5。1 图像校正的流程 14
5。2 图像校正的具体步骤 14
5。3 图像校正处理结果分析 20
结论 24
致谢 25
参考文献 26
1 绪论
自古至今,文字都是信息的主要载体,传承文化等资料使用的多为纸质文稿,在学习生活中占有极其重要的地位。纸质文稿作为人类基本的信息处理、存储和通讯载体,其缺点是易破损,不易保存,且携带也不方便,检索十分困难。这些缺点极大的阻止了信息同享和传播,也不利于建立一个联系信息和大规模的信息更新和维护。