摘要该论文是我完成毕业设计期间对金融票据OCR系统及部分关键技术的总结。第一章绪论,主要讨论了票据OCR的研究背景、现状及意义,对票据OCR的一些关键技术作了简单介绍;第二章概括地介绍了票据OCR系统的实现过程和技术特点;第三章主要是研究字符识别中的预处理技术,本文采用的预处理技术有阀值分割,去噪,归一化,细化等技术,该章节对其进行详细分析,同时本章针对几种阀值分割进行比较,分析其各自的优缺点;第四章是基于统计方法的混排文字切分与分类的研究,介绍了简单贝叶斯分类器的原理和分类器在切分中的应用,重点讨论了特征提取;第五章提出了将字符的投影信号特征和小波变换相结合的识别方法;第优尔章介绍了软件的实现环境与识别过程及结果。19547
关键词 票据OCR系统 图像预处理 特征提取 模式识别
毕业设计说明书(论文)外文摘要
Title The software recognition of Invoice information
Abstract
This thesis is a summary of my search in Banking Check OCR system and its key technologies during making my .Chapter 1,overview,briefly introduces the background and current level of banking check OCR.Chapter 2 introduces the realization process and the technical features of banking check OCR system.Chapter 3 is the study on the pretreatment technology of character recognition, preprocessing techniques used in this paper are threshold segmentation, denoising, normalization, refining technology, this chapter focuses on several threshold segmentation were compared, analyzed their advantages and disadvantages;Chapter 4 is about research in segmenting and classification of mixed characters.The principle of simple Bays classifier and the application of this classifier in segmenting were introduced.This chapter focuses on the feature selection part.Chapter 5 puts forward the identification method of projection signal features and wavelet transform character combination;Chapter 6 introduces the achieving environment of the software and the recognition process and results.
Keywords Invoice OCR System ,Image Preprocessing, Feature Extraction ,Pattern Recognition
目 次
1 绪论1
1.1 OCR系统的研究背景及现状1
1.2 票据OCR系统研究的意义2
2 票据OCR系统的技术实现3
2.1 系统实现过程概述3
2.2 系统的技术特点3
2.2.1 票据样本的数据输入3
2.2.2 票据图像的预处理4
2.2.3 图面分析及文本快的行切分和字切分4
2.2.4 基于单字符的特征选择和提取4
2.2.5 识别模板的设计4
3 主要预处理方法的研究与实现5
3.1 二值化5
3.2 平滑7
3.3 归一化8
3.4 细化8
4 基于统计方法的混排文字切分与分类10
4.1 简单贝叶斯分类器10
4.2 简单贝叶斯分类器在切分中的应用11
4.2.1 应用原理阐述11
4.2.2 切分与文字类别判断的流程11
4.2.3 应用方法12
4.2.4 特征提取12
4.2.5 特征的离散化和条件概率函数估计14
5 识别14
5.1 印刷体字符识别原理14
5.2 现有识别算法简介15
5.2.1 结构模式识别15
5.2.2 统计模式识别15
5.2.3 基于投影和小波变换的识别算法15
5.3 分类多模板匹配15
6 系统实现16
6.1 系统实现环境16
6.2 系统实现流程16
结论18
致谢19
参考文献19
1绪论
1. 10CR系统的研究背景及现状
OCR(Optical Character Recognition)即光学字符识别,指对印刷体或手写体数字和文字等字符进行的识别处理,是模式识别领域研究的一类重要分支。
伴随着当社会信息化的高速发展,以及Internet和计算机的日益普及,大量信息的采集“瓶颈”问题就显得越来越突出了。如何使信息管理电子化,如何能够快速地提取各种信息,尤其是大量的存储在纸张介质中的信息等等,这些问题已经越来越突出地显露出来了。 OCR发票信息识别软件实现+文献综述:http://www.youerw.com/tongxin/lunwen_10953.html