8 总结与展望 21
致谢 21
参考文献 21
基于CNN的英文字符识别系统的设计与实现
1 绪论
1.1 研究背景及意义
生活中,纸质版文档不方便携带且易丢失,利用文字识别技术将其转换为数字信息存储在电脑,存储空间占比小,有即时取用的优点。光学字符识别(Optical Character Recognition,OCR)技术能够通过计算机自动进行信息录入,相比人工录入,节省了大量人力和时间,具有很高的研究价值。OCR技术简单说就是把图像上的文字转化为可编辑文本的过程。传统的OCR识别主要利用PCA、LBP等算法对图像进行特征提取,但是人工提取特征操作过程十分繁琐。近年来,深度学习在语音、图像、自然环境处理等领域取得了非常突出的成绩,成为目前最引人瞩目的技术热点之一。深度学习的模型之一卷积神经网络(Convolutional Neural Net,CNN)可以做到自动提取图像特征,这一特点大大改进了OCR技术。目前已经有不少基于CNN的字符识别产品,比如金山OCR可快速将PDF图像转换为可编辑文本。
1.2 国内外研究情况
1.2.1 国内研究状况
1.2.2 国外研究状况
2 开发工具与系统介绍
本文采用MATLAB 2016b和Google Cloud 上的Windows Server。
MATLAB是一种功能强大的计算工具,可以进行大量的矩阵运算、绘制复杂的函数和统计数据、实现各种各样的图像处理算法、创建具有实用性的用户界面、连接其他编程语言的程序等。MATLAB开发了功能强大的模块集和工具箱,这些工具是为了让用户使用MATLAB的函数和文件时更加方便,用户可以直接使用工具箱学习而不需要自己编写代码。还有数据样本的大量采集、数据库接口、概率统计、小波分析、信号处理、图像处理、系统辨识等,都在工具箱(Toolbox)家族中有了自己的一席之地。
卷积神经网络的训练需要数量庞大的训练集来提取图像特征,因此对计算机配置要求较高。然而本机处理器为1.80 GHz,内存为4GB,配置比较低,最终本系统利用Google云服务的分支——谷歌计算引擎(Google Compute Engine,GCE)提供的Windows Server2012版服务器进行神经网络训练。
本系统利用图像处理和神经网络知识,以26个大写字母作为识别体,对采集的英文手写体文本图像进行识别。首先通过文本定位,字符分割、字符大小归一等操作,得到单张字符图像。然后基于CNN的理论基础设计搭建并训练了一个具有两层卷积层、一个全连接层的神经网络。最后利用训练好的神经网络对分割所得字符图像进行识别,完成了本次英文识别系统的设计与实现。 CNN英文字符识别系统设计+源代码(2):http://www.youerw.com/jisuanji/lunwen_32660.html