OCR的概念最早由德国科学家Tausheck提出并申请专利。从发展来看,文字识别技术起步比非字母文字的识别要提前得多。文字识别起源于计算机出现时,随着进一步发展人们产生了对光学字符识别的需求,并研制出了相应的识别机器。第一代OCR产品出现于60年代初期,在此期间,IBM公司、Ncr公司、日立公司和富士通等公司分别开发研制出各自的OCR产品,典型的有Farrington3010[3],它们只能识别出一些特定的字符。78609
直到20世纪70年代初我国开始对英文字母、数字符号等文字识别技术的研究,由于模式识别整体起步较晚,对汉字识别的研究到70年代末才得以进行[4]。OCR技术在90年代基于自动化技术和扫描技术发展也实现了进一步的飞跃。中国最早的OCR商业应用是由王庆人教授在南开大学开发的,并在美国市场投入使用。如今OCR技术与国外差距逐渐减小,在中国信息化建设的实质阶段日趋成熟,更是取得了众多已转换成产品并投入使用的研究成果,比如清华紫光OCR文字图片识别软件、尚书七号和汉王OCR软件都是市场中运用识别技术的代表性产品。论文网
而随着智能移动终端的普及,OCR技术和移动终端的结合方面的研究也屡见不鲜。肖蕾蕾研发的Android文字识别软件总体识别正确率达91。5%[5],其主要工作是对图像进行前期的灰度化、去噪、倾斜矫正及二值化等处理,再用特征提取函数提取文字特征进行识别。李飞研发的Android文字识别软件仅对图像进行灰度化和二值化,没有考虑光照和角度倾斜等因素的影响[6]。张扬实现了在Android平台基于Tesseract开发光学字符辨识应用[7],为用户提供一个在嵌入式设备上便捷实用的文字识别系统,但该系统缺少对图像的预处理。万松则依托于Tesseract实现了一个满足基本的名片识别需求的api系统,该系统将识别结果以电子名片的形式返回给用户[8]。张芮,陈萱玮等人研发的手机软件在实现文字识别的基础上运用TTS技术实现了文本朗读及社会化分享功能[9]。戴笑来则对联机手写维吾尔文单字符识别进行了深入的研究[10],通过对维吾尔文单字符和单词的特征及维吾尔文的书写方式及连接形式的把握,比较了三种不同分类器和它们之间的集成。