虽然模式识别技术高速发展但是在现实运用中还是出现了一些问题有待解 决,之前因为手机硬件中像素不高、内存不够、运行缓慢等自身原因使得 OCR 技术在移动终端的运用中相对滞缓[2],但是如今在解决了手机客观因素之后 OCR 技术仍然没有在移动端得到进一步推行。所以本文基于 OCR 技术在智能手机中 应用的重要性与现实发展的局限性,深入研究图像文字识别技术及其与安卓平台 的结合,从而实现为人们的日常工作和生活提供便捷。
1。2 国内外发展概况
1。3 本文工作内容
本课题主要研究在智能移动终端平台上实现将图片转换成文本的功能,在整 个过程中主要完成以下工作: 1、对本系统使用的图像预处理和文字识别相关技术进行学习研究。
2、分析文字识别系统的业务需求、功能需求和性能需求。
3、搭建工作平台,设计系统应用架构,进行模块化分解。
4、完成文字识别系统的各个功能模块的开发与集成。
5、针对 Tesseract 引擎训练新的识别库,以提高文字识别率。
6、进行软件测试及分析,总结出待改进的地方。
1。4 本文组织结构
本文共分为六章,文章结构如下: 第一章:绪论。提出论文选题背景及意义、国内外发展概况分析、论文主要
工作内容及组织结构。 第二章:文字识别系统所用到的相关技术的概述。主要介绍 Android 平台的
特点及优势、图像处理相关技术和 Tesseract 引擎的技术背景及改进。 第三章:对文字识别系统进行需求分析和总体设计说明。 第四章:文字识别系统的设计与实现。按照功能分解结构细化系统功能。然
后将所有模块进行集成。 第五章:文字识别系统的测试与分析。采用大量图片进行实际的功能测试及
性能测试,针对测试结果给出测试结论,对系统进行评价。 第六章:结束语。总结成果,指出不足和改进方向。
3
2 系统开发环境及相关技术
2。1 Android 平台选择
Android 是一个以 Linux 为基础的开源移动设备操作系统,主要用于智能手 机和平板电脑,已发布的最新版本为 6。0。1。从 2010 年末开始,Android 操作系 统市场占有率排名第一,成为全球第一大智能手机操作系统[11]。
2。1。1 Android 平台特性
Android 的开源决定了其优良的可移植性,并且其开发门槛较低,用户可以 使用系统提供的开发工具和应用框架,开发出各种不同的组件或应用程序。 Android 的特点可总结为以下几点:
1。应用程序框架支持组件的重用与替换。
2。Dalvik 虚拟机专门为移动设备进行了优化,高版本虚拟机通常可兼容低版 本虚拟机,且 Dalvik 虚拟机基于寄存器,速度较快[12]。Android 应用程序将由 Java 编写的类文件转换成后缀名为。dex 的文件来执行。