OCR基于移动终端的文字识别系统的设计与实现(6)

1。连通区域分析,检测出字符区域（轮廓外形）以及子轮廓。在此阶段轮廓线集成为块区域。

2。行检测。利用等间距检测与分割算法，包括识别出词与字符的空格区别，由字符轮廓和块区域得出文本行。

3。单个字符识别。并对初次识别效果不佳的字符进行分割与联想，对于有多种可能的情况，应用词典的距离计算，选择最佳的可能性。对于一些空格特征不明显的语言，如中文，可以先识别标点符号。来`自+优-尔^论:文,网www.youerw.com +QQ752018766-

4。多次识别。采用具有学习能力的自适应分类器，先分析的且识别效果佳的字符也作为训练样本，tesseract 会对识别不太准确的字符进行重新识别，使识别精确度得到提高。

4。最后，识别含糊不清的空格，以及采用其他方法，如由笔画高度识别小写字母的文本。

(责任编辑：qin)