3。1 总体设计 12
3。1。1 设计目标 12
3。1。2 算法整体设计思路 13
3。1。3 算法总流程 14
3。2 算法主要模块设计 14
4 算法详细设计和实现 16
4。1 全局结构和变量 16
4。1。1 全局结构 16
4。1。2 全局变量 18
4。2 模块设计和实现 18
4。2。1 图像预处理 19
4。2。2 Spark加速字符识别 33
5 实验设计与实践 38
5。1 实验环境配置 38
5。2 实验测试数据集 38
5。3 实验测度 39
5。4 具体实验步骤 39
5。4。1 图像预处理实验 40
5。4。2 Spark加速字符识别实验 40
5。5 实验结果及分析 40
5。5。1 图像预处理实验 40
5。5。2 Spark加速字符识别实验 42
5。4 实验结论 45
6 总结与展望 47
6。1 论文总结 47
6。2 对进一步工作的展望 47
致 谢 48
参考文献 50
1 绪论
1。1 课题背景、项目意义
随着信息时代的飞速发展,信息对整个社会的影响逐步提高,信息量、信息传播的速度、信息处理的速度以及应用信息的程度等都以几何级数的方式在增长。与传统信息——文本数据相比,图像信息等多媒体数据在人们生活中的作用逐渐凸显,数据量也在以惊人的速度不断增加。面对日益庞大的图像数据库,如何进行存储、识别、分类、检索是一项重要的课题。图像数据是连续的、形象的信息,它的内容主要通过视觉等感官上的通道进行表达。由于感知的主观性,对于同一幅图像,每一个人可能都有不同的理解,加之数据量巨大,人工处理图像的缺点显而易见——工作量大,效率低,错误率高等,这些都不利于大规模图像处理。
当前各行各业都需要快速的图像处理技术,集装箱箱号识别即是其中的典型代表。近年来,随着全球现代经济的快速发展,集装箱被广泛应用于各种货物的传输,大多数的船运业务都依赖于船运集装箱,提高吞吐量的需求也越来越强烈。集装箱箱号作为唯一标识集装箱的ID序号,在集装箱运输过程中的各个环节都需要被识别、检验。但目前国内码头的箱号识别技术手段普遍落后,很多关口因为人工记录箱号,导致车辆在关口前排长队,而人工记录引起的错误又增加了系统重复处理的负担。以上的诸多问题,导致码头服务水平下降,集装箱运输速度迟滞,不仅影响码头自身的生存发展,也使码头覆盖区域内的进出口企业蒙受较大的经济损失。