Spark的兼容性很强,可以运行在各种平台之上,例如Hadoop、Mesos或是云上,也可以独立计算。Spark也可以接受多种多样的数据源,包括HDFS、Cassandra、HBase和S3。
Spark集群加载文件可以使用HDFS系统,也可以从本地文件读取。Spark使用弹性分布数据集RDD(Resilient Distributed DataSets)处理输入数据,RDD上的所有运算都是基于分区的(Partition)。分区是逻辑上的概念,在实际存储管理模块中的表示则是数据块(block),数据块的大小默认为64MB,分区与数据块是一一对应的。
任何一个文件、目录或是block的基本信息(元数据),都会被处理为对象存储在集群的主节点的内存中。因此输入一个超大文件(指大小达到MB、GB甚至是TB级别的文件)会被分割(Split)为多个数据块进行存储,生成多个对象。而输入成千上万的小文件(文件小于block的大小,即小于64MB),不仅会使block的利用率降低,而且会生成大量对象,占用主节点的内存。虽然Hadoop和Spark都提供了一些处理大批量小文件的方案,例如Hadoop的Hadoop Archive、Sequence file和CombineFileInputFormat以及Spark的SparkMultiTool等工具,本质上还是将小文件合并为大文件,增加系统开销,因此Hadoop和Spark适用于大规模文件流式访问。
1。3 全文篇章结构
本文具体的结构如下:
第一章是本文的绪论部分。本章介绍了本文的背景,对本文的研究意义和研究目标进行了简要的阐述,并且对与本文相关的关键技术,如图像处理技术、KNN模式识别方法以及Spark大数据处理技术等进行了介绍,最后对本文的内容组织结构进行了描述。
第二章是对本文涉及领域的介绍。本章介绍了图像处理、模式识别以及大数据等领域的研究发展现状。
第三章是对本文研究的算法的总体设计的说明,本章说明了算法的整体设计思路和算法的主要模块设计。
第四章是对本文研究的算法的详细设计的说明,本章说明了全局结构和变量、主模块以及子模块的详细设计。
第五章是对根据算法设计的实验的说明,本章说明了实验环境、实验数据集、实验测度、实验的具体步骤以及实验的结果,并对实验结果进行的分析。
第六章是针对实验结果得出结论,总结在研究本文过程中的不足,并对未来工作提出的展望和改进。
2 研究发展现状
2。1 图像处理
2。2 集装箱箱号识别
2。3 模式识别
2。4 大数据处理技术
算法模块与定义
3。1 总体设计
与对背景简单、字符规格统一的集装箱图片进行箱号识别的过程相比,对自然场景下的集装箱箱体图片的处理过程中存在很多新的困难。由于拍摄环境变化多端,光线有明有暗,如何在晦暗不明的图片中准确获得字符信息是一大难点;集装箱箱体有很多零部件,加上拍摄角度不固定,原本规格一致的字符在图片中的远近高低和尺寸大小都各不相同,如何在背景复杂的图片中定位到需要的字符区域是一大难点;校验位只能检测字符的值是否正确,但不具有检测字符排列顺序的功能,而在自然环境下拍摄出来的图片,字符看起来排列得整整齐齐,却常常伴有不同程度的倾斜甚至波动,如何获得字符排列的正确顺序是一大难点;字符的模式识别是基于大规模训练样本的,在样本选取具有多样性的条件下,样本的规模越大,识别准确率越高,但是样本规模的扩充会减慢识别速度,如何在样本规模不断增长的情况下,仍能保持识别速度亦是一大难点。来*自~优|尔^论:文+网www.youerw.com +QQ752018766*