毕业论文

打赏
当前位置: 毕业论文 > 计算机论文 >

Python基于hadoop的大规模并行数据分析系统原型设计(6)

时间:2017-02-08 13:00来源:毕业论文
wxWidgets工具包的Python绑定。wxPython有与它相关的学习方法。它的可移植性极佳,可以在Linux、Windows、Mac甚至嵌入式平台上运行。有很多wxPython的IDE,其中包


wxWidgets工具包的Python绑定。wxPython有与它相关的学习方法。它的可移植性极佳,可以在Linux、Windows、Mac甚至嵌入式平台上运行。有很多wxPython的IDE,其中包括GUI设计器以及如SPE(Santi's Python Editor)和wxGlade那样的GUI开发器。
Python + Hadoop
Python可以直接使用Hadoop流来进行开发,基于Hadoop流将会使程序更透明、效率更高,非常适合文本数据的处理。除了直接使用Hadoop流以外,还可以使用许多Hadoop框架来更方便的开发Python应用。常用的框架有:mrjob、dumbo、hadoopy、pydoop、happy、disco、octopy、mortar。
本课题将使用mrjob框架。mrjob是一个开放源码的Python框架,封装Hadoop的数据流,并积极开发Yelp的由于Yelp的运作完全在亚马逊网络服务,mrjob的整合与EMR是令人难以置信的光滑和容易。
mrjob提供了一个Python的API与Hadoop的数据流,并允许用户使用任何对象作为键和映射器。默认情况下,这些对象被序列化为JSON对象的内部,但也有支持pickle的对象。有没有其他的二进制I / O格式的开箱即用,但有一个机制来实现自定义序列化。
最重要的是mrjob有很好的文档,开发起来将更加方便。
数据交互的技术背景
Json简介
JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,易于阅读和编写,同时也易于机器解析和生成。JSON以一种特定的字符串形式来表示,程序通过序列化与反序列化进行压缩和解析完成不同客户端之间的数据交互。
SSH简介
在Hadoop集群中,各节点间以SSH协议进行通信。
SSH 为建立在应用层和传输层基础上的安全协议。SSH 是目前较可靠,专为远程登录会话和其他网络服务提供安全性的协议。利用 SSH 协议可以有效防止远程管理过程中的信息泄露问题。S S H最初是U N I X系统上的一个程序,后来又迅速扩展到其他操作平台。S S H在正确使用时可弥补网络中的漏洞。
数据挖掘
数据挖掘简介
数据挖掘就是从大量的实际数据提取所不清晰的但又是有用的信息的过程。如今数据挖掘主要的挖掘知识包括广义知识、关联知识、分类知识、预测型知识、偏差型知识。
数据挖掘的过程可分为三大阶段:数据准备、知识发现、解释知识。一般在数据准备之前还需要明确所要处理的问题,必须清楚数据挖掘的最后目的,虽然挖掘的知识是无法预测的,但是挖掘的问题是可以预见的。数据准备包括:数据选择、数据预处理、数据转换。准备过程主要是将待挖掘的数据转换成可以处理的数据结构,在数据预处理中还需要对异常数据进行异常处理。当数据准备完成后便可以选择合适的数据挖掘算法,对已经准备好的数据进行数据挖掘。最后对数据挖掘的结果进行分析,并对所挖掘的知识模型进行解释和评估。
数据挖掘模型简介
预测模型
预测模型是利用大量的数据得到结果与输入的映射算法,然后利用这种映射可以得到所需要的预测结果。目前交通数据预测模型已有许多研究成果,如神经BP网路模型、非参数回归模型。
关联模型
关联模型主要的目的就是找出数据中隐藏的关联关系。在海量数据中往往隐藏着这类重要的关联关系,一般用支持度、置信度这两个指标来度量所发现的关联关系。目前的主要算法有Apriori算法、FP-增长法。
分类模型
分类是数据挖掘最常用的模型,主要是根据数据的独有特点训练处一个分类器,使用分类器对新的数据进行分类的模型。分类的算法也取得了很多成果包括:决策树算法、概率统计分类方法、模糊分类方法等。
本课题实现了决策树算法中的ID3算法,并将算法修改成分布式结构。利用Hadoop进行分布式决策树构建。 Python基于hadoop的大规模并行数据分析系统原型设计(6):http://www.youerw.com/jisuanji/lunwen_2653.html
------分隔线----------------------------
推荐内容