Python基于hadoop的大规模并行数据分析系统原型设计_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

Python基于hadoop的大规模并行数据分析系统原型设计

摘要:云计算是现在互联网最火热的技术,是当今最有影响力的技术之一。在海量数据到来的前夕,处理海量数据的技术越来越受到重视。国内各互联网企业正进行一场数据挖掘的改革。本课题将使用基于Hadoop的集群的强大运算能力对海量交通数据进行数据挖掘。国内交通仿真系统的研发正趋于成熟,随着仿真系统的研究留下海量的交通数据,使用数据挖掘技术对这些留滞的海量数据进行数据挖掘,再将数据挖掘的结果反馈给研发人员。课题将采用便捷的开发语言Python以及MapReduce原理来搭建系统的原型。此数据挖掘系统将具有海量数据分析能力、分析结果解释查询、以及海量数据简单查询能力的系统,并能够保证数据分析结果的正确性以及算法的稳定性,达到对海量交通数据的利用和对交通数据挖掘技术的验证。课题所提出的数据挖掘系统的模式在数据分析领域具有很高的研究价值。5574
关键词:云计算;交通数据;数据挖掘;hadoop;python
Hadoop and KDD
Abstract: Cloud computing is now the Internet's hottest technology and is today one of the most influential technology. In the eve of massive data, massive data processing technology more and more attention. Domestic Internet companies are engaged in a data mining reforms. This topic will use Hadoop-based cluster of massive computing power powerful traffic data for data mining. Domestic traffic simulation system development is maturing, with the simulation system left a flood of traffic data, use data mining techniques to these massive lag data for data mining, data mining and then feeding the results of R & D personnel. Issue will be used to quickly develop language Python, and MapReduce principle to build a system prototype. This data mining system will have massive data analysis capabilities, query analysis results interpretation, as well as massive data simple query capabilities of the system, and to ensure the correctness of the results of data analysis and the stability of the algorithm to achieve massive traffic data on the use and traffic data mining technology validation. Issues raised by data mining system model in the field of data analysis has high research value
Keywords:    Cloud; traffic data; data mining; hadoop; python
目录
目录    ii
1    绪论    1
1.1    国内外研究现状    1
1.2    研究背景和意义    2
2    技术背景    4
2.1    平台技术背景    4
2.1.1    Hadoop简介    4
2.1.2    Hbase简介    5
2.1.3    HDFS简介    6
2.1.4    Hive简介    7
2.2    开发语言的技术背景    8
2.2.1    Python的技术背景    8
2.2.2    WxPython的技术背景    9
2.2.3    Python + Hadoop    9
2.3    数据交互的技术背景    10
2.3.1    Json简介    10
2.3.2    SSH简介    10
2.4    数据挖掘    10
2.4.1    数据挖掘简介    10
2.4.2    数据挖掘模型简介    10
3    本课题基本内容    12
3.1    系统基本构架    12
3.1.1    客户表现层    12
3.1.2    逻辑处理层    13
3.1.3    后台数据层    13 (责任编辑:qin)