当今社会信息产业发展迅速,各行业对于数据的依赖性逐渐增强。整个互联网所产生的数据,并不能直接对各行业管理和决策起到参考作用,因此,将这些没有实际价值的数据转化为高价值数据,将对社会各行业的发展起到极大的推动作用。 本文根据上述情况,首先介绍了建设背景、意义;其次描述了项目涉及的关键技术和创新点的设计与实现;最后从软件工程的角度设计了项目的前后端架构与各模块的功能与实现。 目前,数据处理平台正在建设当中,本文的数据平台服务设计方案已在企业级大型数据处理平台广泛应用,分布式可配置爬虫已在 GITHUB 上发布,作为开源项目得到不断地改进与应用。 43130
毕业论文关键词 数据平台;数据采集;机器学习;分布式;Spark Title
基于机器学习的数据处理平台设计与研究
Abstract With he rapid development of information industry in today's society, the industry tend to depend on data gradually. The data produced by the Internet can not be a direct reference to the management and decision-making in any industry. Therefore, turning these invalid data into valid data is a social demand, This will play a great role in promoting the development of various sectors of society. Based on the describment above,this paper could be devided into these parts.To begin with, it introduces the background and meaning of building a data processing platform. Then, it tells about the key technologies involved in the projects and the design and implementation of the innovations.Finally, from the perspective of system outline designing,it introduces the front and rear ends architecture of online date processing platform and the features of every sections. Currently, the data processing platform is in full swing among construction. Data storage and data presentation programs in this paper has been developed and implemented in the enterprise. Distributed configurable web crawler have already been published on GITHUB, continuously being improved and applied
Keywords data platform;data collection;machine learning;distribute;Spark
目次
_Toc1521
1绪论.1
1.1研究的背景及意义....1
1.2数据处理平台的应用与发展...3
1.3论文结构3
1.4本章小结4
2关键技术介绍5
2.1网络爬虫5
2.2ReactJS...6
2.3Spring6
2.4Hadoop分布式存储..7
2.5Spark分布式数据处理..9
2.6本章小结9
3机器学习算法研究10
3.1BP神经网络算法....10
3.2K-means聚类算法..12
3.3本章小结17
4平台框架设计...18
4.1数据平台框架设计..18
4.2服务层框架设计.19
4.3数据层结构设计.20
4.4本章小结...22
5平台详细设计...23
5.1内部服务模块设计..23
5.2数据采集爬虫设计及实现26
5.3本章小结...28
结论.29
致谢.30
参考文献.31
1 绪论 绪论部分首先介绍研究的背景和意义,这一节将分别介绍数据采集、数据存储、数据挖掘和数据展示四大模块。其次介绍了数据处理平台未来的应用方向。最后介绍本文的主要工作和论文的结构。
1.1 研究的背景及意义 本节将逐一介绍数据处理平台的数据采集、数据存储、数据挖掘和数据展示四个模块的研究背景及意义。
1.1.1 数据采集 数据采集是指通过HTTP 等网络协议有针对性地获取互联网资源数据,并将最终采集的数据按照特定的规则分类存储的一个过程。 目前,采集网络数据的方式基本上为以下几类,网络爬虫(数据采集机器人)、分词系统、任务与索引系统等。研究人员通过上述几类方法对互联网的海量数据进行分类采集,将采集后的数据再进行二次分类,使得网络数据能够在特定专业领域发挥它的最大价值[1]。 其中,网络爬虫技术是数据采集技术中最核心的部分,任何网络数据采集模式都需要用到网络爬虫技术。第二章的关键技术介绍将对网络爬虫进行详细介绍。 基于机器学习的数据处理平台研究与设计:http://www.youerw.com/zidonghua/lunwen_43814.html