1。1研究背景与目的
在大数据的背景下,大数据的分析成为一个引起关注的问题。2001年麦塔集团分析员道格•萊尼指出数据增长的挑战和机遇有三个方向:量(Volume,数据大小)、速(Velocity,资料输入输出的速度)与多变(Variety,多样性),现在这已经被认为是大数据的三个特性。
现今“大数据时代”已经变成了人尽皆知的口头禅,融入了我们的生活。从三个方面梳理大数据发展的时间线:政府推动、大数据技术、大数据价值[2]。
有了政府的推动,和大数据蕴藏着的巨大价值,推动了大数据技术的发展,大数据技术成熟为以后大数据的分析与处理打下了基础,现今的大数据技术有很多,例如Hadoop,Hiv,Storm等等。Hadoop是由多个处理软件产品组成的一个Hadoop生态系统,Hadoop系统支持大数据处理,实现对大数据的分析和科学利用。Hadoop由两个关键服务组成:一种是采用Hadoop的 HDFS的可靠数据存储服务,另一种是名为MapReduce的技术,因为MapReduce的高性能并行数据处理能力,使得Hadoop闻名遐迩。Storm是一个分布式计算框架,由Clojure编程语言编写。最终Storm实时大数据处理平台被Twitter公司收购。Twitter公司将Storm项目变为开源项目,并在2013年推向GitHub平台,Storm不久加入Apache软件基金项目,在2014年成为Apache基金下许多项目中的顶级项目之一[1]。
大数据在今天开始作为政府、企业决策的重要依赖,并在商业金融市场上发挥巨大的价值。但其是巨大的数据,其中蕴藏着的巨大价值需要去进一步挖掘,反过来促进了大数据技术的发展。
1。2国内外研究现状
1。3研究内容
本文旨在通过利用大数据的方法和相关技术解决现实中我们身边的问题,达到学以致用的目的。毕设做一个大学生学生行为决策的系统,选择作为试验点,统计一天之中学生的上下课间学生的流动趋势,为使用本系统的学生提供行为决策帮助。当某位学生下课后他想去图书馆或者自习教室自习,有大图和小图两个图书馆,还有四座教学楼,其中有很多自习教室可以自习。问题是南理工的学生也很多,特别是有考试的时候想找个地方复习,图书馆和自习教室通常没有空位,找自习的地方往往要花很多时间,时间就是金钱,能快速的找到自习教室是学生们头疼的问题。大数据使用Storm平台处理,产生的数据流通过web形式展示,实时展示数据的动态变化,来帮助大学生决策下一步的行为。
1。4组织结构
本论文基于Apache Storm平台和Nginx PHP5等其他软件,实现大数据采集,分析和处理,并结合实际将处理的结果通过web动态展示的模块。
第一章,绪论,介绍了本文的应用背景,研究目的与意义,论文的研究内容,并对本论文的组织结构进行了综合描述。
第二章,主要叙述了系统需求, 包括系统功能需求(包括不同用户对各自使用系统的不同需求,比如系统界面简洁大方),系统性能需求(包括系统稳定性,系统安全性,系统的扩展性)系统运行平台,需求建模,本章是系统的前期的分析和建模,为下一步系统的设计提供依据。
第三章,主要介绍了系统的总体设计,包括设计目标,基本技术方案,最后是系统架构。在技术方案中主要详细介绍了大数据实时处理Storm概念及开发工具与Ubuntu14。04环境的配置过程。Storm集群相关的Zookeeper。前端和后端数据传输的JSON数据格式,在数据可视化中需要使用的Nginx服务器和PHP语言,并结合Bootstrap框架和jQuery的特点完成编写。
第四章,本章主要叙述了系统的详细设计与实现。包括获取数据,Storm处理数据,Web展示数据,数据分析与决策四个阶段,在获取数据部分详细说明了数据获取的过程,和对数据的加密保护用户隐私,在Storm处理阶段详细阐明了Storm的工作流程,在web数据可视化阶段详述如何可视化,在最后一个阶段阐明了系统如何分析,推荐最佳区域。 大数据平台分布式监控指标采集和分析系统的设计与实现(2):http://www.youerw.com/jisuanji/lunwen_97591.html