10。统计/分析
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,
一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基MySQL论文网
的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
11。导入/预处理
虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,
还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。导入与预处理过程的特点和挑战主要是导入的数据量大,
每秒钟的导入量经常会达到百兆,甚至千兆级别。
12。挖掘
与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,
主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的K-Means、用于统计学习的SVM和用于分类的Naive Bayes,主要使用的工具有HadoopMahout
等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,还有,常用数据挖掘算法都以单线程为主。
1。2。3数据分析软件的运用
目前的数据软件很多,从程序语言上大致分为R语言,Python,Matkab等等,在软件类型和侧重点上有:
Excel:适用于数据量大致在66000条左右的数据分析任务。其特点是,使用方便,入手快,不需要学习特定的程序语言。其数据透视功能明显,是一种很普遍的数据分析入门软件。
SPSS,SAS:这些软件相对更为专业,但入手也更难,其主要运用领域在于金融,银行,大型数据库如沃尔玛等的相关DBA人员所需分析的时候运用,其优点拥有较多现成的数据分析模型,如数据离散性,数据相关性,数据的线性分析等,但对于没有程序语言功底,以及统计学功底的人,入手比较难,但是功能较于Excel更为强大。
SQL server:SQL数据库本身是用于储存数据为主,但其除了储存数据这个功能,也拥有数据分析,数据挖掘,数据报表工具。
R:此为一种语言,包含上述数据分析的基本功能,次语言的侧重点在于数据可视化的体现,是注重于数据表现的一种工具
在本次项目中,由于数据分析的数据量大概在6w条上下浮动,我们首先会从SQL数据库中根据我们掌握的轧制方面的知识,对我们需要的数据如压下量,轧制厚度,钢板宽度,轧制温度等属性,进行定向筛选出,进行空白项,缺失项,进行数据清除。之后的数据分析软件,运用Excel,将SQL数据库中的数据绘如表格中,进行数据分析。最终使用数据透视表对数据进行相关分析后,得出结果,再利用VBA,编程,做出表格数据与设定程序之间的link。
图1。1 数据分析软件基本流程分类图
1。3研究内容的目的与意义
1。3。1研究的内容
本课题拟利用5m厚板机组积累的轧制工艺数据,采用数据挖掘的思路,通过对问题的描述、数据的采集、数据预处理、知识发现、模型评估等步骤,建立符合5m厚板机组的轧制工艺模型。具体内容包括: