(1)数据挖掘算法[8].算法本身就是一种数学理论,数据挖掘算法是数据分析的核心.一套设计巧妙地算法可以大大提高分析数据速度,缩短分析数据流程,简化分析数据复杂性,减少分析数据的资源的损耗.假如一个算法要经过好几年才能把结论算出,那么数据的价值已经不复存在了.要想深入数据内部,挖掘出公认的数据的价值,各种数据挖掘的算法必须基于不同的数据类型和格式,才能更加科学的呈现出数据本身具备的特点.
(2)可视化分析.所谓的可是化,就是要把数据分析的结果以一种直观的,明了的,通俗易懂的图片的形式表示出来.作图是一种数学本领,把图片这种数学工具用到数据分许中,是因为大数据分析的使用者有大数据分析专家,同时还有普通用户,他们二者对于大数据分析最基本的要求就是可视化分析,可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了.
(3)语义引擎.说白了,就是计算机编程.编程设计里用到最多的就是数学公式,计算机数学语言,还有数学逻辑.学习编程很重要,美国总统奥巴马还动员全体美国公民去学习编程.好的编程能够设计出一套高效的工具系统去分析,提炼数据,从而来面对非结构化数据的多元化给数据分析带来新的挑战.语义引擎需要设计者设计到有足够的人工智能,以便能够从数据中主动地提取信息.源'自:优尔`!论~文'网www.youerw.com
(4)数据质量和数据管理.网络与图论等数学知识大量充斥在数据管理学中,数据质量和数据管理与数据分析紧密相连,无论是在学术研究还是在商业应用领域,高质量的数据和有效的数据管理,都能够保证分析结果的真实和有价值.
(5)预测性分析.函数图像的运用往往能够反映出数据背后隐藏的某种趋势,这种趋势即为预测性分析.预测性分析是数据分析应用领域的一种最为重要的应用.从大数据中挖掘出特点,通过科学的建立模型,之后通过模型带入新的数据,从而预测未来的数据.
以上五个方面可以说是大数据分析的基础,当然更加深入大数据分析的话,还有很多很多更加专业的,更加有特点的,更加深入的大数据分析方法,如
(1)大数据的技术数据采集:ETL工具处理出的数据是联机分析处理、数据挖掘的基础,它的主要责任是对存储在临时中间层的数据进行清洗、转换、集成,最后加载到数据仓库或数据集市中去,而这些数据也是由ETL工具负责将分布的、异构数据源中的数据如:关系数据、平面数据文件等抽取出来放到临时中间层去的.
(2)统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等.
(3)数据存取:关系数据库、NOSQL、SQL等基础架构:云存储、分布式文件存储等.
(4)数据挖掘:预测(Prediction)、描述和可视化、分类(Classification)、相关性分组或关联规则(Affinity grouping or association rules)、估计(Estimation)、聚类(Clustering)、复杂数据类型挖掘(图形图像,文本,网页,视频,音频等).
(5)数据处理:研究人与计算机交互的语言问题的一门学科是自然语言处理(NLP,Natural Language Processing).自然语言的关键是要让计算机“理解”自然语言,所以自然语言处理又叫做自然语言理解(NLU,Natural Language Understanding),也称为计算语言学(Computational Linguistics.一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一.