大数据环境下数据挖掘面临的挑战和机遇(2)_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

大数据环境下数据挖掘面临的挑战和机遇(2)


    大数据的特征不仅体现在数据量极为巨大,也体现在信息量非常巨大这方面。表面上看,只是大量复杂的数据而已,价值并不高,但是,我们可以通过对这些复杂数据的分析处理得到很有价值的信息。对大数据的分析,主要分为五个方面:可视化分析、预测性分析能力、数据挖掘算法、数据质量管理和语义引擎。应用于大数据的关键技术包括: 数据融合与集成、遗传算法、数据挖掘、分类分析、神经网络、回归分析、聚类分析、关联规则学习、自然语言处理、机器学习等。
1.2数据挖掘之相关简介
所谓数据挖掘,即运用挖掘的算法实施数据挖掘的子过程。
(1)数据挖掘概念
     关于数据挖掘的定义,即提取出事先未知却潜在有用的信息的过程。该信息隐含在大量繁多的、不全面的、有噪音并且模糊不清的随机数据中。这种信息可以是规律、模式或概念。
(2)数据挖掘的功能
数据挖掘可以查询和遍历过去的数据,也可以预测将来的趋势和行为并且可以自动探测到从未发现的模式,从而能够对人们的决策提供很好地支撑意见。查询处理、决策支持、信息管理、过程控制以及其它应用是人们对挖掘出来的数据进行的普遍操作。数据挖掘按功能可以划分为以下几类: 时序模式、预测、关联分析、偏差检测、分类、聚类。
(3)数据挖掘采用的典型方法
由于至今还没有一种算法可以完成所有不同类型的数据挖掘任务,所以在进行数据挖掘时可以采用数据挖掘工具中所提供的多种可供选择的挖掘算法。常见的数据挖掘方法有:遗传算法、聚类方法、关联规则、粗糙集方法、神经网络、决策树算法、和统计分析方法等。 (责任编辑:qin)