传统的数据仓库在处理方式上具有两种数据源——主数据和事务数据。他们都是利用集成技术将数据传输到数据仓库中,而后再通过分析技术来获取所需信息。
在大数据时代,面对数据的爆炸式增长,传统的数据仓库技术遇到巨大挑战,传统的数据仓库技术大多使用昂贵的普通机型和磁盘阵列提高性能。但是,随着数据量进一步增加时,使用普通机型加磁盘阵列的模式,由于硬件条件的滞后,在扩展性上就碰到了问题。传统的数据仓库不支持跨服务器的分布式存储方式和并行计算,简单的增加普通机型的数量不能从根本上解决性能的问题。大数据通常是指如下类型的数据:23519
1)传统企业型数据
包括CRM系统中的客户信息、事务性ERP数据、网店交易、总账数据。
2)机器及传感器产生的数据
包括呼叫详情记录、制造传感器、Web日占、交易系统数据、科能仪表、设备日志。
3)社交数据
包括客户反馈、新浪等微博网站、QQ等社交媒体平台。论文网
据McKinsey Global Institute(麦肯锡全球研究所)统计,数据量平均年增长40%,从2009年至2020年之间将增长44倍。虽然数据量是可见度最高的参数,但却并非唯一必要的特性。实际上,大数据可以从四个关键特性来定义:
1)数据量
机器生成的数据量往往远大于非传统数据量,一架喷气发动机在30分钟内可生成10TB数据。如果每日有5000架次,那么仅此一个数据源每天即可生成数PB数据。重型设备和智能仪表,如钻井平台和炼油设备,生成的数据量与此相当,这都加剧了问题的严重性。
2)速度
社交媒体产生虽然没有机器生成的数据量大,但也会产生对客户关系管理有用的大量关系或观点。即使每条微博中只有140个字符,但其生成频率之高足以产生大量的数据。
3)种类
传统数据往往都是结构化的数据,其格式变化较慢。但最近随着添加新服务、部署新传感器和新市场营销活动的进行,生成的非结构化数据也会越来越多。
4)价值
不同的数据具有不同的价值。通常,大量的非传统数据中隐藏着有用的信息,对这些信息、进行转换、提取和分析,确定哪些数据是有用信息是目前面临的挑战。
大数据时代将面临着传统架构、传统技术无法解决的问题,大数据除了数据量大之外,还会把信息管理的各项需求都推向极致。架构的最底层是大数据要解决的基本问题,包括海量数据、数据的多样性、复杂性和实时性。其中复杂性包括数据的空间文度、时间文度等多种数据的复杂性。这些问题都是大数据解决方案需要考虑的出发点。解决以上四个方面的问题只是大数据解决方案的基础,只是支撑起大数据平台的基础,在这之上还有很多技术问题需要解决。
对大数据的分析要求采用新的方法来捕捉、存储。传统的工具和基础设施不能高效的处理当今快速生成的更大型、更多样的数据。一些新技术的出现,使得大数据分析变成可能,同时也更加经济高效。独特的分布式并行处理架构可对这些大型数据集进行解析,各种不同的技术策略可满足实时和批处理的需求,而实时的键值数据存储,如NoSQL,则可以实现基于索引的高性能检索。对于批处理,MapReduce技术可以根据特定的数据发现策略来执行数据过滤,发现过滤好的数据后,用户可以直接对数据进行分析,将其载入到其他非结构化数据库中,然后发送至移动设备或合并到传统数据仓库环境中,并与结构化数据相关联。
新方法充分利用了分布式计算资源网络的优势,使用分布式处理框架、无共享架构和非关系型或并行关系型数据库来重新定义管理和分析数据。另外,研究发现:大数据可显著提高机器学习算法的准确性,用来训练的数据集越大,数据分类的精度越高;大数据集上的简单算法比小数据集上的复杂算法产生更好的结果[4]。因此数据量足够大时,有可能使用代价很小的简单算法,达到很好的学习精度。
- 上一篇:滤波器的国内外研究现状发展趋势
- 下一篇:液体折射率测量国内外研究现状
-
-
-
-
-
-
-
油画创作《舞台》色彩浅析
浙江省嘉兴市典型蔬菜基...
浅议电视节目主持人的策划意识
高校计算机辅助教学英文文献和中文翻译
洪泽湖常见水生经济动物资源现状的调查
松节油香精微胶囊文献综述和参考文献
慕课时代下中学信息技术课程教学改革
msp430g2553单片机高精度差分GPS技术研究
糖基化处理对大豆分离蛋白功能的影响
数据采集技术文献综述和参考文献