1。2 大数据的特点
大数据的特点可以用4“V”来刻画,即其特点分为四个层面.
图1-1 描述大数据特征的四个V
1。2。1 数据容量巨大(Volume)
人们看到“大数据”这个词的时候首先想到的应该就是数据量巨大.平时,我们惯用的存储单位大概就是G或T了,今后,数据量的单位将从TB(1024GB=1TB)跃升到PB(1024TB=1PB)这样的数量级,甚至在不久的将来会到EB(1024PB=1EB)、甚至ZB(1024EB=1ZB)级别.
这些存储单位究竟有多大的容量,例如:一个英文字母是1字节(B),1个汉字是2字节(B).Facebook数据库每天存入的数据量大约为500 TB.Google每天处理数据的量约等于2516万部高清电影,等于100亿本书.
IDC报告称,2013年全球的数据量约为4.4ZB,到2020年,全球的数据总量将达到40ZB.实际上,数据增长速度也在不断增加,所以数据量爆炸式的增长是我们不可小觑的.
图1-2 历年全球数据量发展
数据来源:IDC数字宇宙研究报告
1。2。2 数据类型多样(Variety)
以往,数据类型多数是以文本为主的结构化数据,如今,随着科技进步和时代发展,非结构化数据日益增多,包括网络文本数据、位置信息、传感器数据、视频等,多类型的数据对数据处理能力的要求也提高了.
传统结构化数据基本上是表格式的数据,虽然每条数据的内容可以不同,但是结构是一样的,一般利用Excel或者一些数据库软件就可以处理并得到较好的结果.而对于图像、视频、音频等呈爆发式增长的非结构化数据,用传统的数据处理方法是行不通的,所以我们必须寻求能够处理非结构化数据的路径.目前,非结构化数据是数量是结构化数据的5倍以上,因此,对非结构化数据的挖掘分析将会是大数据发展的主要方向.
1。2。3 商业价值高(Value)
大数据的数据信息容量非常之大,但价值密度很低.例如遍布城市的监控视频,每个城市的监控有几万个,每天24小时不间断地录像,1个小时的视频中有用的信息可能仅有短短几秒,甚至有可能完全没有.如何利用机器算法更加迅速地提取有用的数据,成为目前急需解决的难题.
然而,海量的数据也蕴藏着巨大的价值,它带来了以往传统结构化数据无可比拟的使用价值和商业价值,从纷繁的数据中挖掘和分析用户的习惯和偏好,提供更符合用户倾向的产品和服务,并结合用户需求,对自身进行有针对性地调整与优化,正是大数据的商业价值所在.
1。2。4 处理速度快(Velocity)
大数据的数据量呈指数级增长,互联网等科技的发展带来了大量的非结构化数据,传统的数据分析已经无法解决这种变化带来的新需求.在海量的多类型数据面前,处理数据的速度就是我们利用大数据获取信息的命脉,效率就是企业生命.
2 大数据的作用
过去,人们为了寻求规律要耗费很多时间,经历很多磨难,走很多弯路,往往找到的规律还很可能不是完整的.现在,大数据可通过跟踪网民的行为轨迹,进行挖掘、分析,揭示规律,研究得出结论并提出对策,最大限度地提升社会的劳动生产率.
2。1 大数据已渗入社会各个角落
大数据已经渗透到社会生活的各个方面.美国管理学家爱德华·戴明说过:“除了上帝,任何人都必须用数据来说话”.现代社会,数据的重要性已经不必多说了,无论是对于国家还是个人,我们每天都要面对各种数据.有一个有趣的案例,全球零售业巨头沃尔玛在分析消费者购物行为时发现,男性顾客在购买婴儿尿片时,经常会顺便购买几瓶啤酒,于是超市就尝试推出了将啤酒和尿布捆绑销售的促销手段.令人惊讶的是,这个举措使尿布和啤酒的销量都大幅增加了.现在,“啤酒+尿布”的数据分析成果早已成大数据技术应用的经典案例,被人们津津乐道.