摘 要: 随着复杂系统测试、试验和状态监测产生的数据呈级数增长,大数据逐渐成为各种工业领域的研究热点。为此,从大数据定义、产生、特性的角度阐述大数据的内涵,重点强调大数据产生三要素的彻底变革,并按照大数据处理流程———产生、存储、预处理、分析及挖掘、呈现,归纳得出大数据处理的通用技术体系,分析了技术体系中各环节技术的发展现状。最后,从数据科学、工业 4. 0 以及信息物理系统的角度,阐述大数据发展的趋势,并分析了大数据发展的挑战。92269
关键词: 大数据; 工业 4. 0; 信息物理系统; Hadoop; 云存储
Abstract: The large amount of data increases significantly in the tests,experiments and condition monitoring of com-plex system,the big data becomes the research hotspot in various industrial fields. Thus,connotation of big data is concluded from its definition,production and characteristics,etc. And this work also focuses on the three generation elements to show the inevitability and specialty of the era of big data. In accordance with the big data processing pro-cedures involving its production,storage,pretreatment,analysis,mining and presentation,this paper summarizes the universal technology framework for the big data processing. Moreover,the development status of technologies involved in the framework is also analyzed in detail. Finally,from the view of data science,industrial 4. 0 and cyber-physical system,the trend and challenges are further explained.
Keywords: big data; industrial 4. 0; cyber-physical system; Hadoop; cloud storage
1 引 言
近些年,由于计算机、物联网等信息化技术以及传感技术的发展,使得现代生活中出现了“一切皆可数据化”的思维 数据的产生方式由“人机”、“机物”的二元世界向着融合社会资源、信息系统以及物理资源的三元世界转变 数据规模呈膨胀式发展。例如,互联网领域中[4],谷歌搜索引擎的每秒使用用户量达到 200 万,Twitter 每天的推特量已经超过了 3. 4 亿; 科研领域中,仅某大型强子对撞机在一年内积累的新数据量就达到 15 PB 左右 电子商务领域中,作为世界连锁性企业沃尔玛,其每小时可处理的客户交易可超过 100 万笔,相应为数据库注入超过 2. 5 PB 的数据; 航空航天领域中,仅一架双引擎波音 737 在横贯大陆飞行的过程中,传感器网络便会产生近 240 TB 的数据。综合各个领域,目前积累的数据量已经从 TB 级上升至 PB、EB 甚至已经达到 ZB 级别,其数据规模已经远远超出了现有计算机所能够处理的量级,而且全球的数据量正以每 18个月翻一倍的速度呈膨胀式增长 。对此全球著名的管理咨询公司 McKinsey 首先提出了“大数据时代”的到来 其认为数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。
“大数据”这一词语并不是近几年才出现,其最早是由美国著名未来学家 Alvin Toffer 在《第三次浪潮》一书中提出,其将大数据赞颂为“第三次浪潮的华彩乐章” ; 而 2000 年 Diebold 所撰写的论文 是
大数据第一次出现在学术期刊。但“大数据”并不等同于“大规模数据”,Viktor Mayer - Sch nberger 和Kenneth Cukier 在《“大数据”时代》 中提出 大数据应具有 4V 特性,即 Volume( 数据量大) 、Velocity( 数据处理速度快) 、Variety ( 数据具有多样性) 和 Value( 数据价值密度低) 。
大数据时代的到来颠覆了工业界、学术界对传统数据的认知,同时也引起了数据获取、存储、分析、挖掘以及可视化等技术的变革