一、何为大数据
(一)大数据的概念
麦肯锡全球数据分析研究所对大数据是这样定义的: “大数据是指大小超出了典型的数据库工具收集、存储、管理和分析能力的数据集。”专业研究机构 Gartner 则从描述数据整个系统过程的角度对大数据做出了如下定义: 大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 现如今,无论是工作还是生活中,通过智能设备的使用以及互联网的普及,海量的数据被汇集起来,如此庞大的数据集合是以往所不可能想象的。论文网
但是,大数据技术最大的关键之处不是收集巨大的数据量,而是把巨大的信息数据分析运用。换而言之,大数据技术手段的关键不在于前期对于数据的收集,那么这种技术手段实现其价值的关键,在于对数据进行分析,通过分析数据,从而达成数据价值的实现。
就技术层面而言,大数据和云计算的联系十分紧密。大数据的分析运用肯定不可能只用到一台计算机,需要采取分布式计算架构,因为大型数据分析需要向数十、数百或甚至数千电脑分配任务。它的特征在于对海量数据进行分布式数据开发。
随着大数据时代的来临,其也引起很多人的关注。阿里巴巴的创始人马云就曾经说过:“阿里巴巴本质上就是一家大数据公司。”大数据技术通常通过收集大批半结构化数据与非结构化数据,并将这些数据通过相关关系进行分析,并通过分析结果来进行决策。换而言之,大数据不在关心事情的因果关系,取而代之的是重视起数据之间相关关系,即仅仅要明白“是什么”,不需要了解“为什么”,一切都拿数据说话。简单理解就是,大数据是信息的表现方式,信息存在于数据之中。将数据放到相关关系下进行分析,来对数据进行关联,赋予意义,获得特定信息。
(二)大数据的特点
1。大数据种类的多样性
所谓的数据种类多样性,从数据分类的层面看,最简单的是分两类,结构化和非结构化,而大数据不只指结构化数据,还包含非结构化数据和半结构化数据;从数据的来源与用途层面看,社交媒体数据(微信公众号、微博)、网络日志数据(网络点击量数据)、即时数据(即时交易信息)、空间数据(GPS数据、经纬位置数据)、影视、音乐等不同类型的数据都是大数据的重要来源。
2。大数据规模增长迅速
根据相关的统计数据显示,在短短一分钟内,Twitter需要处理一百多万条Tweets信息;YouTube上能够新增总计四十八小时全新影视资料;AppStore有近五万次的应用下载;Google要回复近两百万次的搜索;全球新增网页达到五百多个。伴随着智能设备广泛使用以及数据网络的普及,每一个人都能够便捷高效率地进行信息的获取和发布。这些行为同时也会带来大量附带的数据,而一个数据的产生,往往会带来相关数据继续的延伸,这样就会使得数据量越来越庞大,数据规模增长也变得十分迅速。
3。大数据的相关性文献综述
传统的研究非常重视因果联系,但在大数据时代相关关系变得比因果关系更加重要,舍恩伯格认为:“大数据让社会放弃它对因果关系的渴求,而仅需要关注相关关系,也就是说只需要知道是什么,而不需要知道为什么。” 蝴蝶和台风、菜刀和化妆品、钉子和画布等看上去并不存在任何联系的东西通过数据开发就会发现其中可能拥有相关关系。当其中某个数据量增加时,随之增加的另外一个看上去无关的数据量,这种从大数据中发现的相关关系有着十分重要的作用。而对数据的相关性的研究,对于当前的社会科学的研究具有相当高的价值,通过大数据的追踪来实现对自己观点和论断的验证,从而获得有力的数据支持。