致谢······19
参考文献······20
1 绪论 1.1 问题源起 在互联网愈发日常化的最近 10余年间,我们面对着数据洪流和信息爆发时代的冲击。从互联网和网页技术被广泛使用到现在,已过去了20年。我们已然生活在数据的洪流中。中国进入新千年以后, 也逐渐地诞生了诸如 QQ、 贴吧、 人人网、微博这样的SNS (Social Networking Services,社交网络服务)。由此产生了“大数据(Big Data)”这样一个全社会共同关注的词。于是,作为信息处理的新范式出现的大数据,渐渐地在成为决定未来竞争力的核心概念。 虽如前文所言,但大数据的概念并不是什么新东西。1990年以来,互联网技术发展中信息洪流和信息爆发的概念,在近年来被大数据这个概念所继承。大数据这个词语和概念也不仅仅是用于信息通信的技术领域,也被用语国家、医疗、环境、观光、农业等等各种各样的领域,以各种不同的意义被使用。特别是最近,大数据在经营管理方面备受瞩目,这是因为大数据对全球化背景下的企业经营,即市场营销、商品开发、业务改善、企业决策等等的企业经营战略上有着极大的影响。 综上所述,本文将主要就大数据的出现背景、概念和特点、应用情况、对消费市场的影响和相关对策进行分析。 1.2 大数据的出现背景 现在此简述大数据的出现背景。世界著名的咨询公司麦肯锡(McKinsey & Company)这样总结大数据的出现背景: 第一,企业对顾客的数据追踪和手机行为越来越多。顾客的数据被通过诸如互联网或是智能手机的媒介追踪。除了在线的信息搜集,以离线的方式收集用户信息、消费者行为等等信息也一直是可能的。 第二,设备的存储介质、相机模块和显示模块价格的下降,使得多媒体内容的使用被推广,也导致了与此相关的信息的增加。高清视频的数据占了互联网总数据量的 70%以上,在此之后还有继续增加的趋势。 第三,在Twitter、Facebook 这样的SNS 网站急速地扩张的同时,像文本这样的非结构化数据也在激增。平均一个月单个 Facebook 用户上传 90 条以上的评论,每分钟在 YouTube 上有总计时长24小时的视频被上传。第四,随着以M2M 和 IoT(Internet of Things,物联网)为代表的通信技术的发展,通信网络里产生的数据量也在增加。随着 M2M 和 IoT 的使用的增加,数据不只是由新的用户产生,而更多是基础架构自己产生大量的数据。 综上所述,试总结大数据的出现背景:第一,随着技术的进步,数据的储存、处理和分析能力在急速扩大;第二,数据的储存、处理费用正在急速减少;第三,非结构化数据的激增和处理的必要性正在增长;第四,数据的储存方法正在加速向数字形式转换。也就是说,随着互联网的发展,云计算程度也会愈加深入,到了下一个阶段,大数据在更广泛的领域内应用已经变为可能。
1.3 大数据的概念 近年来,跟大数据有关的媒体报道以及论文层出不穷。 对于大数据并并没有明确的定义。如果简单地把大数据说成是庞大的数字化数据的总称,虽然不能说这个说法是错的,但大数据并不是单纯指巨大的数据。McKinsey(2011)的定义如下:“大数据是超过通常的数据库管理工具的储存、管理以及分析能力范围的数据”。也就是说,大数据可以说是规模远远超出传统的系统、服务、企业可接受的费用和时间来处理和分析的数据范围的数据。 表 1.1 大数据的定义 机 构 对大数据的定义 Garter 用普遍被使用的硬件和软件无法在用户层允许的时间范围内获取、管理和处理的数据 McKinsey 拥有超过传统的数据库软件获取、储存、管理分析能力的数据规模的数据集 IDC 能以较低的成本从多样化大规模的数据中提取出价值, 可以支持数据的超高速收集、挖掘和分析的前沿技术和科技 咨询公司 IDC(International Data Corporation)对 IT业界的市场调查,认为满足以下几个条件的数据被定义为大数据。第一,数据总量在 100TB以上;第二,使用诸如音频、视频、金融交易信息、传感器信息这样的高速数据流。第三,每年以 60%以上的生成率生成数据。此外,对数据进行解析时使用可扩展的基础架构也可以包含在上述条件之中。IDC 并没有把大数据定义为数据库,而是把关注的焦点放在企业和组织的业务进行上,能以较低的成本从多样化大规模的数据中提取出价值,可以支持数据的超高速收集、挖掘和分析的前沿技术和科技。 (表1.1) 对于大数据来说,可以从数据量和数据的质量两个侧面来描述。首先,从数据的量来看,在日常的生活中会产生和处理大量的实时数据,这些数据的容量从数太字节(TB,240字节)到数拍字节(PB,250字节),甚至达到数泽字节(ZB,270字节)。但是,光从数据量的侧面来表现大数据并不能说有太大的意义。 接下来,从数据的质量来看,随着技术的进步,能够连接互联网的设备也变得多种多样,也使得网络上有各种各样的数据需要被处理。社交网络上的文字数据、图片、音频、视频、位置信息、账户信息(消费记录、用户信息等等)这样的数据,并且数据在产生的频率上具有实时性、流的特点,这样多种多样的大规模的数据构成了大数据。 META集团的分析师Doug Laney在2001年发布的题为《3D数据管理:控制数据容量、处理速度及数据种类》的报告中将数据领域的复杂性描述为三个维度,即数据容量(Volume)在增长,速度(Velocity)和种类(Variety)也在增长。过了 10 年,他所提出的 3V 作为定义大数据的三个维度而被广泛接受。2008年,《自然》杂志推出了大数据专刊。同年,计算机社区联盟(Computing Community Consortium)发布了题为《大数据计算:在商业、科学和社会领域的革命性突破》的报告,在报告中阐述了大数据的技术和大数据所面临的一些挑战。 大数据对消费市场的影响分析(2):http://www.youerw.com/jingji/lunwen_52080.html