导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别.
(3)统计/分析
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求.统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用.文献综述
(4)挖掘
与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,从而实现一些高级别数据分析的需求.
4 应用案例分析
4。1 大数据在阿里巴巴的应用
提到中国的电子商务,我们最先想到的应该就是淘宝了,淘宝为无数的创业者提供了平台,也方便了人们购物,让人足不出户也能买卖商品.同时,消费者可以有更多的选择权,也帮商家解决了地域限制.淘宝给人们带来的便利已经太多了,相信大多数人都深有体会.
说到淘宝网,不得不提的是阿里巴巴集团,它经营多元化的互联网业务,包括B2B贸易、网上零售和第三方支付平台,以及云计算服务,为中小型制造商提供了一个销售产品的贸易平台.淘宝网就是它旗下业务之一,属于综合类C2C网上购物平台.
阿里巴巴集团经营多项业务,业务和关联公司的业务包括:淘宝网、天猫、聚划算、支付宝、全球速卖通、阿里巴巴国际交易市场、1688、阿里妈妈、阿里云、阿里旅行、蚂蚁金服、菜鸟网络等.2016年4月6日,阿里巴巴宣布,它已超越沃尔玛,成为全球最大的零售交易平台.阿里巴巴方面表示,技术是实现这一成就的基础.
4。1。1 阿里巴巴的大数据平台
前几年“云计算”可谓是风起云涌,然而大数据和云计算是什么关系?从技术上看,大数据与云计算的关系就像生命与空气一样密不可分.大数据无法利用一台的计算机进行处理,必须采用分布式计算架构.它的特色就是对海量数据的挖掘,但必须依附于云计算的分布式处理、分布式数据库、云存储和虚拟化技术.云计算是大数据的基础和平台,而大数据是云计算最关键的应用,两者相辅相成,各有所用.
阿里云创立于2009年,是阿里巴巴旗下的云计算平台.阿里云致力于为企业、政府等组织机构,提供最安全、可靠的计算和数据处理能力,让计算成为普惠科技和公共服务,为万物互联的DT世界,提供源源不断的新能源.来~自,优^尔-论;文*网www.youerw.com +QQ752018766-
在Sort Benchmark 2015世界排序竞赛中,阿里云利用自研的分布式计算平台ODPS,377秒完成100TB数据排序,刷新了世界纪录.
图4-1 全球大数据计算性能变迁史
阿里云在2016云栖大会上海峰会上发布全球首个一站式大数据平台“数加”,这一平台承载了阿里云“普惠大数据”的理想,即让全球任何一个企业、个人都能用上大数据.
4。1。2 “双十一”背后的大数据
双十一网购狂欢节源于淘宝商城(天猫)2009年11月11日举办的促销活动,近年来,双十一不但成为我国电子商务行业的年度盛事,并且逐渐影响到国际电子商务行业.