大数据框架下能耗优化技术的研究(2)
时间:2017-06-20 21:08 来源:毕业论文 作者:毕业论文 点击:次
2.大数据时代 2.1大数据的概念与意义 大数据,或着巨量资料,指的是所关联的资料多到无法通过主运用主要软件工具,在适当时间内进行设计、管理、并整合成为对用户有用的资讯。 “大数据”作为现在最流行的IT行业的词语,伴随出现了数据仓库、数据安全、数据分析、数据挖掘等等一系列流行的词语。“大数据”是运用新处理模式使其具有更强的决策力、洞察力和优化力来解决海量数据、提高运算效率。“大数据”这个词语最早使用是apache org的开源项目Nutch。当时,大数据主要用来更新网络搜索并且进行批量处理或分析的大型数据集。现在又包涵了处理数据的效率。 2.2大数据的特征和用途 大数据相对于以前的数据仓库应用,具有数据大、查询繁杂等特点。大数据的4个“V”,一,数据量巨大。直接从TB级别升级到PB级别;二,数据类型繁多。三,价值密度低。例如视频,连续不断的播放过程中,可能用到的数据仅仅只有一两秒。四,处理速度快。1秒定律。学者们使其总结为4个“V”——Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。从某种意义来说,大数据是数据分析设计的前沿技术。 2.3大数据技术 (1)云计算及其编程模型MapReduce。 (2)大数据获取技术。①传感器技术;②Web2.0技术;③条形码技术;④RFID技术;⑤移动终端技术。 (3)文件系统。①分布式文件系统GFS;②其他文件系统。 (4)数据系统。①在索引、数据压缩、可视化等技术;②MapReduce分布式数据库BigTable;③数据库的深层探讨。 (5)大数据分析技术。①A/B测试;②聚类分析;③集成学习;④神经网络;⑤自然语言处理。 (6)大数据可视化。①宇宙星球图;②标签云;③历史流图。 2.4大数据面临的问题 (1)容量问题。“大容量”是指达到PB级的数据规模,因此,大型数据存储系统必须有相应的扩展能力于之相适应。并且,存储系统的扩展一定要简便。 (2)延迟问题。“大数据”应用还有实时性的问题。尤其是关系到与网上交易或者金融经济类相关的问题。 (3)安全问题。一些特殊行业的应用,例如金融管理、医疗程序以及政府情报等都有一些保密性和安全性需求。 (4)成本问题。对于正在使用大数据环境的用户来说,减少成本是关键的问题。想要减少成本,就意着我们必须要让每一个基础设施都达到更高的“效率”,同时还要减少那些昂贵的部件。 (5)数据的积累。要实现长期有效的数据保存,就必须要求厂商研发出能够持续检测数据一致性的功能以及其保证长期可用的特性。并且还要完成数据直接在本来位置更新的功能。 (6)灵活性。大数据存储系统的基础设施一般都可大,所以必须仔细研究精心设计,才能保证存储系统的灵活性。 (7)应用感知。现在一些使用大数据的用户已经研发出了一些的基础设施来完善应用,在存储系统领域,应用感知技术的使用越来越普遍,也是改善其效率和性能的重要手段。 (8)针对小用户。使用大数据的不仅仅只有大型用户群体,有的时候,小型企业也一定会使用到大数据。 3.节能技术面临的问题 虚拟化技术是大数据中的一个重要技术,为能耗优化提供了崭新思路,使其拥有整合服务器、在线迁移、资源利用率高、隔离性、管理灵活、可扩展性好等诸多方面的优点。同时,大数据的虚拟化技术和按需动态调整的特性也给大数据中能耗优化带来了极大的便利,传统IT系统中的能耗优化技术不能直接运用在大数据环境中。考虑到大数据特点的能耗优化,发现了以下问题: (责任编辑:qin) |