基于HBASE的测试方法研究_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

基于HBASE的测试方法研究

摘  要:随着经济社会的发展,人们的物质水平大大的提高,电脑网络进入了千家万户。再加之信息化社会的快速兴起和人们对于互联网的需求,新一代大规模互联网应运而生。这些新近兴起的事物表现出了数据储存大,业务增添速率快等特征。本篇论文将全面分析HBASE中所支持的压缩算法,并对此两种不同的压缩算法做出详细比较,对以后的建设提供了指导意见。对于大数据时代的兴起,怎样提升搜索时间和储存空间,系统的平稳性和利用性价比高的硬件设施,探究压缩算法具备重大的现实意义。37945
毕业论文关键词:HBASE;压缩算法;行列存储
The Research of HBASE-Based Test Algorithm
Abstract:With the economic and social development, people's material level greatly improved, computer networks to millions of households. Coupled with the rapid rise of the information society and people's demand for the Internet, a new generation of large-scale Internet came into being. The recent rise of the things that showed a big data storage, business increase and rate characteristics. This paper analyzes the compression algorithm will be fully supported in HBASE, and this in two different compression algorithms make a detailed comparison of the future construction provided guidance. For the rise of big data era, how to improve search time and storage space, the system's stability and use of cost-effective hardware, explore compression algorithms have great practical significance.
Key Words: HBASE;Compression algorithm; the ranks of store;
目    录

摘  要    1
引言    2
1. HBASE介绍平台    2
1.1 HBASE简介    2
1.2 HBASE数据模型    3
1.3 HBASE系统架构    5
2. 压缩算法    5
2.1 Gzip压缩算法    5
2.2 LZO算法    6
3. 算法对比    6
3.2 算法性能    6
3.3 算法比较    6
4. 总结    8
参考文献    8
致谢..............10
基于HBASE测试算法的研究
引言
伴随着信息化社会的快速兴起和大众对于互联网的需求,各种各样的数据也越来越大,储存空间也是持续激增,对后续的开发和保护也带来了很大的隐患。因为数据库比较大,加上数据库备份的时间比较长,大大的提高了系统运转的不稳定性;因为数据库比较大,纵然此时数据仓库磁盘的空间也提升了,但还是没有办法解决这个问题,所以在数据库程序中运用压缩技术势在必行。面对当今社会,运用压缩技术,可以处理很多由大数据引发的问题。所谓压缩就是减少文件所占的储存空间,而且压缩前后没有信息损失。本文在介绍HBASE的同时更详细的介绍了其所支持的两种压缩算法的基本原理,相关技术,重点研究,并且对这两种算法进行了探究解析。
1. HBASE介绍
1.1 HBASE简介
HBASE,说白了,就是现今社会最为主流的一个数据库,伴随着信息化社会的快速兴起和大众对于互联网的需求,各种各样的数据也越来越大,储存空间也是持续激增,对后续的开发和保护也带来了很大的隐患。因为数据库比较大,加上数据库备份的时间比较长,大大的提高了系统运转的不稳定性;因此HBASE应运而生。其是Apache中Hadoop的一个子项目,是依托于Hadoop中的HDFS为基础,作为Hadoop的数据库,底层是将数据保存在HDFS里。[4]
 
图1三者关系图
HBASE与以前的数据库有很大的区别,其所采取的存储方式是以列为基准而不是以前的所谓的以行为基准的信息库。存储于HBASE中的信息,由于是以列为基准,所以每次搜索信息,只要搜与其有关的列,就能够完成搜索任务,而不需要将所有的数据都读出来处理,这使得系统I/O的支出极大的缩减了;每一列由一个线程来管理,支持搜索时出现其他问题的处理。 (责任编辑:qin)