Hbase不支持复杂条件查询,因此想用impala来实现Hbase的sql查询
我现在的环境是
Apache hadoop-2.2.0、Hbase0.96-2
但是网上查找impala安装都必须在Cloudera下面,请问impala可以安装在ApacheHadoop下吗,或者impala怎么和Apache下面的Hbase进行
impala能使用的内存无法超过系统的硬件可用内存(GA版,查询需要的内存如果超出硬件内存,则查询将失败),对内存要求高,典型的硬件内存为:32~48G
impala(版本0.4)只支持redhat 5.7/centos 5.7或redhat 6.2/centos 6.2以上(好像还要求是64位的,所以建议安装在64位系统上),不支持ubuntu
假设你已经安装了CDH4(即Hadoop 2.0)
假设你已经安装了Hive,并配置一个外部数据库(如MySQL)供Hive存储元数据。可通过执行下面的命令来判断Hive是否安装正常
$ hive
hive> show tables;
OK
Time taken: 2.809 seconds
这里请原谅我没有提到Hadoop和Hive的安装过程,还请尊驾自行搜索。
Impala不支持的特性:
查询流数据
删除数据
索引(至少当前版本不支持)
YARN集成(至少当前版本不支持)
全文搜索
不具有像Hive SerDe的可扩展机制
不支持线上查询容错,如果查询出错,如机器宕机,Impala将会丢弃本次查询。
不支持表和列级别的授权
impalad实例之间的传输没有加密
不支持Hive UFS
beta版尚不支持JDBC,计划GA版支持
在core-site.xml文件中添加如下内容(如果不存在的话):
<property>
<name>dfs.client.read.shortcircuit</name>
<value>true</value>
</property>
<property>
<name>dfs.client.read.shortcircuit.skip.checksum</name>
<value>false</value>
</property>
<property>
<name>dfs.client.read.shortcircuit</name>
<value>true</value>
</property>
<property>
<name>dfs.client.read.shortcircuit.skip.checksum</name>
<value>false</value>
</property>
1.2.2.3 hdfs-site.xml
在hdfs-site.xml文件中添加如下内容(如果不存在的话):
C
<property>
<name>dfs.datanode.data.dir.perm</name>
<value>755</value>
</property>
<property> 监理在工程计量中实现自动绘制横断面图的方法
<name>dfs.block.local-path-access.user</name>
<value>hadoop</value>
</property>
<property>
<name>dfs.datanode.hdfs-blocks-metadata.enabled</name>
<value>true</value>
</property>
<property>
<name>dfs.datanode.data.dir.perm</name>
<value>755</value>
</property>
<property>
<name>dfs.block.local-path-access.user</name>
<value>hadoop</value>
</property>
<property>
<name>dfs.datanode.hdfs-blocks-metadata.enabled</name>
<value>true</value>
</property>