1.快速单机安装:
在单机安装Hbase的方法。会引导你通过shell创建一个表,插入一行,然后删除它,后停止Hbase。只要10分钟就可以完成以下的操作。
1.1下载解压新版本
选择一个 Apache 下载镜像:http://www.apache.org/dyn/closer.cgi/hbase/,下载 HBase Releases. 点击 stable目录,然后下载后缀为 .tar.gz 的文件; 例如 hbase-0.90.4.tar.gz.
$ cd hbase-0.90.4
现在你已经可以启动Hbase了。但是你可能需要先编辑
- xml
version="1.0"?> - xml-stylesheet
type="text/xsl" href="configuration.xsl"?> - <configuration>
-
<property> -
<name>hbase.rootdirname> -
<value>file:///DIRECTORY/hbasevalue> -
property> - configuration>
将
1.2. 启动 HBase
现在启动Hbase:
$ ./bin/start-hbase.sh
starting Master, logging to logs/hbase-user-master-example.org.out
现在你运行的是单机模式的Hbaes。所以的服务都运行在一个JVM上,包括Hbase和Zookeeper。Hbase的日志放在logs
目录,当你启动出问题的时候,可以检查这个日志。
1.3. Hbase Shell 练习
用shell连接你的Hbase
$ ./bin/hbase shell
HBase Shell; enter 'help' for list of supported commands.
Type "exit" to leave the HBase Shell
Version: 0.90.0, r1001068, Fri Sep 24 13:55:42 PDT 2010
hbase(main):001:0>
输入
创建一个名为 test
cf
。可以列出所有的表来检查创建情况,然后插入些值。
hbase(main):003:0> create 'test', 'cf'
0 row(s) in 1.2200 seconds
hbase(main):003:0> list 'table'
test
1 row(s) in 0.0550 seconds
hbase(main):004:0> put 'test', 'row1', 'cf:a', 'value1'
0 row(s) in 0.0560 seconds
hbase(main):005:0> put 'test', 'row2', 'cf:b', 'value2'
0 row(s) in 0.0370 seconds
hbase(main):006:0> put 'test', 'row3', 'cf:c', 'value3'
0 row(s) in 0.0450 seconds
以上我们分别插入了3行。个行key为row1
, 列为 cf:a
, 值是 value1
。Hbase中的列是由 column family前缀和列的名字组成的,以冒号间隔。例如这一行的列名就是a
.
检查插入情况.
Scan这个表,操作如下
hbase(main):007:0> scan 'test'
ROWCOLUMN+CELL
row1column=cf:a, timestamp=1288380727188, value=value1
row2column=cf:b, timestamp=1288380738440, value=value2
row3column=cf:c, timestamp=1288380747365, value=value3
3 row(s) in 0.0590 seconds
Get一行,操作如下
hbase(main):008:0> get 'test', 'row1'
COLUMNCELL
cf:atimestamp=1288380727188, value=value1
1 row(s) in 0.0400 seconds
disable 再 drop 这张表,可以清除你刚刚的操作
hbase(main):012:0> disable 'test'
0 row(s) in 1.0930 seconds
hbase(main):013:0> drop 'test'
0 row(s) in 0.0770 seconds
关闭shell
hbase(main):014:0> exit
1.4. 停止 HBase
运行停止脚本来停止HBase.
$ ./bin/stop-hbase.sh
stopping hbase...............
2 Hbase集群安装前注意
1)
2)
3)
4)
如果你查询的时候或者是遇到奇怪的故障,可以检查一下系统时间是否正确!
Base是数据库,会在同一时间使用很多的文件句柄。大多数linux系统使用的默认值1024是不能满足的,会导致FAQ: Why do I see "java.io.IOException...(Too manyopen files)" in my logs?异常。还可能会发生这样的异常
所以你需要修改你的大文件句柄限制。可以设置到10k. 你还需要修改 hbase 用户的 nproc,如果过低会造成 OutOfMemoryError异常。 [2] [3].
需要澄清的,这两个设置是针对操作系统的,不是Hbase本身的。有一个常见的错误是Hbase运行的用户,和设置大值的用户不是一个用户。在Hbase启动的时候,行日志会现在ulimit信息,所以你好检查一下。
设置ulimit:
如果你使用的是Ubuntu,你可以这样设置:
在文件
Hadoop
可以把
Hadoop soft/hard nproc 32000
在
session required
否则在
还有注销再登录,这些配置才能生效!
7 )修改Hadoop HDFS Datanode同时处理文件的上限:dfs.datanode.max.xcievers
一个 Hadoop HDFS Datanode 有一个同时处理文件的上限. 这个参数叫
对于HDFS修改配置要记得重启.
如果没有这一项配置,你可能会遇到奇怪的失败。你会在Datanode的日志中看到xcievers exceeded,但是运行起来会报 missing blocks错误。例如:
8)继承Hadoop安装的说明:
每个机子/etc/hosts
10.64.56.74
10.64.56.76
10.64.56.77
9) 继续使用Hadoop用户安装
Chown –R Hadoop /usr/local/hbase
3 分布式模式配置
3.1配置conf/hbase-env.sh
# exportJAVA_HOME=/usr/java/jdk1.6.0/
exportJAVA_HOME=/usr/lib/jvm/java-6-sun-1.6.0.26
# Tell HBase whether it should manage it'sown instance of Zookeeper or not.
export HBASE_MANAGES_ZK=true
不管是什么模式,你都需要编辑 conf/hbase-env.sh
来告知Hbase JAVA_HOME
指向
一个分布式运行的Hbase依赖一个zookeeper集群。所有的节点和客户端都必须能够访问zookeeper。默认的情况下Hbase会管理一个zookeep集群。这个集群会随着Hbase的启动而启动。当然,你也可以自己管理一个zookeeper集群,但需要配置Hbase。你需要修改conf/hbase-env.sh
里面的HBASE_MANAGES_ZK
让Hbase使用一个现有的不被Hbase托管的Zookeep集群,需要设置 conf/hbase-env.sh
文件中的HBASE_MANAGES_ZK
# Tell HBase whether it should manage it's own instanceof Zookeeper or not.
exportHBASE_MANAGES_ZK=false
3.2 配置conf/hbase-site.xml
- <configuration>
-
-
<property> -
-
<name>hbase.rootdirname> -
-
<value>hdfs://node1:49002/hbasevalue> -
-
<description>The directory shared byRegionServers. -
-
description> -
-
property> -
-
<property> -
-
<name>hbase.cluster.distributedname> -
-
<value>truevalue> -
-
<description>The mode the clusterwill be in. Possible values are -
-
false: standalone and pseudo-distributedsetups with managed Zookeeper -
-
true: fully-distributed with unmanagedZookeeper Quorum (see hbase-env.sh) -
-
description> -
-
property> -
-
-
-
<property> -
-
<name>hbase.zookeeper.property.clientPortname> -
-
<value>2222value> -
-
<description>Property fromZooKeeper's config zoo.cfg. -
-
The port at which the clients willconnect. -
-
description> -
-
property> -
-
<property> -
-
<name>hbase.zookeeper.quorumname> -
-
<value>node1,node2,node3value> -
-
<description>Comma separated listof servers in the ZooKeeper Quorum. -
-
For example,"host1.mydomain.com,host2.mydomain.com,host3.mydomain.com". -
-
By default this is set to localhost forlocal and pseudo-distributed modes -
-
of operation. For a fully-distributedsetup, this should be set to a full -
-
list of ZooKeeper quorum servers. IfHBASE_MANAGES_ZK is set in hbase-env.sh -
-
this is the list of servers which we willstart/stop ZooKeeper on. -
-
description> -
-
property> -
-
<property> -
-
<name>hbase.zookeeper.property.dataDirname> -
-
<value>/home/Hadoop/zookeepervalue> -
-
<description>Property fromZooKeeper's config zoo.cfg. -
-
The directory where the snapshot isstored. -
-
description> -
-
property> -
-
configuration>
要想运行完全分布式模式,加一个属性 hbase.cluster.distributed
true
hbase.rootdir
/hbase
,使用如下的配置:hdfs://node1:49002/hbase
hbase.rootdir:这个目录是region server的共享目录,用来持久化Hbase。URL需要是'完全正确'的,还要包含文件系统的scheme。例如,要表示hdfs中的'/hbase'目录,namenode 运行在node1的9090端口。则需要设置为hdfs://node1:49002/hbase。默认情况下Hbase是写到/tmp的。不改这个配置,数据会在重启的时候丢失。默认:
hbase.cluster.distributed
默认:
在hbase-site.xml配置zookeeper:
当Hbase管理zookeeper的时候,你可以通过修改zoo.cfg来配置zookeeper,
一个更加简单的方法是在
对于zookeepr的配置,你至少要在
hbase.zookeeper.property.clientPort:ZooKeeper的zoo.conf中的配置。 客户端连接的端口。
hbase.zookeeper.quorum:Zookeeper集群的地址列表,用逗号分割。例如:"host1.mydomain.com,host2.mydomain.com,host3.mydomain.com".默认是localhost,是给伪分布式用的。要修改才能在完全分布式的情况下使用。如果在hbase-env.sh设置了HBASE_MANAGES_ZK,这些ZooKeeper节点就会和Hbase一起启动。
默认:
运行一个zookeeper也是可以的,但是在生产环境中,你好部署3,5,7个节点。部署的越多,可靠性就越高,当然只能部署奇数个,偶数个是不可以的。你需要给每个zookeeper 1G左右的内存,如果可能的话,好有独立的磁盘。 (独立磁盘可以确保zookeeper是高性能的。).如果你的集群负载很重,不要把Zookeeper和RegionServer运行在同一台机器上面。就像DataNodes 和 TaskTrackers一样
hbase.zookeeper.property.dataDir:ZooKeeper的zoo.conf中的配置。 快照的存储位置
把ZooKeeper保存数据的目录地址改掉。默认值是
对于独立的Zookeeper,要指明Zookeeper的host和端口。可以在
3.3 配置conf/regionservers
Node1
Node2
完全分布式模式的还需要修改conf/regionservers
. slaves
4 运行和确认你的安装
4.1当Hbase托管ZooKeeper的时候
当Hbase托管ZooKeeper的时候Zookeeper集群的启动是Hbase启动脚本的一部分
首先确认你的HDFS是运行着的。你可以运行Hadoop_HOME
中的 bin/start-hdfs.sh
用如下命令启动Hbase:
bin/start-hbase.sh
这个脚本在HBASE_HOME
目录里面。
你现在已经启动Hbase了。Hbase把log记在 logs
Hbase也有一个界面,上面会列出重要的属性。默认是在Master的60010端口上H (HBase RegionServers 会默认绑定 60020端口,在端口60030上有一个展示信息的界面 ).如果Master运行在 node1
,端口是默认的话,你可以用浏览器在 http://node:60010
看到主界面. .
一旦Hbase启动,可以看到如何建表,插入数据,scan你的表,还有disable这个表,后把它删掉。
可以在Hbase Shell停止Hbase
$./bin/stop-hbase.sh
stoppinghbase...............
停止操作需要一些时间,你的集群越大,停的时间可能会越长。如果你正在运行一个分布式的操作,要确认在Hbase彻底停止之前,Hadoop不能停.
4.2独立的zookeeper启动,
除了启动habse,
执行:bin/start-hbase.sh启动habse
你需要自己去运行zookeeper:
${HBASE_HOME}/bin/hbase-daemons.sh {start,stop} zookeeper
你可以用这条命令启动ZooKeeper而不启动Hbase.
5.测试:
可以使用jps查看进程:在master上:
在node2,node3(slave节点)上
通过浏览器查看60010端口:
6 在安装中出现的问题:
1 )
用./start-hbase.sh启动HBase后,执行hbase shell
# bin/hbase shell
HBase Shell; enter 'help
Version: 0.20.6, rUnknown, Thu Oct 28 19:02:04 CST 2010
接着创建表时候出现如下情况:hbase(main):001:0> create 'test',''c
NativeException: org.apache.Hadoop.hbase.MasterNotRunningExceptio
jps下,发现主节点上HMaster没有启动,查理HBase log(logs/hbase-Hadoop-master-Ubuntu.log)里有下面异常:
FATAL org.apache.Hadoop.hbase.master.HMaster: Unhandled exception. Starting shutdown.
java.io.IOException: Call to node1/10.64.56.76:49002 failed on local exception: java.io.EOFException
从Hadoop_home/下面cp一个hadoop/hadoop-core-0.20.203.0.jar到hbase_home/lib下。
因为Hbase建立在Hadoop之上,所以他用到了hadoop.jar,这个Jar在 lib 里面。这个jar是hbase自己打了branch-0.20-append 补丁的hadoop.jar. Hadoop使用的hadoop.jar和Hbase使用的 必须 一致。所以你需要将 Hbaselib 目录下的hadoop.jar替换成Hadoop里面的那个,防止版本冲突。比方说CDH的版本没有HDFS-724而branch-0.20-append里面有,这个HDFS-724补丁修改了RPC协议。如果不替换,就会有版本冲突,继而造成严重的出错,Hadoop会看起来挂了。
再用./start-hbase.sh启动HBase后,jps下,发现主节点上HMaster还是没有启动,在HBase log里有下面异常:
FATAL org.apache.Hadoop.hbase.master.HMaster: Unhandled exception. Starting shutdown.
java.lang.NoClassDefFoundError: org/apache/commons/configuration/Configuration
解决:
在NoClassDefFoundError,缺少 org/apache/commons/configuration/Configuration
果断给他加一个commons-configuration包,
从Hadoop_home/lib下面cp一个hadoop/lib/commons-configuration-1.6.jar到hbase_home/lib下。
(集群上所有机子的hbase配置都需要一样)
2 注意事项:
PS:遇到问题时,先查看logs,很有帮助。
<!-- 正文结束 -->
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/22378112/viewspace-1119625/,如需转载,请注明出处,否则将追究法律责任。