手把手教你安装Apache Hive

2022-04-11 11:19:48

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行

Hive 构建在基于静态批处理的Hadoop 之上，Hadoop 通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此，Hive 并不能够在大规模数据集上实现低延迟快速的查询，Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。Hive 将用户的HiveQL 语句通过解释器转换为MapReduce 作业提交到Hadoop 集群上，Hadoop 监控作业执行过程，然后返回作业执行结果给用户。

关于hbase的介绍，大家可以自行到官网介绍去了解，此文章着重介绍如何安装。

本例采用三台机器（centos7）：

master01(192.168.47.130),slave01(192.168.47.131),slave02(192.168.47.132)

安装Apache Hive前提是要先安装hadoop集群，并且hive只需要在hadoop的namenode节点集群里安装即可（需要在有的namenode上安装)，可以不在datanode节点的机器上安装。本例在master01（本例的hadoop集群的namenode所在机器）节点上安装。

本例使用的安装包为：apache-hive-2.3.3-bin.tar.gz 下载地址：http://archive.apache.org/dist/hive/hive-2.3.3/

1，安装Hadoop

由于 Hive是运行上Hadoop的。故安装Hive之前，需先安装Hadoop, 关于Hadoop的安装可以参考之前的文章链接：手把手教你安装Apache Hadoop

2，安装Hive

本例Hive安装在master01（hadoop集群的namenode节点）机器上。

master01机器使用命令：tar -zxvf apache-hive-2.3.3-bin.tar.gz 解压hive安装文件，使用命令：mv ./apache-hive-2.3.3-bin /usr/local/ 将hive移动到/usr/local/目录下。

所有的配置文件位于：ll apache-hive-2.3.3-bin/conf/

2.1 配置hive-evn.sh

使用命令：cp ./apache-hive-2.3.3-bin/conf/hive-evn.sh.template ./apache-hive-2.3.3-bin/conf/hive-evn.sh 复制并重命名hive-evn.sh.template为hive-env.sh-文件。

使用命令：vim ./apache-hive-2.3.3-bin/conf/hive-evn.xml 打开

配置红框中的hadoop和hive环境变量地址,实际情况根据自己安装的目录配置。

2.2 配置hive-site.xml

使用命令：cp apache-hive-2.3.3-bin/conf/hive-default.xml.template apache-hive-2.3.3-bin/conf/hive-site.xml复制并重命名hive-default.xml.template为hive-site.xml文件。

下面第3步具体配置内容。

2.3 配置hive-log4j2.properties

使用命令：cp apache-hive-2.3.3-bin/conf/hive-log4j2.properties.template apache-hive-2.3.3-bin/conf/hive-log4j2.properties复制并重命名hive-log4j2.properties.template为hive-log4j2.properties文件。

2.4 配置hive-exec-log4j2.properties

使用命令：cp apache-hive-2.3.3-bin/conf/hive-exec-log4j2.properties.template apache-hive-2.3.3-bin/conf/hive-exec-log4j2.properties复制并重命名hive-exec-log4j2.properties.template为hive-exec-log4j2.properties文件。

2.5 在hdfs上新建目录

使用以下命令在hdfs上创建目录：

hdfs dfs -mkdir -p /user/hive/warehouse (hive-size.xml文件中配置hive.metastore.warehouse.dir的value值对应)

hdfs dfs -mkdir -p /user/hive/tmp

hdfs dfs -mkdir -p /user/hive/log

hdfs dfs -chmod -R 777 /user/hive/warehouse

hdfs dfs -chmod -R 777 /user/hive/tmp

hdfs dfs -chmod -R 777 /user/hive/log

2.6 在本地磁盘新建tmp目录

数据命令：mkdir ./apache-hive-2.3.3-bin/tmp 在hive安装目录下创建tmp文件夹。

并在 hive-site.xml 中修改

把{system:java.io.tmpdir} 改成 /usr/local/apache-hive-2.3.3-bin/tmp
把 {system:user.name} 改成 {user.name}

2.7 配置hive环境变量

输入命令：vim ~/.bashrc

其中具体的目录按照自己的安装目录配置。配置环境变量可以方便启动或者停止hive时不需要带上完整目录。

输入命令：source ~/.bashrc 使环境变量生效。

3，Hive初始化

由于Hive的元数据（如表定义）存储在derby数据库或者mysql里面。所有在使用hive之前需要，配置元数据的数据库。

3.1 使用derby数据库（本例不使用）

Apache Derby是一个完全用java编写的数据库，Derby是一个Open source的产品，基于Apache License 2.0分发。Apache Derby非常小巧，核心部分derby.jar只有2M，所以既可以做为单独的数据库服务器使用，也可以内嵌在应用程序中使用。下载链接http://db.apache.org/derby/。

初始化derby作为hive元数据存储命令：