绑定完请刷新页面
取消
刷新

分享好友

×
取消 复制
Tajo一个分布式数据仓库系统(分布式环境安装试用)
2022-04-11 11:02:45

前面两篇介绍了一下tajo,下面就说一下安装和使用吧。

一、分布式安装

前提:hadoop2中的hdfs和yarn已经安装并运行正常。

1、下载source并build源码

复制代码
$git clone https://git-wip-us.apache.org/repos/asf/incubator-tajo.git tajo

$ cd tajo

$ mvn clean package -DskipTests -Pdist -Dtar

$ ls tajo-dist/target/tajo-x.y.z-SNAPSHOT.tar.gz
复制代码

2、将tag.gz解压到需要安装的地方

1 $ tar xzvf tajo-0.2.-SNAPSHOT.tar.gz

3、配置tajo-site.xml

复制代码
 1 <property>
 2 
 3     <name>tajo.rootdir</name>
 4 
 5     <value>hdfs://hostname:9000/tajo</value>
 6 
 7   </property>
 8 
 9   <property>
10 
11     <name>tajo.worker.tmpdir.locations</name>
12 
13     <value>/home/ds/clouderaCDH/tajoTmp</value>
14 
15   </property>
16 
17 <property>
18 
19     <name>tajo.master.umbilical-rpc.address</name>
20 
21     <value>hostname:26001</value>
22 
23   </property>
24 
25  
26 
27   <property>
28 
29     <name>tajo.catalog.client-rpc.address</name>
30 
31     <value>hostname:26005</value>
32 
33   </property>
34 
35  <property>
36 
37     <name>tajo.master.client-rpc.address</name>
38 
39     <value>hostname:26002</value>
40 
41   </property>
42 
43 <property>
44 
45     <name>tajo.worker.parallel-execution.max-num</name>
46 
47     <value>12</value>
48 
49   </property>
复制代码

4、 配置tag-env.sh

复制代码
# Hadoop home. Required

export HADOOP_HOME=/home/ds/clouderaCDH/hadoop-2.0.-cdh4.2.1

 

# The java implementation to use.  Required.

export JAVA_HOME=/usr/lib/jvm/java-6-sun

# The maximum amount of heap to use, in MB. Default is 1000.

export TAJO_MASTER_HEAPSIZE=4000

# The maximum amount of heap to use, in MB. Default is 1000.

export TAJO_WORKER_HEAPSIZE=8000
复制代码

 

5、 配置workers文件

worker01
worker02

 

6、 将配置好的tajo同步到其他节点并启动

scp -r tajo02 worker01:/home/ds/clouderaCDH/

bin/start-tajo.sh

7、 查看进程是否启动

jps
24019 TajoMaster
23451 TajoWorker

二、SQL交互

创建表

1、 从hdfs上得csv文件创建外部表

test文件夹下放一个data.csv文件,内容:

1|abc|1.1|a
2|def|2.3|b
3|ghi|3.4|c
4|jkl|4.5|d
5|mno|5.6|e

创建表并load数据

create external table table1 (id int, name text, score float, type text) using csv with ('csvfile.delimiter'='|') location 'hdfs://hostname:9000/tajo/warehouse/test’

查询交互

支持绝大部分的SQL92。

1、使用limit查询

$ select * from table1 limit 2;

id,  name,  score,  type
-------------------------------
1,  abc,  1.1,  a
2,  def,  2.3,  b

 

 

三、参考资料

[1]     http://wiki.apache.org/tajo

[2]     http://tajo.incubator.apache.org/

[3]     https://issues.apache.org/jira/browse/TAJO

[4]     http://www.slideshare.net/hyunsikchoi/tajo-intro

[5]     http://vdisk.weibo.com/s/xpJ29

来源 https://www.cnblogs.com/nexiyi/p/3452998.html

分享好友

分享这个小栈给你的朋友们,一起进步吧。

Tajo
创建时间:2022-04-11 10:49:22
Tajo
展开
订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅:虚拟交易,一经交易不退款;若特殊情况,可3日内客服咨询

• 专区发布评论属默认订阅所评论专区(除付费小栈外)

技术专家

查看更多
  • itt0918
    专家
戳我,来吐槽~