绑定完请刷新页面
取消
刷新

分享好友

×
取消 复制
CSV&TEXT格式数据文件如何通过外部表的方式导入HashData在青云上面的应用
2022-02-16 14:42:49

CSV&TEXT格式数据文件如何通过外部表的方式导入HashData在青云上面的应用
优势:

操作简单,不需要额外的ETL工具
导入是多实例并发执行,效率大概在每个 instance 10-15MB/s
如何通过外部表将 csv & text 格式数据文件,导入到hashdata数据仓库,简约步骤如下:

1 - 创建与hashdata集群在同一区域的对象存储。
2 - 创建API秘钥对。
3 - 将csv或text文件上传到对象存储。
4 - 为每一张表创建外部表。
5 - 通过 insert into <table_name> select * from <external_table_name> 的方式将数据导入hashdata数据仓库。
首先我们创建一个测试的数据文件 testdata.txt,内容如下:
1|a
2|b
1
2
下面就是我们需要进行的操作
通过 pg_dump 将数据库对象(表结构等)导入HashData数据库集群。


1. ---创建测试表
drop table test cascade;
create table test (id int,col1 text)distributed randomly;
2. ---创建测试外部表,此处的秘钥对需要替换为你自己的秘钥对
drop EXTERNAL TABLE e_test;
CREATE READABLE EXTERNAL TABLE e_test (LIKE test)
LOCATION ('oss://zz-a111.pek3b.qingstor.com/testdata.txt oss_type=qs access_key_id=xxx secret_access_key=xxx')
FORMAT 'text' (DELIMITER '|');
3. ---检查一下外部表数据格式是否有冲突
select * from e_test;
4. ---将数据文件中的数据通过外部表的方式导入HashData数据仓库
insert into test select * from e_test;
5. ---检查导入的数据是否完整,准确
select * from test;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

————————————————
版权声明:本文为CSDN博主「GaryZhang000」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/zhang50303/article/details/108189584

分享好友

分享这个小栈给你的朋友们,一起进步吧。

HashData
创建时间:2022-02-16 10:39:02
HashData
展开
订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅:虚拟交易,一经交易不退款;若特殊情况,可3日内客服咨询

• 专区发布评论属默认订阅所评论专区(除付费小栈外)

技术专家

查看更多
  • gaokeke123
    专家
戳我,来吐槽~