绑定完请刷新页面
取消
刷新

分享好友

×
取消 复制
技术前刊:PostgreSQL12 COPY和bulkloading提升
2019-06-15 20:17:16

业务是否依赖COPY命令加载数据?PostgreSQL12提供了一个新特性,大大加快了加载速度。

COPY:Loading and unloading data as fast as possible

细看PostgreSQL12的COPY语法,发现有两处变动:

1)\h 会有手册文档链接

2)COPY支持WHERE条件

下面是完整语法:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
db12=# \h COPY
Command:     COPY
Description: copy data between a file and a table
Syntax:
COPY table_name [ ( column_name [, ...] ) ]
    FROM { 'filename' | PROGRAM 'command' | STDIN }
    [ [ WITH ] ( option [, ...] ) ]
    [ WHERE condition ]
COPY { table_name [ ( column_name [, ...] ) ] | ( query ) }
    TO { 'filename' | PROGRAM 'command' | STDOUT }
    [ [ WITH ] ( option [, ...] ) ]
where option can be one of:
    FORMAT format_name
    FREEZE [ boolean ]
    DELIMITER 'delimiter_character'
    NULL 'null_string'
    HEADER [ boolean ]
    QUOTE 'quote_character'
    ESCAPE 'escape_character'
    FORCE_QUOTE { ( column_name [, ...] ) | * }
    FORCE_NOT_NULL ( column_name [, ...] )
    FORCE_NULL ( column_name [, ...] )
    ENCODING 'encoding_name'
URL: https://www.postgresql.org/docs/12/sql-copy.html

虽然添加文档链接功能带来便利,但是WHERE过滤功能更加有用。这个功能的目的是什么?当前,COPY只能导入整个文件。但是某些场景下会有问题:很多场景下,人们只想加载数据的一个子集,并且在导出前必须编写大量代码进行过滤。

COPY...WHERE:  导入时过滤

PostgreSQL通过该条件可以轻松地进行过滤。下面讲述一个简单的例子:

1
2
3
db12=# CREATE TABLE t_demo AS
        SELECT * FROM generate_series(1, 1000) AS id;
SELECT 1000

首先先插入1000行数据,然后导出到一个文件:

db12=# COPY t_demo TO '/tmp/file.txt';
COPY 1000

后,再重新导入数据:

1
2
3
4
5
6
7
8
9
10
11
12
db12=# CREATE TABLE t_import (x int);
CREATE TABLE
db12=# COPY t_import FROM '/tmp/file.txt' WHERE x < 5;
COPY 4
db12=# SELECT * FROM t_import;
 x
---
 1
 2
 3
 4
(4 rows)

如上说是,过滤数据非常简单直接。需要注意,导出列是“id”,导入列是“x”。文件文件不知道导入表的表结构---需要确保过滤导入表的列名。

其他特性

COPY可以将数据发送到UNIX pipe,还可以从pipe中读取数据。如下所示:

1
2
3
4
5
6
7
8
9
10
11
12
13
db12=# COPY t_demo TO PROGRAM 'gzip -c > /tmp/file.txt.gz';
COPY 1000
db12=# COPY t_import FROM PROGRAM 'gunzip -c /tmp/file.txt.gz'
    WHERE x BETWEEN 100 AND 103;
COPY 4
db12=# SELECT * FROM t_import WHERE x >= 100;
  x  
-----
 100
 101
 102
 103
(4 rows)

某些场景下,不止想将数据导出。上面场景,我们想导出数据时将数据压缩;导入时将数据解压并过滤。如上所示,这种方法非常简单。

原文

https://www.cybertec-postgresql.com/en/tech-preview-improving-copy-and-bulkloading-in-postgresql-12/


分享好友

分享这个小栈给你的朋友们,一起进步吧。

开源数据库学习与研究
创建时间:2019-05-22 16:57:13
专注PostgreSQL、Greenplum以及MySQL
展开
订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅:虚拟交易,一经交易不退款;若特殊情况,可3日内客服咨询

• 专区发布评论属默认订阅所评论专区(除付费小栈外)

栈主、嘉宾

查看更多
  • yzs87
    栈主

小栈成员

查看更多
  • Jack2k
  • 栈栈
  • linhch
  • MartinTTing
戳我,来吐槽~