用init动作脚本轻松地在Dataproc上部署Trino

2022-05-12 15:14:16

教你在Dataproc上轻松部署Trino，寻找Trino的初始化脚本

下载"trino.sh"，并将其上传到你的GCS桶中。

这是我的github链接github.com/sametkarada…，它是github.com/GoogleCloud…（在写这篇文章时正在等待拉动）。

如果你想使用Trino的BigQuery连接器来查询BigQuery数据，用你的项目ID替换init动作中的第162行。

bigquery.project-id=set-your-project-id
复制代码

然后创建你的数据采集集群。

gcloud dataproc clusters create trino-test — enable-component-gateway — region europe-west4 \
复制代码

 — zone europe-west4-c — master-machine-type n1-standard-4 — master-boot-disk-size 100 — num-workers 8 \
复制代码

 — worker-machine-type n1-standard-4 — worker-boot-disk-size 100 — image-version 2.0-debian10 \
复制代码

 — scopes 'https://www.googleapis.com/auth/cloud-platform' — initialization-actions ‘gs://trino-init/trino.sh’ — project change-with-your-project-id
复制代码

在这里，我使用Trino在短暂的Dataproc集群上进行BigQuery查询，这意味着我在处理之前创建集群，之后删除它以降低成本。

我不会在Dataproc上存储任何数据，因此磁盘大小（worker-boot-disk-size，master-boot-disk-size）被设置为100gb。

我只使用了2个工人节点的n1-standard-4机器，它有15GB的内存。如果你需要更快的查询速度，可以增加这些。

就是这样--现在你有了Trino:)

后，如何连接？

你可以使用Trino CLI客户端或JDBC客户端，如SquirrelSQL、DBeaver（免费）或DataGrip（需要付费订阅）。

你也可以配置你的JDBC客户端连接到BigQuery，让一个客户端有两个不同的会话来分析BQ数据。

如果你想看看这个操作，这里有一个youtube视频和match_recognize演示。

作者：xcvxvxc
链接：https://juejin.cn/post/7067483963169701925
来源：稀土掘金

分享好友

分享这个小栈给你的朋友们，一起进步吧。

Trino

创建时间：2022-04-12 14:37:38

Trino

展开

订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅：虚拟交易，一经交易不退款；若特殊情况，可3日内客服咨询

• 专区发布评论属默认订阅所评论专区（除付费小栈外）

技术专家

查看更多

飘絮絮絮丶
专家