绑定完请刷新页面
取消
刷新

分享好友

×
取消 复制
用init动作脚本轻松地在Dataproc上部署Trino
2022-05-12 15:14:16

教你在Dataproc上轻松部署Trino,寻找Trino的初始化脚本

下载"trino.sh",并将其上传到你的GCS桶中

这是我的github链接github.com/sametkarada…,它是github.com/GoogleCloud…(在写这篇文章时正在等待拉动)。

如果你想使用Trino的BigQuery连接器来查询BigQuery数据,用你的项目ID替换init动作中的第162行。

bigquery.project-id=set-your-project-id
复制代码

然后创建你的数据采集集群

gcloud dataproc clusters create trino-test — enable-component-gateway — region europe-west4 \
复制代码
 — zone europe-west4-c — master-machine-type n1-standard-4 — master-boot-disk-size 100 — num-workers 8 \
复制代码
 — worker-machine-type n1-standard-4 — worker-boot-disk-size 100 — image-version 2.0-debian10 \
复制代码
 — scopes 'https://www.googleapis.com/auth/cloud-platform' — initialization-actions ‘gs://trino-init/trino.sh’ — project change-with-your-project-id
复制代码

在这里,我使用Trino在短暂的Dataproc集群上进行BigQuery查询,这意味着我在处理之前创建集群,之后删除它以降低成本。

我不会在Dataproc上存储任何数据,因此磁盘大小(worker-boot-disk-size,master-boot-disk-size)被设置为100gb。

我只使用了2个工人节点的n1-standard-4机器,它有15GB的内存。如果你需要更快的查询速度,可以增加这些。

就是这样--现在你有了Trino:)

后,如何连接?

你可以使用Trino CLI客户端或JDBC客户端,如SquirrelSQLDBeaver(免费)或DataGrip(需要付费订阅)。

你也可以配置你的JDBC客户端连接到BigQuery,让一个客户端有两个不同的会话来分析BQ数据。

如果你想看看这个操作,这里有一个youtube视频和match_recognize演示。


作者:xcvxvxc
链接:https://juejin.cn/post/7067483963169701925
来源:稀土掘金

分享好友

分享这个小栈给你的朋友们,一起进步吧。

Trino
创建时间:2022-04-12 14:37:38
Trino
展开
订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅:虚拟交易,一经交易不退款;若特殊情况,可3日内客服咨询

• 专区发布评论属默认订阅所评论专区(除付费小栈外)

技术专家

查看更多
  • 飘絮絮絮丶
    专家
戳我,来吐槽~