前四篇文章带大家通过 Azure Synapse Analysis 服务的内置的 ETL 能力,实现了上游 CosmosDB 内的 Transaction 数据的增量数据(CDC)推送至下游的数据仓库内。通过 Azure Synapse Analysis 类似的方式,我们可以针对不同上游数据系统 CDC 数据与下游系统同步。整个数据路径中我们需要提取,转换,再到加载更新到数据仓库。Azure Synapse Analysis 目前对于 CosmosDB 提供了更加简洁的解决方案 Synapse Link。通过 Synapse Link 可以实现一键同步,上述数据路径只需要简单在产品上一键打开开关即可。Synapse Link 将 CosmosDB 内的实时数据直接暴露给 Azure Synapse Analysis 进行消费,简化了中间进行 CDC ETL 的过程。目前 Synapse Link 只支持 CosmosDB SQL 引擎,未来会对更多数据库产品进行支持。
具体操作步骤如下:
1. 在 Azure Cosmos DB 中打开 Synapse Link 功能
2. 创建 Cosmos Container 并开启 Analysis Store 能力
3. 在 Azure Synapse Analysis 中创建 Cosmos 数据源,登入 Azure Synapse Studio,选择 Data -> Connect to external data -> Azure Cosmos DB
4. 在 Azure Synapse 中使用 Notebooks 访问 CosmosDB 中的数据,需要注意目前 Cosmos Synapse Link 在 Preview 阶段,暂时只支持通过 Spark 引擎进行数据访问,后续会支持 T-SQL 引擎
5. 通过前面的数据仿真程序代码,添加或更新数据,再次通过 Azure Synapse Analysis 进行访问,验证数据实时性。
从上面到家可以看到整个过程非常简单,数据的访问过程开箱即用。后续 Synapse Link 可以更广泛的支持主流的数据产品,还是非常值得期待的。通过这个系列文章的介绍,希望能帮助大家对 Azure Synapse Analysis 初步了解,让 Azure Synapse Analysis 助力企业在数字化转型之路上越跑越快。