目录
在这里,我们看看Azure Synapse Analytics是什么,它为什么被创建,它解决了什么问题。然后,我们将介绍Azure Synapse Analytics的所有工具和功能。
组织希望创造性地和智能地使用分析来满足他们的业务需求。Azure Synapse Analytics将数据集成、企业数据仓库和大数据分析结合到一项统一服务中。它使组织能够根据自己的条件查询数据。它使组织从复杂的数据加载和准备工作中解脱出来,同时提供用于大数据分析和加速洞察时间的工具。
Azure Synapse Analytics是在现代数据仓库的原则下诞生的:它结合了异构数据源,并通过分析工具(包括报告、仪表板和可视化)提供业务洞察力。这些功能大大加快了组织的洞察时间,组织可以使用这些洞察来改进他们的决策过程。
在本系列中,我们将探索Azure Synapse Analytics,这是一种无限的分析服务,可将数据集成、数据仓库和大数据分析合并到基于Azure的统一环境中。Azure Synapse Analytics为商业智能(BI)和机器学习(ML)摄取、存储、分析、可视化和提供数据。
数据摄取
借助Azure Synapse Analytics,我们可以处理存储在各种环境(包括本地、Azure或其他云)中的数据源。数据可能来自业务应用程序、客户关系管理(CRM)软件、银行数据库或社交媒体。定义数据源后,Azure Synapse Analytics会将它们带到摄取和准备步骤,在此Azure数据工厂服务加载和编排它们的数据。
请注意,此时数据仍是原始数据,尚未准备好供用户使用。因此,我们可以将数据存储在 Azure Data Lake Storage Gen2中。之后,我们可以探索、准备、训练、建模,然后以数据科学家使用的格式提供数据。
Azure Data Lake Storage Gen2
作为现代数据仓库,Azure Synapse Analytics可以从数据湖中提取原始的非结构化数据。Azure Data Lake Storage Gen2是一组专用于大数据分析的功能。它支持在Azure Blob存储上构建企业数据湖。Data Lake Storage Gen2提供文件系统语义、文件级安全性和规模。其低成本管理解决方案可通过分层存储、高可用性和弹性处理大量非结构化数据。
一旦Azure数据工厂摄取数据,它就可以将其存储并集中在Azure Data Lake Storage Gen2中。此数据湖跨越整个Azure Synapse Analytics体系结构,并且始终可供生态系统中的其他组件使用。
数据探索、训练和服务
一旦Azure数据工厂摄取数据,Azure Data Lake Storage Gen2就会以原始形式存储它。因此,Azure Synapse Analytics必须先对其进行转换,然后才能将其提供给数据仓库终用户。
Databricks是领先的云解决方案,它弥合了数据湖和数据仓库之间的差距,这种组合被称为“湖库”。Azure有自己的实现,Azure Databricks。这是使Azure Synapse Analytics能够探索、准备、训练和转换数据的底层云工具。Azure Databricks为数据工程师和科学家提供了一个协作平台。它还允许Azure Synapse Analytics处理和转换大量数据,同时使用机器学习模型探索数据。
数据查询服务
Azure Synapse Analytics支持三种类型的查询服务:专用SQL池、Azure Synapse Analytics的SQL按需池和Apache Spark池。
专用SQL池是重新命名的SQL数据仓库(DW),指的是Azure Synapse Analytics中的企业数据仓库功能。它代表开始使用Azure Synapse SQL时预配的一组分析资源。专用SQL池就像传统的SQL数据仓库,也是大数据解决方案的常用目的地。专用SQL池使我们能够导入大数据以运行高性能分析。然后,专用SQL池成为快速、强大的业务洞察力的单一事实来源。
Azure Synapse Analytics的SQL按需池是一种无服务器查询服务,使你能够对Azure存储中的CSV、Parquet和JSON文件运行SQL查询。使用按需SQL池,您可以通过熟悉的T-SQL语法访问您的数据。运行查询、获取新结果或将数据加载并复制到另一个存储区以备后用。您可以使用无服务器SQL池将数据加载到专用存储或查询文件和其他使用SQL语法的非结构化格式中。
Apache Spark池提供分布式内存计算以促进大数据分析处理。Spark作业通过将数据预加载到内存中来节省时间,否则会重复加载,从而加快应用程序的速度。Azure Synapse Analytics在云中包含自己的Apache Spark实现。我们可以使用它来处理我们的Azure存储和Azure Data Lake Gen2数据。Azure Synapse Analytics使在Azure中创建和配置无服务器Apache Spark池变得容易。
带有Apache Spark运行时的Azure Synapse Analytics提供比标准Spark更快的处理,提供包括查询和集群优化、自动缩放、智能缓存和索引在内的改进。
Azure Synapse Studio
Azure Synapse Studio是一个核心管理工具,用于控制Azure SQL Analytics的许多功能。它配备了一个时尚的用户界面(UI),这是Microsoft为数据工程师和数据科学家设计的。它不仅仅是一个新的UI工具,它统一了其他现有Azure数据服务的端到端体验,使用中央UI来摄取、探索、分析和可视化数据。例如,Azure Synapse Studio使我们能够使用无服务器或专用SQL池查询数据。
该知识中心是Synapse Studio的一部分,其目的是指导初学者轻松的开发。有了知识中心,我们只需点击几下鼠标,即可获得实用的、身临其境的学习材料。
当我们选择立即使用示例时,我们将访问一组即用型示例,以使用脚本、笔记本、池和数据快速学习概念和练习分析。我们可以用Apache Spark探索数据,用SQL查询数据,用SQL创建外部表。另一个选项向我们展示了如何使用无服务器SQL池对Parquet文件数据执行查询。
选择浏览库会将我们带到示例代码和Azure开放数据集和模板的完整列表。它包括示例笔记本、SQL脚本和用于自动化数据集成和转换的管道模板。
我们还可以从知识中心参观Synapse Studio。它指导我们开始使用Azure Synapse Analytics功能。
在我们开始时,Synapse Studio会提供有关填写UI字段的有用提示,并在出现任何错误时提醒我们。这可以节省我们以后进行故障排除的时间。
Azure Synapse Notebooks
数据工程师和数据科学家可能熟悉Jupyter notebooks提供的广泛的交互式计算。Azure Synapse Studio的notebooks功能为您的分析需求提供一致的notebooks体验,使用与Jupyter notebooks相同的文件格式,因此您可以快速入门。
Synapse Studio Notebooks是一个Web界面,我们可以在其中试验数据以演示、深入了解和验证我们的想法。Notebooks是您通过自由添加文本块和代码片段创建的可读的、人性化的文档。我们可以使用格式化的文本块来编写丰富的叙述。
同时,它们之间的代码片段可以随时即时运行,以查询我们的数据源并呈现结果。笔记本用报告、图表和其他数据可视化以及机器学习见解和大数据场景来说明我们的文本。
Synapse Notebooks使我们能够添加代码,以使用Python、Scala、Spark SQL和C#等语言查询、操作和分析来自非结构化和结构化数据源的数据。
机器学习和商业智能
Azure Synapse Analytics为那些对机器学习感兴趣的人提供了许多流行的库,例如Spark MLlib和Anaconda Python分发平台中的库。
我们可以在数据准备和数据训练步骤中使用Azure机器学习管道来定位Apache Spark 池。Apache Spark允许Azure Synapse Analytics对大数据执行机器学习,并从大量结构化和非结构化数据中获取有价值的见解。
在建模和提供数据之后,Azure Synapse Analytics可以与Power BI结合,从大量结构化或非结构化数据中产生见解和操作。我们可以在不离开Azure Analytics的情况下创建和管理Power BI数据集和报告。这种与Power BI的深度集成使Azure Synapse Analytics能够基于使用模式创建高性能大数据查询和智能物化视图。
结论
正如我们所见,微软发布了Azure Synapse Analytics作为下一代Azure SQL数据仓库。它通过内置的数据摄取、数据准备、机器学习和可视化功能提供大数据量的性能。
在本系列即将发布的文章中,我们将探讨Azure Synapse Analytics如何帮助数据准备和管理,消除对自定义提取、转换和加载(ETL)代码的需要。然后,我们将演示Azure Synapse Analytics如何推动数据科学和商业智能。
要了解更多信息,请继续阅读本系列的第二篇文章,探讨使用Azure Synapse Analytics进行数据准备和管理。
此外,请查看Microsoft的Azure Synapse Analytics动手培训系列。每个60分钟的网络研讨会都会深入探讨Azure Synapse。你可以启动你的个Synapse工作区,构建无代码ETL管道,本地连接到Power BI,连接和处理流数据,并使用无服务器和专用查询选项。
Introduction to Azure Synapse Analytics Part 1: What is Azure Synapse Analytics? - CodeProject