你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

超越 Oracle 迁移,在 Microsoft Azure 中实现新式数据仓库

本文是一个包含七部分内容的系列的第七部分,提供有关如何从 Oracle 迁移到 Azure Synapse Analytics 的指导。 本文的重点是实现新式数据仓库的最佳做法。

不仅仅是将数据仓库迁移到 Azure

将现有数据仓库迁移到 Azure Synapse Analytics 的一个关键原因是要利用一个在全球都很安全、可缩放、低成本、云原生、即用即付的分析数据库。 使用 Azure Synapse,你可以将已迁移的数据仓库与整个 Microsoft Azure 分析生态系统集成,以利用其他 Microsoft 技术并实现已迁移数据仓库的现代化。 这些技术包括:

  • Azure Data Lake Storage,用于实现经济高效的数据引入、暂存、清理和转换。 Data Lake Storage 可以释放快速增长的临时表占用的数据仓库容量。

  • Azure 数据工厂,用于通过云、本地数据源和流式处理数据的连接器进行协作式 IT 和自助式数据集成。

  • Common Data Model,用于跨多种技术共享一致的受信任数据,这些技术包括:

    • Azure Synapse
    • Azure Synapse Spark
    • Azure HDInsight
    • Power BI
    • Adobe Customer Experience Platform
    • Azure IoT
    • Microsoft ISV 合作伙伴
  • Microsoft 数据科学技术,其中包括:

    • Azure 机器学习工作室
    • Azure 机器学习
    • Azure Synapse Spark(Spark 即服务)
    • Jupyter Notebook
    • RStudio
    • ML.NET
    • .NET for Apache Spark,使数据科学家能够使用 Azure Synapse 数据大规模训练机器学习模型。
  • Azure HDInsight,用于通过使用 PolyBase 创建逻辑数据仓库,来处理大量数据并将大数据与 Azure Synapse 数据联接。

  • Azure 事件中心Azure 流分析Apache Kafka,用于集成 Azure Synapse 中的实时传送视频流数据。

大数据的增长导致了对机器学习的急剧需求,因此可以启用自定义生成的、已训练的机器学习模型,以便在 Azure Synapse 中使用它们。 机器学习模型使数据库内分析能够在事件驱动的基础上按需大规模批量运行。 从多个 BI 工具和应用程序利用 Azure Synapse 中的数据库内分析的功能还保证了一致的预测和建议。

此外,你还可以将 Azure Synapse 与 Azure 上的 Microsoft 合作伙伴工具集成,以缩短实现价值的时间。

让我们更详细地了解在迁移到 Azure Synapse 后如何利用 Microsoft 分析生态系统中的技术实现数据仓库现代化。

将数据暂存和 ETL 处理卸载到 Data Lake Storage 和数据工厂

数字化转型会生成一系列可供捕获和分析的新数据,为企业带来重大挑战。 一个很好的例子是通过开放联机事务处理 (OLTP) 系统以允许从移动设备进行自助访问而创建的事务数据。 大部分此类数据都能找到进入数据仓库的方式,OLTP 系统是主要源。 目前,随着客户而非员工推高事务处理速率,数据仓库临时表中的数据量一直在迅速增长。

随着数据快速进入企业以及物联网 (IoT) 之类的新数据源的出现,公司必须找到相应的方法来提高数据集成 ETL 处理能力。 一种方法是将引入、数据清理、转换和集成功能卸载到数据湖,在那里大规模处理数据,这是数据仓库现代化计划的一部分。

当你将数据仓库迁移到 Azure Synapse 后,Microsoft 可以通过将数据引入 Data Lake Storage 并在其中暂存来实现 ETL 处理现代化。 然后,可以使用数据工厂大规模清理、转换和集成数据,接着再使用 PolyBase 将这些数据并行加载到 Azure Synapse。

对于 ELT 策略,请考虑将 ELT 处理功能卸载到 Data Lake Storage,以便随着数据量或频率的提高轻松进行缩放。

Microsoft Azure 数据工厂

Azure 数据工厂是一种即用即付的混合数据集成服务,用于高度可缩放的 ETL 和 ELT 处理。 数据工厂提供基于 Web 的 UI,用于以无代码方式生成数据集成管道。 使用数据工厂可以执行以下操作:

  • 生成可缩放的数据集成管道,无需编写代码。

  • 轻松地大规模获取数据。

  • 只需为使用的资源付费。

  • 连接到本地数据源、云数据源和基于 SaaS 的数据源。

  • 大规模引入、移动、清理、转换、集成并分析云和本地数据。

  • 无缝创建、监视和管理跨本地和云中数据存储的管道。

  • 启用即用即付横向扩展,以与客户增长保持一致。

无需编写任何代码即可使用这些功能,也可以向数据工厂管道添加自定义代码。 以下屏幕截图显示了一个示例数据工厂管道。

屏幕截图显示了一个数据工厂管道示例。

提示

数据工厂让你无需代码即可构建可缩放的数据集成管道。

从以下任意位置实现数据工厂管道开发:

  • Microsoft Azure 门户。

  • Microsoft Azure PowerShell。

  • 使用多语言 SDK 以编程方式从 .NET 和 Python。

  • Azure 资源管理器 (ARM) 模板。

  • REST API。

提示

数据工厂可以连接到本地、云和 SaaS 数据。

喜欢编写代码的开发人员和数据科学家可以使用可用于 Java、Python 和 .NET 的软件开发工具包 (SDK) 轻松地以这些编程语言创建数据工厂管道。 数据工厂管道可以是混合数据管道,因为它们可以连接、引入、清理、转换和分析本地数据中心、Microsoft Azure、其他云和 SaaS 产品/服务中的数据。

开发用于集成和分析数据的数据工厂管道后,可以全局部署这些管道并将其安排为成批运行、将其作为服务按需调用或在事件驱动的基础上实时运行它们。 数据工厂管道还可以在一个或多个执行引擎上运行,并监视执行情况,以确保性能并跟踪错误。

提示

在 Azure 数据工厂中,管道控制数据的集成和分析。 数据工厂是面向 IT 专业人员的企业级数据集成软件,带有适用于业务用户的数据整理功能。

用例

数据工厂支持多个用例,例如:

  • 准备、集成和扩充来自云和本地数据源的数据,以在 Microsoft Azure Synapse 上填充迁移的数据仓库和数据市场。

  • 准备、集成和扩充来自云和本地数据源的数据,从而生成训练数据,用于机器学习模型开发和重新训练分析模型。

  • 协调数据准备和分析以创建预测性和规范性分析管道,用于批量处理和分析数据,例如情绪分析。 根据分析结果执行操作或使用结果填充数据仓库。

  • 为运行在基于 Azure Cosmos DB 等操作数据存储的 Azure 云上的数据驱动型业务应用程序准备、集成和扩充数据。

提示

在数据科学中生成训练数据集以开发机器学习模型。

数据源

数据工厂允许使用来自云和本地数据源的连接器。 代理软件(称为自承载集成运行时)可安全地访问本地数据源,并支持安全的可缩放数据传输。

使用 Azure 数据工厂转换数据

在数据工厂管道中,可以引入、清理、转换、集成和分析来自这些源的任何类型的数据。 数据可以是结构化的、半结构化的(如 JSON 或 Avro)或非结构化的。

在不编写任何代码的情况下,专业 ETL 开发人员可以使用数据工厂映射数据流对数据进行筛选、拆分、联接(数种类型)、查找、透视、逆透视、排序、联合和聚合操作。 此外,数据工厂还支持代理键、多种写入处理选项(例如插入、更新插入、更新、表重新创建和表截断)以及多种类型的目标数据存储(也称为接收器)。 ETL 开发人员还可以创建聚合,包括要求将窗口放置在数据列上的时序聚合。

提示

专业 ETL 开发人员可以使用数据工厂映射数据流来清理、转换和集成数据,而无需编写代码。

可以运行将数据转换为数据工厂管道中的活动的映射数据流,必要时可以在单个管道中包含多个映射数据流。 这样就可以通过将具有挑战性的数据转换和集成任务分解为可以组合的较小映射数据流来管理复杂性。 可以根据需要添加自定义代码。 除了此功能,数据工厂映射数据流还包括以下功能:

  • 定义用于清理和转换数据的表达式、计算聚合和扩充数据。 例如,这些表达式可以在日期字段中执行特征工程,以将其分解为多个字段,从而在机器学习模型开发期间创建训练数据。 可以从一组丰富的函数构造表达式,这些函数包括数学、时态、拆分、合并、字符串串联、条件、模式匹配、替换函数以及许多其他函数。

  • 自动处理架构偏差,以便数据转换管道可以免受数据源中架构更改的影响。 此功能对于流式处理 IoT 数据尤其重要,因为当设备升级或收集 IoT 数据的网关设备丢失读数时,架构更改可能会在没有通知的情况下发生。

  • 对数据进行分区,以使转换能够大规模并行运行。

  • 检查流式传输数据以查看要转换的流元数据。

提示

数据工厂支持自动检测和管理入站数据(如流数据)中的架构更改的功能。

以下屏幕截图显示了一个示例数据工厂映射数据流。

屏幕截图显示数据工厂映射数据流的示例。

数据工程师可以通过在开发过程中启用调试功能来分析数据质量并查看各个数据转换的结果。

提示

数据工厂还可以对数据进行分区,从而使 ETL 处理能够大规模运行。

如有必要,可以通过将包含代码的链接服务添加到管道中来扩展数据工厂转换和分析功能。 例如,Azure Synapse Spark 池笔记本可能包含 Python 代码,该代码使用已训练的模型对某个映射数据流集成的数据进行评分。

可以将集成数据以及数据工厂管道中包含的任何分析结果存储在一个或多个数据存储(例如 Data Lake Storage、Azure Synapse 或 HDInsight 中的 Hive 表)中。 还可以调用其他活动以根据数据工厂分析管道生成的见解执行操作。

提示

数据工厂管道可以进行扩展,因为你可以使用数据工厂编写你自己的代码并将其作为管道的一部分运行。

利用 Spark 缩放数据集成

在运行时,数据工厂会在内部使用 Azure Synapse Spark 池(Microsoft 的 Spark 即服务产品)来清理和集成 Azure 云中的数据。 可以大规模清理、集成和分析大量且快速的速数据,例如点击流数据。 Microsoft 的意图是也在其他 Spark 发行版上运行数据工厂管道。 除了在 Spark 上运行 ETL 作业之外,数据工厂还可以调用 Pig 脚本和 Hive 查询来访问和转换存储在 HDInsight 中的数据。

数据整理让业务用户(也称为平民数据集成商和数据工程师)可以利用该平台直观地大规模发现、探索和准备数据,而无需编写代码。 此数据工厂功能易于使用,类似于 Microsoft Excel Power Query 或 Microsoft Power BI 数据流,其中的自助业务用户使用带有下拉转换的电子表格样式的 UI 来准备和集成数据。 以下屏幕截图显示了一个示例数据工厂整理数据流。

屏幕截图显示数据工厂整理数据流的示例。

与 Excel 和 Power BI 不同,数据工厂整理数据流使用 Power Query 来生成 M 代码并将其转换为大规模并行运行的内存中 Spark 作业以进行云规模的执行。 数据工厂中的映射数据流和整理数据流的组合使专业 ETL 开发人员和业务用户可以协作进行数据的准备、集成和分析,以实现共同的业务目的。 前面的数据工厂映射数据流示意图显示了如何在同一个数据工厂管道中将数据工厂和 Azure Synapse Spark 池笔记本结合使用。 在数据工厂中组合使用映射数据流和整理数据流有助于 IT 和业务用户了解各自创建的数据流,并支持数据流重用,以最大程度地减少再造并最大限度地提高工作效率和一致性。

提示

数据工厂支持整理数据流和映射数据流,因此业务用户和 IT 用户可以在通用平台上以协作方式集成数据。

除了清理和转换数据之外,数据工厂还可以在同一管道中将数据集成和分析结合起来。 可以使用数据工厂创建数据集成管道和分析管道(后者是前者的扩展)。 可以将分析模型拖放到管道中,以创建一个分析管道,该管道生成用于预测或建议的干净集成数据。 然后就可以立即处理预测或建议,或将它们存储在数据仓库中,以提供可在 BI 工具中查看的新见解和建议。

若要对数据进行批量评分,可以开发在数据工厂管道中作为服务调用的分析模型。 可以在 RStudio 中使用 Azure Synapse Spark 池笔记本或 R,通过 Azure 机器学习工作室或 Azure 机器学习 SDK 开发无代码分析模型。 在 Azure Synapse Spark 池笔记本上运行 Spark 机器学习管道时,分析是大规模进行的。

可以将集成数据以及任何数据工厂分析管道结果存储在一个或多个数据存储(例如 Data Lake Storage、Azure Synapse 或 HDInsight 中的 Hive 表)中。 还可以调用其他活动以根据数据工厂分析管道生成的见解执行操作。

使用湖数据库共享一致的受信任数据

任何数据集成设置的一个关键目标是能够一次集成数据并在任何地方重复使用这些数据,而不仅仅是在数据仓库中重复使用。 例如,你可能希望在数据科学中使用集成数据。 重复使用可避免再造,并确保数据一致、受到普遍理解且可受每个人信任。

Common Data Model 描述可跨企业共享和重复使用的核心数据实体。 为了实现重用,Common Data Model 建立了一组描述逻辑数据实体的通用数据名称和定义。 常见数据名称的示例包括客户、帐户、产品、供应商、订单、付款和退货。 IT 和业务专业人员可以使用数据集成软件创建并存储通用数据资产,以便最大程度地重复使用它们,从而在每个位置实现一致性。

Azure Synapse 提供特定于行业的数据库模板来帮助标准化湖中的数据。 湖数据库模板提供了适用于预定义的行业领域的架构,使数据能够以结构化方式加载到湖数据库中。 当你使用数据集成软件创建湖数据库通用数据资产时,该功能就会体现出来,产生可供应用程序和分析系统使用的自描述受信任数据。 可以使用数据工厂在 Data Lake Storage 中创建通用数据资产。

提示

Data Lake Storage 是支持 Microsoft Azure Synapse、Azure 机器学习、Azure Synapse Spark 和 HDInsight 的共享存储。

Power BI、Azure Synapse Spark、Azure Synapse 和 Azure 机器学习可以使用通用数据资产。 下图显示了如何在 Azure Synapse 中使用湖数据库。

屏幕截图显示如何在 Azure Synapse 中使用湖数据库。

提示

请将数据集成以在共享存储中创建湖数据库逻辑实体,从而最大程度地重复使用通用数据资产。

与 Azure 上的 Microsoft 数据科学技术集成

实现数据仓库的现代化时,另一个关键目标是生成见解,以获得竞争优势。 通过将迁移的数据仓库与 Azure 中的 Microsoft 和第三方数据科学技术集成,可以生成见解。 以下部分介绍 Microsoft 提供的机器学习和数据科学技术,让你了解如何在现代数据仓库环境中将其与 Azure Synapse 配合使用。

Azure 上的 Microsoft 数据科学技术

Microsoft 提供了一系列支持高级分析的技术。 有了这些技术,就可以使用机器学习生成预测分析模型,也可以使用深度学习分析非结构化数据。 这些技术包括:

  • Azure 机器学习工作室

  • Azure 机器学习

  • Azure Synapse Spark 池笔记本

  • ML.NET(API、CLI 或 ML.NET Model Builder for Visual Studio)

  • .NET for Apache Spark

数据科学家可以使用 RStudio (R) 和 Jupyter Notebook (Python) 来开发分析模型,也可以使用框架(如 Keras 或 TensorFlow)。

提示

使用无/低代码方法或编程语言(如 Python、R 和 .NET)开发机器学习模型。

Azure 机器学习工作室

Azure 机器学习工作室是一种完全托管的云服务,让你可以通过基于 Web 的拖放式 UI 生成、部署和共享预测分析。 以下屏幕截图显示了 Azure 机器学习工作室 UI。

屏幕截图显示 Azure 机器学习工作室 UI 中的预测分析。

Azure 机器学习

Azure 机器学习提供适用于 Python 的 SDK 和服务,可帮助你快速准备数据,并训练和部署机器学习模型。 可以通过 Jupyter Notebook 和开源框架(例如 PyTorch、TensorFlow、scikit-learn 或 Spark MLlib - 适用于 Spark 的机器学习库)在 Azure 笔记本中使用 Azure 机器学习。 Azure 机器学习提供 AutoML 功能,该功能可自动测试多种算法以识别最准确的算法,从而加快模型开发。

提示

Azure 机器学习提供了一个 SDK,用于使用多个开源框架开发机器学习模型。

你也可以使用 Azure 机器学习来生成机器学习管道,从而管理端到端工作流、以编程方式在云中进行缩放,以及将模型部署到云和边缘。 Azure 机器学习包含工作区,这些工作区是可以在 Azure 门户以编程方式或手动方式创建的逻辑空间。 这些工作区将计算目标、试验、数据存储、训练的机器学习模型、Docker 映像和部署的服务全部放在一个位置,使团队能够协同工作。 可以在 Visual Studio 中将 Azure 机器学习与 Visual Studio for AI 扩展配合使用。

提示

在工作区中组织和管理相关数据存储、试验、训练的模型、Docker 映像和部署的服务。

Azure Synapse Spark 池笔记本

Azure Synapse Spark 池笔记本是 Azure 优化的 Apache Spark 服务。 使用 Azure Synapse Spark 池笔记本:

  • 数据工程师可以使用数据工厂生成和运行可缩放的数据准备作业。

  • 数据科学家可以使用以 Scala、R、Python、Java 和 SQL 等语言编写的笔记本大规模生成和运行机器学习模型,以将结果可视化。

提示

Azure Synapse Spark 是 Microsoft 提供的可动态缩放的 Spark 即服务产品。Spark 提供数据准备、模型开发和部署模型执行的可缩放执行。

在 Azure Synapse Spark 池笔记本中运行的作业可以从 Azure Blob 存储、Data Lake Storage、Azure Synapse、HDInsight 和流式处理数据服务(如 Apache Kafka)大规模检索、处理和分析数据。

提示

Azure Synapse Spark 可以访问 Azure 上一系列 Microsoft 分析生态系统数据存储中的数据。

Azure Synapse Spark 池笔记本支持自动缩放和自动终止,以降低总拥有成本 (TCO)。 数据科学家可以使用 MLflow 开源框架来管理机器学习生命周期。

ML.NET

ML.NET 是适用于 Windows、Linux、macOS 的开源跨平台机器学习框架。 Microsoft 创建了 ML.NET,因此 .NET 开发人员可以使用现有工具(如 ML.NET Model Builder for Visual Studio)开发自定义机器学习模型并将它们集成到 .NET 应用程序中。

提示

Microsoft 已将其机器学习功能扩展到 .NET 开发人员。

.NET for Apache Spark

.NET for Apache Spark 将 Spark 支持扩展到 R、Scala、Python 和 Java 以外的 .NET,旨在使 Spark 可供所有 Spark API 的 .NET 开发人员访问。 虽然 .NET for Apache Spark 目前仅在 HDInsight 中的 Apache Spark 上可用,但 Microsoft 打算在 Azure Synapse Spark 池笔记本上提供 .NET for Apache Spark。

将 Azure Synapse Analytics 与数据仓库配合使用

若要将机器学习模型与 Azure Synapse 相结合,你可以:

  • 对流式传输数据批量使用或实时使用机器学习模型来生成新见解,并将这些见解添加到 Azure Synapse 中的已知信息。

  • 使用 Azure Synapse 中的数据来开发和训练部署在其他地方(例如,部署在其他应用程序中)的新预测模型。

  • 在 Azure Synapse 中部署机器学习模型(包括在其他地方训练的模型),以分析数据仓库中的数据并驱动新的业务价值。

提示

使用 Azure Synapse 中的数据,在 Azure Synapse Spark 池笔记本上大规模训练、测试、评估和运行机器学习模型。

数据科学家可以将 RStudio、Jupyter Notebook 和 Azure Synapse Spark 池笔记本与 Azure 机器学习配合使用,以开发在 Azure Synapse Spark 池笔记本上使用 Azure Synapse 中的数据大规模运行的机器学习模型。 例如,数据科学家可以创建一个无人监督的模型来细分客户,以便推动不同的营销活动。 使用监督式机器学习来训练模型以预测特定结果,例如预测客户的流失倾向,或为客户推荐次好的产品/服务来尝试增加其价值。 下图显示了如何使用 Azure Synapse 进行 Azure 机器学习。

Azure Synapse 训练和预测模型的屏幕截图。

在另一方案中,你可以将社交网络或评论网站数据引入到 Data Lake Storage 中,然后在 Azure Synapse Spark 池笔记本上大规模准备并分析这些数据,并使用自然语言处理为有关产品或品牌的客户情绪评分。 然后就可以将这些分数添加到数据仓库。 通过使用大数据分析来了解负面情绪对产品销售的影响,你对数据仓库的了解会更深。

提示

使用 Azure 上的机器学习在批处理中或实时生成新见解,并将其添加到数据仓库中的已知信息。

将实时流数据集成到 Azure Synapse Analytics 中

在分析新式数据仓库中的数据时,必须能够实时分析流数据,并将其与数据仓库中的历史数据联接。 例如,将 IoT 数据与产品或资产数据组合在一起。

提示

将数据仓库与 IoT 设备或点击流中的流式传输数据集成。

成功将数据仓库迁移到 Azure Synapse 后,可以通过利用 Azure Synapse 中的额外功能,在数据仓库现代化练习中引入实时传送视频流数据集成。 为此,请通过事件中心、其他技术(如 Apache Kafka)或可能的现有 ETL 工具(如果它支持流式传输数据源)引入流式传输数据。 将数据存储在 Data Lake Storage 中。 然后,使用 PolyBase 在 Azure Synapse 中创建一个外部表,并将其指向要流式传输到 Data Lake Storage 中的数据,这样数据仓库现在就包含用于访问实时流式传输数据的新表。 通过标准 T-SQL 从任何有权访问 Azure Synapse 的 BI 工具查询此外部表,就像数据位于数据仓库中一样。 还可以将流式传输数据联接到包含历史数据的其他表,以创建用于将实时传送视频流数据联接到历史数据的视图,使业务用户能够更轻松地访问数据。

提示

从事件中心或 Apache Kafka 将流式传输数据引入 Data Lake Storage,并使用 PolyBase 外部表从 Azure Synapse 访问这些数据。

在下图中,Azure Synapse 上的实时数据仓库已与 Data Lake Storage 中的流式传输数据集成。

Azure Synapse 的屏幕截图,在 Data Lake Storage 中有流式传输数据。

使用 PolyBase 创建逻辑数据仓库

使用 PolyBase,你可以创建逻辑数据仓库,以简化用户对多个分析数据存储的访问。 许多公司在过去几年里除了采用数据仓库外,还采用了“工作负荷优化型”分析数据存储。 Azure 上的分析平台包括:

  • 使用 Azure Synapse Spark 池笔记本(Spark 即服务)的 Data Lake Storage,用于大数据分析。

  • HDInsight(Hadoop 即服务),也用于大数据分析。

  • NoSQL Graph 数据库,用于图分析(可以在 Azure Cosmos DB 中完成)。

  • 事件中心和流分析,用于实时分析动态数据。

你可能还有这些平台的非 Microsoft 等效项,或者一个需要访问(以获取有关客户、供应商、产品、资产等项目的一致的受信任数据)的主数据管理 (MDM) 系统。

提示

PolyBase 简化了对 Azure 上多个基础分析数据存储的访问,从而简化了业务用户的访问。

这些分析平台之所以出现,是因为企业内外新数据源的激增,以及企业用户捕获和分析新数据的需求。 新数据源包括:

  • 计算机生成的数据,例如 IoT 传感器数据和点击流数据。

  • 人工生成的数据,如社交网络数据、评论网站数据、客户入站电子邮件、图像和视频。

  • 其他外部数据,例如公开的政府数据和天气数据。

此新数据超出了通常馈送数据仓库的结构化事务数据源和主数据源的范围,通常包括:

  • JSON、XML 或 Avro 等半结构化数据。
  • 文本、语音、图像或视频等非结构化数据,处理和分析起来更为复杂。
  • 大容量数据和/或快速数据。

因此,出现了新的更复杂种类的分析,例如自然语言处理、图分析、深度学习、流式处理分析或大量结构化数据的复杂分析。 这些种类的分析通常不会发生在数据仓库中,因此看到用于不同类型的分析工作负荷的不同分析平台也就不足为奇了,如下图所示。

屏幕截图显示 Azure Synapse 中不同类型的分析工作负荷的不同分析平台。

提示

使多个分析数据存储中的数据看起来好像都在一个系统中并将其联接到 Azure Synapse 的功能称为逻辑数据仓库体系结构。

由于这些平台会生成新见解,因此通常需要将新见解与你在 Azure Synapse 中已了解的内容相结合,这是 PolyBase 实现的功能。

通过在 Azure Synapse 中使用 PolyBase 数据虚拟化,你可以实现逻辑数据仓库,其中,Azure Synapse 中的数据联接到其他 Azure 和本地分析数据存储(如 HDInsight、Azure Cosmos DB)中的数据,或从流分析或事件中心流入 Data Lake Storage 的流式传输数据。 此方法降低了用户所面对的复杂性,这些用户访问 Azure Synapse 中的外部表,不需要知道所访问的数据是存储在多个基础分析系统中的。 下图显示了通过相对简单但仍然强大的 UI 方法访问的复杂数据仓库结构。

屏幕截图显示的示例展示了通过 UI 方法访问的复杂数据仓库结构。

此图显示了 Microsoft 分析生态系统中的其他技术如何与 Azure Synapse 中的逻辑数据仓库体系结构的功能相结合。 例如,可以将数据引入 Data Lake Storage 并使用数据工厂对数据进行管护,以创建代表 Microsoft 湖数据库逻辑数据实体的受信任数据产品。 然后,可以在不同的分析环境(例如 Azure Synapse、Azure Synapse Spark 池笔记本或 Azure Cosmos DB)中使用和重复使用这些受信任的、普遍理解的数据。 这些环境中生成的所有见解均可经由通过 PolyBase 实现的逻辑数据仓库数据虚拟化层进行访问。

提示

逻辑数据仓库体系结构简化了业务用户对数据的访问,并为数据仓库中已知的信息增加了新的价值。

结论

将数据仓库迁移到 Azure Synapse 后,你可以利用 Microsoft 分析生态系统中的其他技术。 这样做,你不仅可以实现数据仓库的现代化,而且可以将其他 Azure 分析数据存储中生成的见解引入集成的分析体系结构中。

可以将 ETL 处理范围扩大到将任何类型的数据引入 Data Lake Storage,然后使用数据工厂大规模准备和集成数据,以生成受信任的、通常所理解的数据资产。 这些资产可供你的数据仓库使用,并且可供数据科学家和其他应用程序访问。 你可以生成实时的和面向批处理的分析管道,并创建机器学习模型,以便在批处理中运行、在流数据上实时运行以及作为服务按需运行。

可以使用 PolyBase 或 COPY INTO,超越数据仓库来简化对 Azure 上多个基础分析平台的见解的访问。 为此,请在逻辑数据仓库中创建支持从 BI 工具和应用程序访问流式处理、大数据和传统数据仓库见解的综合集成视图。

通过将数据仓库迁移到 Azure Synapse,你可以利用在 Azure 上运行的丰富 Microsoft 分析生态系统来推动业务中的新价值。

后续步骤

若要了解如何迁移到专用 SQL 池,请参阅将数据仓库迁移到 Azure Synapse Analytics 中的专用 SQL 池