你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

使用 Azure Synapse 进行具有企业级安全性的大数据分析

Azure Analysis Services
Azure Data Lake Storage
Azure Synapse Analytics

解决方案构想

本文是一种解决方案构想。 如果你希望我们在内容中扩充更多信息,例如潜在用例、备用服务、实现注意事项或定价指南,请通过提供 GitHub 反馈来告知我们。

本文中所述的解决方案演示如何使用 Azure Synapse Analytics 构建新式数据平台,以引入、处理、存储、提供和可视化来自各种源的数据。

体系结构

Diagram showing the data flow in this solution. For a detailed explanation, see the following article text.

下载此体系结构的 Visio 文件

数据流

数据流经解决方案的情形如下所示:

  1. Synapse 管道复制活动从外部关系数据仓库、半结构化数据(如日志、平面文件和 xml)以及其他源系统引入原始结构化数据。 然后,此引入的数据将存储在 Azure Data Lake Storage Gen2 位置。 使用自承载集成运行时,还可以在本地环境中的数据存储与云之间管理和运行复制活动。

  2. Azure Data Lake Storage Gen2 提供安全存储。

    • 建议使用防火墙限制存储帐户对受信任的 Azure 服务的访问,以限制外部攻击漏洞。

    • Azure 存储帐户的专用终结点使虚拟网络 (VNet) 上的客户端能够通过专用链接安全地访问数据。 专用终结点为存储帐户服务使用 VNet 地址空间中的 IP 地址。 VNet 上的客户端与存储帐户之间的网络流量通过 VNet 和 Microsoft 主干网络上的专用链接进行传输,避免暴露给公共 Internet。

  3. 数据在引入数据湖后将进行静态加密。 使用自己的客户管理的密钥可以进一步保护加密密钥,并在管理访问控制时增加更大的灵活性。

  4. 使用 Synapse 管道引入数据,并使用 Synapse Spark 池及其 Data Lake 功能分阶段处理数据。 数据使用特定于阶段的 Azure Data Lake Storage Gen 2 目录存储在 Azure 存储帐户中。 这些阶段包括:

    1. Synapse 管道复制活动最初从源系统引入数据。 此引入的数据使用数据湖的 Bronze 目录以原始格式存储。

    2. 然后,Synapse Spark 池运行数据质量规则来清理原始数据。 然后,这些丰富的数据存储在数据湖的 Silver 目录中。

    3. 清理过程完成后,Spark 池将对 Silver 目录中的数据应用任何所需的规范化、数据转换和业务规则。 然后,这些转换后的数据存储在数据湖的 Gold 目录中。

  5. Synapse Apache Spark 到 Synapse SQL 连接器将规范化数据推送到 Synapse SQL 池,以供下游应用程序和报告服务(如 Power BI)使用。 此连接器旨在以最佳方式在 Azure Synapse Analytics 工作区中的无服务器 Apache Spark 池和 SQL 池之间传输数据。

  6. Power BI 服务使用 DirectQuery 模式从 Synapse SQL 池安全地提取数据。 安装在专用 VNet 上的虚拟机中的数据网关充当 Power BI 服务和 Synapse SQL 池之间的连接平台,使用同一 VNet 中的专用终结点进行安全连接。

  7. 外部应用程序可以通过访问连接到 VNet 的相应专用终结点来访问 Synapse 无服务器池或专用 SQL 池中的数据。

此示例解决方案使用多个 Azure 服务和功能:

  • Azure Synapse Analytics 是此示例解决方案中用于提供数据引入、处理和分析的核心服务。

  • Azure Data Lake Storage (Gen2) 构建在 Azure 存储服务之上,并提供此示例解决方案中的其他服务在存储和处理数据时使用的数据湖功能。

  • Synapse 管道将数据从原始源复制到数据湖存储位置。

  • Azure Synapse Analytics 中的 Apache Spark 对从源位置引入的数据进行清理、规范化和执行其他处理任务。

  • 专用 SQL 池(以前称为 SQL DW)为经过处理和规范化并可供最终用户和应用程序使用的数据提供数据仓库功能。

  • 无服务器 SQL 池使用户可以快速查询和分析已处理和规范化的数据。

  • Azure Synapse 托管虚拟网络为 Azure Synapse 工作区创建隔离的托管虚拟网络环境,从而减轻了管理工作区资源网络配置的需求。

  • Azure Synapse 托管专用终结点建立到 Azure 资源的专用链接,并仅使用 Microsoft 主干网络在 Azure Synapse 工作区和其他 Azure 资源之间路由流量。

  • Azure 虚拟网络 (VNet) 为不属于 Azure Synapse 工作区的 Azure 资源提供专用网络功能。 它允许管理资源之间的访问、安全性和路由。

  • Azure 专用终结点提供从解决方案的 VNet 到 Azure 托管服务的专用 IP 地址,从而有效地将服务连接到 VNet。 这样能够在 Azure Synapse 工作区和其他 Azure 服务(如 Azure 存储、Azure Cosmos DB、Azure SQL 数据库或你自己的Azure 专用链接服务)之间建立安全网络。

  • Power BI 使用户能够使用解决方案的已处理数据执行高级分析和分享见解。

组件

方案详细信息

Azure Synapse Analytics 将数据集成、企业数据仓库和大数据分析结合在一起,帮助你构建能够处理大型组织面临的最常见数据挑战的新式数据平台。 Azure 虚拟网络使你能够在 Azure 公有云和托管网络中创建自己的专用网络,Azure 专用终结点使你能够将托管云服务安全地集成到这些专用网络中。

可能的用例

本文中介绍的解决方案演示了如何结合这些技术来构建一个新式数据平台,其能够引入、处理、存储、服务和可视化来自不同来源(结构化和半结构化)的数据,同时满足组织期望的高安全标准。 这包括支持常见要求,例如:

  • 保护数据源。 本地企业网络或虚拟网络中的数据源受防火墙保护。 通过在本地或虚拟网络上托管的资源上安装自承载集成运行时,可以安全地访问这些资源。

  • 使用托管标识进行身份验证和授权。 可以使用托管标识保护 Azure 服务之间的通信,托管标识为应用程序提供在连接到支持 Microsoft Entra ID 身份验证的资源时要使用的标识。 在本示例中,Azure Synapse 使用托管标识来集成管道。

  • 专用终结点建立与 Azure 资源的专用链接。 Azure Synapse 为 Synapse 工作区(如 Azure 存储或 Azure Cosmos DB)中的服务提供完全托管的专用终结点功能。 其他 Azure 资源(如 Azure 应用程序、Microsoft Power BI 和 Azure Synapse 服务)使用集成到示例解决方案的虚拟网络中的专用终结点进行保护。 专用网络和 Synapse 池之间的网络流量使用专用链接通过 Microsoft 主干网络移动流量,避免暴露给公共 Internet。

  • 加密传输中的数据。 数据在传输过程中加密,因为所有数据传输都通过安全通道 HTTPS 和 TLS over TCP 进行,以防止在与 Azure 服务通信期间受到中间人攻击,从而确保端到端的安全专用数据移动。

  • 加密静态数据。 Azure Synapse Analytics 中的透明数据加密通过对存储在 Synapse 工作区中的数据执行实时加密和解密来帮助防止恶意活动。 Azure 存储还可对存储帐户中的所有数据进行静态加密。 默认情况下,数据使用 Microsoft 托管的密钥进行加密,但如果需要对加密进行其他控制,则可以管理自己的密钥。

部署此方案

必须已经有 Azure 帐户。 如果没有 Azure 订阅,请在开始之前创建一个免费帐户

GitHub 存储库中提供了 Azure 资源管理器模板(部署此体系结构中描述的组件需要这些模板)。 这些模板将部署体系结构关系图中显示的所有服务,除了:Power BI 数据网关、自承载集成运行时和用于客户管理的密钥的 Azure Key Vault。

由用户创建数据湖文件夹结构和连接到数据源所需的 Azure Synapse Analytics 集成管道。

通过单击此按钮直接部署 ARM 模板:

Deploy to Azure

作者

本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。

主要作者:

后续步骤

若要了解如何进一步开发此方法,请通过完成以下教程来了解 Azure Synapse Analytics 的基础知识:

使用 Azure Synapse Analytics 规划和部署解决方案时,请参阅以下文章: