本文提供了一种体系结构方法,用于为 Azure Synapse Analytics 的可缩放、增强安全部署准备 Azure 登陆区域订阅。 Azure Synapse 是一种企业分析服务,结合了数据仓库、大数据处理、数据集成和管理。
本文假定你已实现有效构建和操作登陆区域所需的平台基础。
Apache®、Spark 和火焰徽标是 Apache Software Foundation 在美国和/或其他国家/地区的商标或注册商标。 使用这些标记并不暗示获得 Apache Software Foundation 的认可。
体系结构
下载此体系结构的 Visio 文件。
数据流
- 该体系结构的核心组件是 Azure Synapse,这是一种统一的服务,提供了从数据引入和数据处理到服务和分析的一系列功能。 托管虚拟网络中的 Azure Synapse 为工作区提供了网络隔离。 通过启用数据外泄保护,可以将出站连接限制为仅批准的目标。
- 位于托管虚拟网络中的 Azure Synapse 资源、Azure 集成运行时和 Spark 池可以使用托管专用终结点连接到 Azure Data Lake Storage、Azure Key Vault 和具有提高的安全性的其他 Azure 数据存储。 托管虚拟网络外部托管的 Azure Synapse SQL 池可以通过企业虚拟网络中的专用终结点连接到 Azure 服务。
- 管理员可以通过在管理组级别跨数据登陆区域应用的 Azure 策略,强制与 Azure Synapse 工作区、Data Lake Storage、Key Vault、Log Analytics 和其他数据存储建立专用连接。 他们还可以启用数据外泄保护,为出口流量提供增强的安全性。
- 用户通过 Azure Synapse 专用链接中心使用 Web 浏览器从受限的本地网络访问 Synapse Studio。 专用链接中心用于通过具有增强安全性的专用链接加载 Synapse Studio。 单个 Azure Synapse 专用链接中心资源部署在中心虚拟网络中具有专用终结点的连接订阅中。 中心虚拟网络通过 Azure ExpressRoute 连接到本地网络。 专用链接中心资源可用于通过 Synapse Studio 以专用方式连接到所有 Azure Synapse 工作区。
- 数据工程师使用在自承载集成运行时中执行的 Azure Synapse 管道复制活动,在本地环境中托管的数据存储与云数据存储(如 Data Lake Storage 和 SQL 池)之间引入数据。 本地环境通过 ExpressRoute 连接到 Azure 上的中心虚拟网络。
- 数据工程师使用 Azure Synapse 数据流活动和 Spark 池转换云数据存储上托管的数据,这些云数据存储通过托管专用终结点连接到 Azure Synapse 托管虚拟网络。 对于位于本地环境中的数据,使用 Spark 池进行转换需要通过自定义专用链接服务进行连接。 自定义专用链接服务使用网络地址转换 (NAT) VM 连接到本地数据存储。 有关设置专用链接服务以从托管虚拟网络访问本地数据存储的信息,请参阅如何使用专用终结点从数据工厂托管 VNet 访问本地 SQL Server。
- 如果在 Azure Synapse 中启用了数据外泄保护,则通过 Azure Monitor 专用链接范围资源路由到 Log Analytics 工作区的 Spark 应用程序日志记录,该资源通过托管专用终结点连接到 Azure Synapse 托管虚拟网络。 如图所示,单个 Azure Monitor 专用链接范围资源托管在中心虚拟网络中具有专用终结点的连接订阅中。 可以通过 Azure Monitor 专用链接范围以专用方式访问所有 Log Analytics 工作区和 Application Insights 资源。
组件
- Azure Synapse Analytics 是一项企业分析服务,可以缩短在数据仓库和大数据系统中生成见解所需的时间。
- Azure Synapse 托管虚拟网络为 Azure Synapse 工作区提供了与其他工作区的网络隔离。
- Azure Synapse 托管专用终结点是在与 Azure Synapse 工作区关联的托管虚拟网络中创建的专用终结点。 托管专用终结点建立了与托管虚拟网络外部的 Azure 资源的专用链接连接。
- 具有数据外泄保护功能的 Azure Synapse 工作区可防止敏感数据外泄到组织范围之外的位置。
- Azure 专用链接中心是充当安全网络和 Synapse Studio Web 体验之间的连接器的 Azure 资源。
- 集成运行时是 Azure Synapse 管道用于在不同的网络环境中提供数据集成功能的计算基础结构。 在托管 Azure 计算集成运行时中运行数据流活动,或使用自承载计算集成运行时跨网络运行复制活动。
- Azure 专用链接提供对 Azure 上托管的服务的专用访问。 Azure 专用链接服务是对你自己的服务(由专用链接提供支持)的引用。 可为 Azure 标准负载均衡器后面的服务启用专用链接访问。 然后,可以通过托管专用终结点将专用链接服务扩展到 Azure Synapse 托管虚拟网络。
- Azure Synapse 中的 Apache Spark 是 Apache Spark 在云中的几种 Microsoft 实现之一。 使用 Azure Synapse 可在 Azure 上轻松创建和配置 Spark 功能。
- Data Lake Storage 使用 Azure 存储作为在 Azure 上构建企业数据湖的基础。
- Key Vault 允许以增强的安全性存储机密、密钥和证书。
- Azure 登陆区域是负责缩放、安全治理、网络和标识的多订阅 Azure 环境的输出。 通过登陆区域,可在 Azure 中实现企业级的迁移、现代化和创新。
方案详细信息
本文提供了一种方法,用于为 Azure Synapse 的可缩放、增强安全部署准备 Azure 登陆区域订阅。 该解决方案遵循 Azure 云采用框架最佳做法,并专注于企业级登陆区域的设计准则。
许多拥有分散式自主业务部门的大型组织都希望大规模采用分析和数据科学解决方案。 建立正确的基础至关重要。 Azure Synapse 和 Data Lake Storage 是实现云规模分析和数据网格体系结构的核心组件。
本文提供了有关跨管理组、订阅拓扑、网络、标识和安全性部署 Azure Synapse 的建议。
使用此解决方案,可以实现:
- 一个管理良好的增强安全分析平台,该平台可根据需要跨多个数据登陆区域进行缩放。
- 降低数据应用程序团队的运营开销。 他们可以专注于数据工程和分析,将 Azure Synapse 平台管理交给数据登陆区域运营团队。
- 针对各个数据登陆区域集中执行组织合规性。
可能的用例
此体系结构适用于可能需要以下内容的组织:
- 一个用于 Azure Synapse 工作负载的完全集成的操作控制和数据平面(从一开始)。
- 重点关注数据安全和隐私的 Azure Synapse 的增强安全实现。
此体系结构可以作为跨数据登陆区域订阅大规模部署 Azure Synapse 工作负载的起点。
订阅拓扑
构建大规模数据和分析平台的组织会寻找方法来一致高效地扩展其工作。
- 通过将订阅用作数据登陆区域的缩放单元,组织可以克服订阅级别的限制,确保适当的隔离和访问管理,并针对数据平台占用情况获得灵活的未来增长。 在数据登陆区域中,可以将 Azure Synapse 和其他数据资产分组,以用于资源组中的特定分析用例。
- 管理组和订阅设置由登陆区域平台所有者负责,该所有者向数据平台管理员提供预配 Azure Synapse 和其他服务所需的访问权限。
- 所有组织范围的数据合规性策略都在管理组级别应用,以跨数据登陆区域强制实施合规性。
网络拓扑
有关使用虚拟 WAN 网络拓扑(中心辐射型)的登陆区域的建议,请参阅虚拟 WAN 网络拓扑。 这些建议与云采用框架最佳做法保持一致。
下面是 Azure Synapse 网络拓扑的一些建议:
通过托管虚拟网络为 Azure Synapse 资源实现网络隔离。 通过将出站访问限制为仅批准的目标来实现数据外泄保护。
配置与以下项的专用连接:
- 通过托管专用终结点配置与 Data Lake Storage、Key Vault 和 Azure SQL 等 Azure 服务的专用连接。
- 通过自承载集成运行时通过 ExpressRoute 配置与本地数据存储和应用程序的专用连接。 如果无法使用自承载集成运行时,请使用自定义专用链接服务将 Spark 资源连接到本地数据存储。
- 通过连接订阅中部署的专用链接中心配置与 Synapse Studio 的专用连接。
- 通过连接订阅中部署的 Azure Monitor 专用链接范围配置与 Log Analytics 工作区的专用连接。
标识和访问管理
企业通常使用最低特权方法进行操作访问。 他们使用 Microsoft Entra ID、Azure 基于角色的访问控制 (RBAC) 和自定义角色定义进行访问管理。
- 使用 Azure 角色、Azure Synapse 角色、SQL 角色和 Git 权限在 Azure Synapse 中实现精细的访问控制。 有关 Azure Synapse 工作区访问控制的详细信息,请参阅此概述。
- Azure Synapse 角色提供了可在不同范围应用的权限集。 这种粒度使得向管理员、开发人员、安全人员和操作员授予适当的访问权限以计算资源和数据变得容易。
- 通过使用与作业角色一致的安全组,可以简化访问控制。 要管理访问权限,只需从适当的安全组中添加和删除用户即可。
- 可以使用用户分配的托管标识为 Azure Synapse 和其他 Azure 服务(如 Data Lake Storage 和 Key Vault)之间的通信提供安全性。 这样做无需管理凭据。 托管标识提供了应用程序可以在连接到支持 Microsoft Entra 身份验证的资源时使用的标识。
应用程序自动化和 DevOps
- Azure Synapse 工作区的持续集成和交付是通过 Git 集成和将所有实体从一个环境(开发、测试、生产)提升到另一个环境来实现的。
- 使用 Bicep/Azure 资源管理器模板实现自动化,以创建或更新工作区资源(池和工作区)。 使用 Azure DevOps 或 GitHub 上的 Synapse 工作区部署工具迁移 SQL 脚本和笔记本、Spark 作业定义、管道、数据集等项目和其他项目,如 Azure Synapse Analytics 工作区的持续集成和交付中所述。
注意事项
这些注意事项实施 Azure 架构良好的框架的支柱原则,即一套可用于改进工作负荷质量的指导原则。 有关详细信息,请参阅 Microsoft Azure 架构良好的框架。
可靠性
可靠性可确保应用程序符合你对客户的承诺。 有关详细信息,请参阅可靠性支柱概述。
- Azure Synapse、Data Lake Storage和 Key Vault 是具有内置高可用性和复原能力的托管平台即服务 (PaaS) 服务。 可以使用冗余节点使体系结构中的自承载集成运行时和 NAT VM 高度可用。
- 有关服务级别协议 (SLA) 的详细信息,请参阅 Azure Synapse Analytics 的 SLA。
- 有关 Azure Synapse 的业务连续性和灾难恢复建议,请参阅 Azure Synapse Analytics 的数据库还原点。
安全性
安全性针对蓄意攻击及滥用宝贵数据和系统提供保障措施。 有关详细信息,请参阅安全性支柱概述。
- 此安全基线将 Azure 安全基准 2.0 中的指导应用于 Azure Synapse 专用 SQL 池。
- 有关 Azure Synapse 的 Azure Policy 安全控制的信息,请参阅 Azure Synapse Analytics 的 Azure Policy 法规符合性控制。
- 有关 Azure Synapse 工作区的重要内置策略,请参阅 Azure Synapse Analytics 的 Azure Policy 内置定义。
成本优化
成本优化就是减少不必要的费用和提高运营效率。 有关详细信息,请参阅成本优化支柱概述。
- 分析资源是以数据仓库单元 (DWU) 来度量的,这将跟踪 CPU、内存和 IO。 建议从较小的 DWU 开始,并测量资源密集型操作的性能,例如繁重的数据加载或转换。 这样做有助于确定优化工作负载所需的单元数。
- 使用预购的 Azure Synapse 提交单元 (SCU),通过即用即付价格节省资金。
- 要了解定价选项并估算实现 Azure Synapse 的成本,请参阅 Azure Synapse Analytics 定价。
- 此定价估算包含使用下一部分中所述的自动化步骤部署服务的成本。
部署此方案
先决条件:必须有一个 Azure 帐户。 如果没有 Azure 订阅,可以在开始之前创建一个免费帐户。
GitHub 上的 Synapse Enterprise Codebase 存储库中提供了此方案的所有代码。
自动部署使用 Bicep 模板部署以下组件:
- 资源组
- 虚拟网络和子网
- 具有专用终结点的存储层(铜、银和金)
- 具有托管虚拟网络的 Azure Synapse 工作区
- 专用链接服务和终结点
- 负载均衡器和 NAT VM
- 自承载集成运行时资源
存储库中提供了用于编排部署的 PowerShell 脚本。 可以运行 PowerShell 脚本,或使用 pipeline.yml 文件将其部署为 Azure DevOps 中的管道。
有关 Bicep 模板、部署步骤和假设的详细信息,请参阅自述文件。
作者
本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。
主要作者:
- Vidya Narasimhan | 首席云解决方案架构师
- Sabyasachi Samaddar | 高级云解决方案架构师
其他参与者:
- Mick Alberts | 技术文档撰写人
要查看非公开的 LinkedIn 个人资料,请登录到 LinkedIn。
后续步骤
- 有关创建端到端数据和分析平台的信息,请参阅云规模分析指南。
- 探索数据网格,它是一种用于在大型复杂组织中实现企业数据平台的体系结构模式。
- 请参阅 Azure Synapse 安全白皮书。
有关本文中所述的服务的详细信息,请参阅以下资源: