你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

云规模分析的 Microsoft Purview 部署最佳做法

数据管理登陆区域负责治理云规模分析平台。 它依赖于 Microsoft Purview 来提供大部分数据管理功能。

注意

本部分中的指导解释了特定于云规模分析的配置。 它是关于使用 Microsoft Purview 增强数据治理的 Azure 最佳做法集合。 本指南是对官方 Microsoft Purview 文档的补充。

概述

Microsoft Purview 是一种统一数据治理服务,可以帮助你管理和治理本地、多云和软件即服务 (SaaS) 数据。 通过自动化的数据发现、敏感数据分类和端到端数据世系,创建数据领域的整体最新映射。 使数据策展人能够管理和保护数据产业。 使数据使用者能够查找重要的可信数据。

提示

我们建议使用首选的第三方工具,将当前 Microsoft Purview 不支持的数据管理登陆区域的其余功能集成到 Azure 中。

将 Microsoft Purview 帐户部署到数据管理登陆区域中,该区域用作集中式数据目录。 从数据管理登陆区域,Microsoft Purview 可通过使用跨数据管理、数据登陆区域和自承载集成运行时建立的 VNet 对等互连专用网络连接来与每个数据登陆区域通信。 本地数据存储和其他公有云中的数据产品是通过部署更多自承载集成运行时发现的。

帐户设置

第一步是部署 Microsoft Purview 帐户。 在部署数据管理登陆区域期间,系统会在数据管理订阅中自动部署单个 Microsoft Purview 帐户。 目标是将整个数据映射集中到跨所有数据登陆区域的单个 Microsoft Purview 帐户中。 建议你考虑在每个环境类型的数据管理登陆区域订阅中公用一个 Microsoft Purview 帐户。

除了 Microsoft Purview 帐户之外,还会部署受管理资源组。 托管存储帐户和托管事件中心命名空间部署在此资源组中,用于通过扫描引入数据资产元数据。 由于这些资源由 Microsoft Purview 目录使用,因此不能将其删除。 部署时,系统会自动在资源组级别为所有主体添加 Azure 基于角色的访问控制 RBAC 拒绝分配

先决条件

在部署之前,请查看数据管理登陆区域订阅中的以下要求:

  • 创建策略豁免:如果现有的 Azure Policy 分配阻止管理员或应用程序创建 Azure 存储帐户、Azure 事件中心命名空间、Microsoft Purview 帐户、Azure 专用 DNS 区域或 Azure 专用终结点,则必须应用 Azure Policy 豁免。 由于豁免是必需的,因此可以在部署 Microsoft Purview 时将所需资源一同部署到数据管理登陆区域中。
  • 注册资源提供程序: 确保在数据管理登陆区域订阅中注册以下 Azure 资源提供程序:
    • Microsoft.EventHub
    • Microsoft.Purview
    • Microsoft.Storage

重要

若要使用 Microsoft Purview 成功部署数据管理登陆区域,应满足这些先决条件。 若要详细了解如何注册资源提供程序,请参阅 Azure 服务的资源提供程序

网络和名称解析

云规模分析使用 Azure 专用终结点来实现对目录的安全访问,这由 Azure 专用链接提供支持。 专用终结点为 Microsoft Purview 帐户使用 VNet 地址空间中的 IP 地址。 VNet 上的客户端与 Microsoft Purview 帐户之间的网络流量通过 VNet 和 Microsoft 主干网络上的专用链接进行传输。 使用 VNet 和专用链接后,无需公开公共 Internet。 若要为端到端扫描方案启用网络隔离,请部署更多的专用终结点。 专用终结点使 Azure 中的数据源和本地源可以通过 Azure 专用链接进行连接。

Azure 专用终结点部署

Microsoft Purview 帐户在数据管理登陆区域中的 Azure 虚拟网络 (VNet) 内部署有多个专用终结点:

  • 帐户:利用此专用终结点,可以仅允许从专用网络内部发起的对 Microsoft Purview 的客户端调用。 它是门户专用终结点的先决条件,是必需项

  • 门户:专用终结点旨在提供与 Microsoft Purview 治理门户的专用连接。 Microsoft Purview 治理门户是管理用户界面,可用于从 Web 浏览器访问和管理 Microsoft Purview。

  • 引入专用终结点用于通过专用连接扫描 Azure 虚拟网络内部的 Azure IaaS 和 PaaS 数据源以及本地数据源。 此方法可确保从数据源流向 Microsoft Purview 数据映射的元数据保持网络隔离。

Diagram of Microsoft Purview Networking.

重要

为了成功扫描 Microsoft Purview 中的数据源,必须在部署 Microsoft Purview 引入专用终结点的同一个虚拟网络(可位于数据管理登陆区域或任何数据登陆区域)中部署自承载集成运行时。

有关数据管理登陆区域网络的详细信息,请参阅云规模分析网络

有关 Microsoft Purview 专用终结点的详细信息,请参阅将专用终结点用于 Microsoft Purview 帐户

帐户和门户的专用终结点

若要使用 Microsoft Purview 管理数据资产并连接到 Microsoft Purview 治理门户,必须使用专用连接。 公共访问仅限于部署在数据管理登陆区域内的 Microsoft Purview 帐户,目的是提升安全性。 部署帐户和门户专用终结点,提供与 Microsoft Purview 帐户的专用连接以及对 Microsoft Purview 治理门户的访问

访问 Microsoft Purview 治理门户

若要通过专用连接来维护 Microsoft Purview 门户的使用,建议在 Microsoft Purview 设置中拒绝公用网络访问。 若要连接到 Microsoft Purview 治理门户,需要在网络中部署跳板机或 Jumpbox。 你可使用混合网络中的机器,或在数据管理登陆区域中用作虚拟机的机器。 跳板机是强化的远程访问服务器,通常利用 Microsoft 远程桌面服务或安全外壳 (SSH) 软件。 跳板机充当管理员访问关键系统的跳板,在专用主机上执行所有管理操作。

使用下列任一选项,通过 Microsoft Purview 治理门户使用 Microsoft Purview 来管理数据:

  • 选项 1:使用连接到公司网络的跳板机。 若要使用此连接模型,必须在创建 Microsoft Purview 门户专用终结点的 VNet 和企业网络之间建立连接。

    有关网络拓扑和连接概述的详细信息,请查看云采用框架网络。

  • 选项 2:如果组织中没有混合连接,请在数据管理登录区域部署虚拟机部署 Azure Bastion,以使用安全连接连接到 Microsoft Purview。

引入的专用终结点

Microsoft Purview 可以使用专用或公共终结点扫描 Azure 或本地环境中的数据源。 数据登录区域的网络会与数据管理登陆区域 VNet 和连接性订阅 VNet 自动进行对等互连。 因此,可以使用专用连接来扫描数据登陆区域内的数据源。

建议为登陆区域中的其他数据源启用专用终结点,并使用专用连接扫描数据源。

名称解析

应通过中央 Azure 专用 DNS 区域处理专用终结点的 DNS 解析。 在数据管理登陆区域中部署 Microsoft Purview 时,会自动部署以下专用 DNS 区域:

  • privatelink.purview.azure.com
  • privatelink.purviewstudio.azure.com
  • privatelink.blob.core.windows.net
  • privatelink.queue.core.windows.net
  • privatelink.servicebus.windows.net

Diagram of high Level name resolution architecture.

如果你有混合云,需要跨界名称解析,请务必正确配置本地 DNS 服务器,以将相应的请求转发到 Azure 中的自定义 DNS 服务器。

  • 如果你在 Azure 中已有自定义 DNS,则需要在本地 DNS 服务器上设置指向它的条件转发器。

  • 如果你在 Azure 中没有自定义 DNS VM,则可以部署 Azure 虚拟机规模集,其中包含已配置的 NGINX,用于将 DNS 请求转发到 Azure 提供的 DNS IP 168.63.129.16。 有关详细信息,请参阅将 NGINX DNS 代理的虚拟机规模集部署到现有虚拟网络

提示

要允许在数据管理登陆区域和数据登陆区域之间进行名称解析,请使用位于数据管理登陆区域内 {prefix}-global-dns 资源组中的相同专用 DNS 区域。

有关云规模分析网络和名称解析的详细信息,请参阅云规模分析网络

在 Microsoft Purview 中管理数据源的身份验证

Microsoft Purview 需要访问控制平面和数据平面才能注册和扫描数据源

注册数据源

在部署 Microsoft Purview 帐户时,会自动创建系统分配的托管标识。 它在 Microsoft Entra 租户中创建并分配给此资源。 若要在 Microsoft Purview 中注册数据源时读取并列出订阅或资源组下的 Azure 资源,Microsoft Purview 托管标识需要该范围的 Azure RBAC 读取者角色

在将这些数据源注册到 Microsoft Purview 之前,请先考虑在每个数据登陆区域订阅中将读取者角色分配给 Microsoft Purview 托管标识

  • Azure Blob 存储
  • Azure Data Lake Storage Gen1
  • Azure Data Lake Storage Gen2
  • Azure SQL 数据库
  • Azure SQL 托管实例
  • Azure Synapse Analytics

扫描数据源

在运行任何新扫描之前,请确保已满足以下要求:

部署并注册自承载集成运行时

为每个数据登录区域部署并注册自承载集成运行时 (IR) VM。 需要自承载 IR 才能扫描数据源,例如 Azure SQL 数据库或任何基于 VM 的数据源。 这些数据源可能位于本地或每个数据登录区域。 自承载 IR 能够在云数据存储和专用网络中的数据存储之间运行复制活动。 它还可以针对本地网络或 Azure 虚拟网络中的计算资源调度转换活动。 安装自自承载 IR 时需要在专用网络中提供本地计算机或虚拟机。

提示

建议使用专用计算机托管 IR。 计算机应与托管数据存储的服务器分开。 此外,强烈建议在每个数据登陆区域或本地环境中至少规划两个自承载 IR VM。

若要扫描本地数据源,可在本地网络中部署自承载 IR,然而,若要扫描 Azure 中的数据源,必须将自承载 IR 部署在 Microsoft Purview 引入专用终结点所在的 VNet 中。 建议为数据源所在的每个区域部署新的引入专用终结点和新的自承载 IR。

你可能希望托管不断增长的并发工作负载。 或者,你可能希望在当前工作负载级别获得更高的性能。 可使用以下方法之一来扩大处理规模:

  • 在节点的处理器和内存没有得到充分利用时进行纵向扩展
  • 通过添加更多节点或虚拟机规模集来横向扩展自承载 IR

为数据平面访问分配权限来扫描数据源

要在数据平面提供 Microsoft Purview 访问权限和数据源访问权限,有多个选项可以设置身份验证:

  • 选项 1:托管标识
  • 选项 2:作为机密存储在 Azure Key Vault 中的帐户密钥或密码
  • 选项 3:作为机密存储在 Azure Key Vault 中的服务主体

重要

要在 Microsoft Purview 中通过 Azure 专用链接扫描数据源,必须部署自承载集成运行时,并使用数据源身份验证选项中的“帐户密钥/SQL 身份验证”或“服务主体”

提示

如果数据源不能使用 Azure 专用链接,建议使用 Microsoft Purview 托管标识扫描数据源。 这种情况下,必须在 Microsoft Purview 帐户防火墙设置中允许公共访问。

在 Azure Key Vault 中存储机密

将多个 Azure Key Vault 资源部署到数据管理登录区域和数据登录区域订阅中。 Azure Key Vault 资源存储与数据管理登陆区域和数据源中的元数据数据源相关的机密。 数据源的一个示例是 Azure 数据工厂使用的 Azure SQL 数据库。 或者数据登陆区域中的 Databricks 工作区使用的 Azure Database for MySQL。

将数据登陆区域 Azure 密钥保管库到你的 Microsoft Purview 帐户

Microsoft Purview 可以使用存储在 Azure 密钥保管库中的机密和凭据。 只有在 Microsoft Purview 帐户内创建 Azure 密钥保管库连接并注册机密后,才能使用它们。 添加新的数据登陆区域后,必须在 Microsoft Purview 帐户内创建新的 Azure 密钥保管库连接。 该连接是 Azure 密钥保管库资源与 Microsoft Purview 帐户的一对一关联。 它允许在 Microsoft Purview 帐户中根据 Azure 密钥保管库中存储的机密创建凭据。

有关详细信息,请参阅在 Microsoft Purview 帐户中创建 Azure 密钥保管库连接

提示

删除任何未使用的 Azure 密钥保管库,以最大限度减少 Key Vault 连接。

在 Microsoft Purview 中创建凭据

对于特定场景,可能需要使用密钥保管库机密设置凭据

  • 扫描任何无法将 Microsoft Purview 托管标识用作身份验证方法的数据源。
  • 使用自承载集成运行扫描任何数据源,此时必须将帐户密钥、SQL 身份验证(密码)或服务主体等支持的身份验证类型存储在凭据中。
  • 使用数据引入专用终结点扫描数据源。
  • 扫描位于虚拟机内或本地环境中的数据源。

在 Microsoft Purview 中创建任何凭据之前,Microsoft Purview 帐户必须有权访问 Azure 密钥保管库机密。 请使用 Azure 密钥保管库访问策略或基于角色的访问控制 (RBAC) 向 Microsoft Purview 托管服务标识 (MSI) 授予所需的访问权限。 若要详细了解如何授予 Microsoft Purview MSI 对 Azure 密钥保管库的访问权限,以及如何在 Microsoft Purview 中创建凭据,请参阅 Microsoft Purview 中用于源身份验证的凭据

Microsoft Purview 角色和访问控制

Microsoft Purview 具有多个管理数据平面的内置角色(例如数据读取者、数据管护者、集合管理员、数据源管理员和策略创建者),可以组合这些角色以提供更多权限。 例如,数据读取者角色面向的是需要对数据资产进行只读访问的职能,比如数据管理人员、数据专员和首席安全官。 数据资产可能包含分类、通过搜索选项产生的世系和 Microsoft Purview 中提供的报告。

数据管理登陆区域部署完成后,使用最低特权模型提供用于在 Microsoft Purview 中查看或管理元数据的权限。

重要

必须在 Microsoft Purview 治理门户中或直接使用 API 来管理 Microsoft Purview 数据平面角色。

有关 Microsoft Purview 角色的详细信息,请参阅 Microsoft Purview 数据平面中的访问控制

查看以下涉及云规模分析部署的角色列表。 为他们分配相关的 Microsoft Purview 角色,使其能够为部署成功做出贡献:

Persona 角色 建议的 Microsoft Purview 角色
产品所有者 产品所有者使用 Azure 来转换解决方、提高业务敏捷性,并优化业务流程。 数据读取者
解决方案架构师 定义跨企业业务网络边界的解决方案。 了解如何处理 Azure 服务的诊断、分析、设计、部署和集成。
  • 数据源管理员
  • 数据管护者
  • 开发人员和 DevOps 工程师 使用 Azure DevOps 或 GitHub 设计、生成、部署、测试和维护持续集成和交付过程。 不适用
    安全工程师 利用最佳做法,团队能够在 Azure 上设计并实现安全基础结构。
  • 集合管理员
  • 数据读取者
  • 技术和业务经理 全面了解 Azure 服务。 控制云成本并优化操作和团队敏捷性。 不适用
    决策者和业务用户 使用 Azure 访问可操作的见解,期望它以最相关的形式提供。 使用嵌入到现有解决方案中的 AI 优化业务流程。 数据读取者
    数据管理员 负责预配和管理对数据资产的访问。 数据读取者或数据管护者
    数据分析师和性能分析师 使用 Azure 发现并分享从现有数据资产或临时数据中得到的新见解。 创建一键式 AI 转换,使用预生成模型,并轻松生成机器学习模型。
  • 数据源管理员
  • 数据读取者
  • 数据工程师 使用 Azure 生成、集成和管理数据与分析产品。 创建支持 AI 的应用程序和解决方案(如适用)。
  • 数据源管理员
  • 数据管护者
  • 平民数据科学家 通过功能强大的视觉对象工具、拖放工具、无代码工具(无需编写代码)创建机器学习模型
  • 数据源管理员
  • 数据管护者
  • 数据科学家 使用首选工具和机器学习框架来构建可缩放的数据科学解决方案。 加速端到端机器学习生命周期。
  • 数据源管理员
  • 数据管护者
  • 机器学习工程师 实现适当的流程和基础结构,以方便模型部署和模型管理。
  • 数据源管理员
  • 数据管护者
  • 有关数据角色的详细信息,请参阅角色和团队

    后续步骤

    Azure 机器学习作为云规模分析的数据产品