在 Microsoft Purview 中连接到Azure Data Lake Storage

本文概述了在 Microsoft Purview 中注册和管理Azure Data Lake Storage (ADLS Gen2) 数据源的过程,包括对 ADLS Gen2 源进行身份验证和交互的说明。

支持的功能

元数据提取 完整扫描 增量扫描 作用域扫描 分类 标记 访问策略 血统 数据共享 实时视图
是 (预览版) 有限*

* 如果将数据集用作 数据工厂Synapse 管道中的源/接收器,则支持沿袭。

扫描Azure Data Lake Storage Gen2源时,Microsoft Purview 支持提取技术元数据,包括:

  • 存储帐户
  • Data Lake Storage Gen2服务
  • 文件系统 (容器)
  • Folders
  • 文件
  • 资源集

设置扫描时,可以选择扫描整个 ADLS Gen2 或选择性文件夹。 在此处了解支持的文件格式。

先决条件

注册

通过本部分,可以在 Purview 中注册用于扫描和数据共享的 ADLS Gen2 数据源。

注册的先决条件

  • 你需要是数据源管理员和其他 Purview 角色之一, (例如数据读取者或Data Share参与者) ,才能在 Microsoft Purview 治理门户中注册和管理源。 有关详细信息,请参阅 Microsoft Purview 权限页

注册步骤

在设置数据源扫描之前,请务必在 Microsoft Purview 中注册数据源。

  1. 通过以下方式转到 Microsoft Purview 治理门户:

  2. 导航到 数据映射 --> 源

    显示用于打开 Microsoft Purview 治理门户的链接的屏幕截图

    导航到数据映射中的“源”链接的屏幕截图

  3. 使用“ 集合 ”菜单创建 “集合” 层次结构,并根据需要向各个子集合分配权限

    显示用于创建集合层次结构的集合菜单的屏幕截图

  4. 导航到“ ”菜单下的相应集合,然后选择“ 注册 ”图标以注册新的 ADLS Gen2 数据源

    显示用于注册数据源的集合的屏幕截图

  5. 选择Azure Data Lake Storage Gen2数据源,然后选择“继续

    允许选择数据源的屏幕截图

  6. 为数据源提供合适的名称,选择相关的 Azure 订阅、现有的 Data Lake Store 帐户名称和集合,然后选择“应用”。 将 “数据使用管理 ”开关保留为 禁用 位置,直到你有机会仔细阅读此 文档

    显示为了注册数据源而输入的详细信息的屏幕截图

  7. ADLS Gen2 存储帐户将显示在所选集合下

    显示映射到集合以启动扫描的数据源的屏幕截图

扫描

提示

若要排查扫描的任何问题,请:

  1. 确认已正确设置 用于扫描的身份验证
  2. 查看 扫描故障排除文档

扫描身份验证

Azure 网络可能允许 Azure 资源之间的通信,但如果已在 Azure 中设置了防火墙、专用终结点或虚拟网络,则需要遵循以下配置之一。

网络约束 集成运行时类型 可用凭据类型
无专用终结点或防火墙 Azure IR 托管标识 (建议的) 、服务主体或帐户密钥
已启用防火墙,但没有专用终结点 Azure IR 托管标识
已启用专用终结点 *自承载 IR 服务主体、帐户密钥

重要

  1. *若要使用自承载集成运行时,首先需要 创建一个 并确认 Microsoft Purview 的网络设置
  2. 如果使用 Self-Hosted 集成运行时扫描 parquet 文件,则需要在 IR 计算机上安装 64 位 JRE 8 (Java 运行时环境) 或 OpenJDK 。 可以检查 Java 运行时环境安装指南

使用系统或用户分配的托管标识进行扫描

可以使用两种类型的托管标识:

  • 系统分配的托管标识 (推荐) - 创建 Microsoft Purview 帐户后,系统分配的托管标识 (SAMI) 会在 Azure AD 租户中自动创建。 根据资源类型,Microsoft Purview 系统分配的托管标识 (SAMI) 需要特定的 RBAC 角色分配才能执行扫描。

  • 用户分配的托管标识 (预览版) - 与系统托管标识类似,用户分配的托管标识 (UAMI) 是一种凭据资源,可用于允许 Microsoft Purview 对 Azure Active Directory 进行身份验证。 有关详细信息,请参阅 我们的用户分配托管标识指南

请务必向 Microsoft Purview 帐户或用户分配的托管标识 (UAMI 授予扫描 ADLS Gen2 数据源的权限) 。 可以添加 Microsoft Purview 帐户的系统分配的托管标识 (该标识在订阅、资源组或资源级别与 Microsoft Purview 帐户) 或 UAMI 同名,具体取决于所需的级别扫描权限。

注意

需要是订阅的所有者才能在 Azure 资源上添加托管标识。

  1. Azure 门户查找订阅、资源组或资源 (,例如,要允许目录扫描的Azure Data Lake Storage Gen2存储帐户) 。

    显示存储帐户的屏幕截图

  2. 在左侧导航栏中选择“访问控制 (IAM) ”,然后选择“+ 添加”->“添加角色分配

    显示存储帐户的访问控制的屏幕截图

  3. “角色”设置为“存储 Blob 数据读取者”,并在“选择输入”框下输入 Microsoft Purview 帐户名称用户分配的托管标识。 然后,选择“ 保存 ”,将此角色分配给 Microsoft Purview 帐户。

    显示为 Microsoft Purview 帐户分配权限的详细信息的屏幕截图

    注意

    有关详细信息,请参阅使用 Azure Active Directory 授权访问 Blob 和队列中的步骤

    注意

    如果为存储帐户启用了防火墙,则必须在设置扫描时使用 托管标识 身份验证方法。

  4. Azure 门户 中转到 ADLS Gen2 存储帐户

  5. 导航到 “安全性 + 网络 > 网络”

    显示用于提供防火墙访问权限的详细信息的屏幕截图

  6. “允许从中访问”下选择“所选网络

    显示允许访问所选网络的详细信息的屏幕截图

  7. “例外” 部分中,选择“ 允许受信任的 Microsoft 服务访问此存储帐户 ”,然后单击“ 保存”

    显示允许受信任的 Microsoft 服务访问存储帐户的异常的屏幕截图

创建扫描

  1. 打开 Microsoft Purview 帐户并选择“打开 Microsoft Purview 治理门户

  2. 导航到 数据映射 --> 以查看集合层次结构

  3. 选择之前注册的 ADLS Gen2 数据源下的“新建扫描”图标

    显示创建新扫描的屏幕的屏幕截图

如果使用系统或用户分配的托管标识

  1. 提供扫描 的名称 ,在“ 凭据”下选择系统分配或用户分配的托管标识,为扫描选择适当的集合,然后选择“ 测试连接”。 成功连接后,选择“ 继续”。

    显示用于运行扫描的托管标识选项的屏幕截图

确定范围并运行扫描

  1. 可以通过在列表中选择相应的项目,将扫描范围限定为特定的文件夹和子文件夹。

    确定扫描范围

  2. 然后选择扫描规则集。 可以在系统默认规则集和现有自定义规则集之间进行选择,也可以内联创建新的规则集。

    扫描规则集

  3. 如果创建新的 扫描规则集,请选择要包含在扫描规则中的 文件类型

    扫描规则集文件类型

  4. 可以选择要包含在扫描 规则中的分类 规则

    扫描规则集分类规则

    扫描规则集选择

  5. 选择扫描触发器。 可以设置计划或运行扫描一次。

    扫描触发器

  6. 查看扫描并选择“ 保存并运行”。

    审阅扫描

查看扫描和扫描运行

查看现有扫描:

  1. 转到 Microsoft Purview 治理门户。 在左窗格中,选择“ 数据映射”。
  2. 选择数据源。 可以在“最近扫描”下查看该数据源上的现有 扫描列表,也可以在“扫描”选项卡上查看所有 扫描
  3. 选择要查看的结果的扫描。 窗格显示之前的所有扫描运行,以及每个扫描运行的状态和指标。
  4. 选择运行 ID 以检查扫描运行详细信息

管理扫描

若要编辑、取消或删除扫描,请执行以下操作:

  1. 转到 Microsoft Purview 治理门户。 在左窗格中,选择“ 数据映射”。

  2. 选择数据源。 可以在“最近扫描”下查看该数据源上的现有 扫描列表,也可以在“扫描”选项卡上查看所有 扫描

  3. 选择要管理的扫描。 然后,可以:

    • 通过选择“编辑扫描 ”来编辑扫描
    • 选择“取消扫描运行”, 取消正在进行的扫描
    • 通过选择“删除扫描” 来删除扫描

注意

  • 删除扫描不会删除从以前的扫描创建的目录资产。
  • 如果源表已更改,并且你在 Microsoft Purview 的“ 架构 ”选项卡上编辑说明后重新扫描源表,则资产将不再使用架构更改进行更新。

数据共享

Microsoft Purview 数据共享 (预览) 允许就地共享从 ADLS Gen2 到 ADLS Gen2 的数据。 本部分提供有关就地共享和接收数据的 ADLS Gen2 特定要求的详细信息。 有关如何使用 数据共享 的分步指南,请参阅如何共享数据和 如何接收 共享。

支持就地数据共享的存储帐户

就地数据共享支持以下存储帐户:

  • 区域:加拿大中部、加拿大东部、英国南部、英国西部、澳大利亚东部、日本东部、韩国南部和南非北部
  • 冗余选项:LRS、GRS、RA-GRS
  • 层:热层、冷层

仅对预览版使用没有生产工作负荷的存储帐户。

注意

源和目标存储帐户必须彼此位于同一区域。 它们不需要与 Microsoft Purview 帐户位于同一区域。

共享数据所需的存储帐户权限

若要向共享添加或更新存储帐户资产,需要以下权限之一:

  • Microsoft.Authorization/roleAssignments/write - 此权限在 所有者 角色中可用。
  • Microsoft.Storage/storageAccounts/blobServices/containers/blobs/modifyPermissions/ - 此权限在 Blob 存储数据所有者 角色中可用。

接收共享数据所需的存储帐户权限

若要映射收到的共享中的存储帐户资产,需要以下权限之一:

  • Microsoft.Storage/storageAccounts/write - 此权限在 “参与者 ”和“ 所有者” 角色中可用。
  • Microsoft.Storage/storageAccounts/blobServices/containers/write - 此权限在“参与者”、“所有者”、“存储 Blob 数据参与者”和“存储 Blob 数据所有者”角色中可用。

更新源存储帐户中的共享数据

对源存储帐户中共享文件夹中的共享文件或数据的汇报将准实时提供给目标存储帐户中的收件人。 删除共享文件夹中的子文件夹或文件时,它们将消失给收件人。 若要删除共享文件夹、文件或父文件夹或容器,需要首先从源存储帐户撤销对所有共享的访问权限。

访问目标存储帐户中的共享数据

目标存储帐户使收件人能够近乎实时地以只读的方式访问共享数据。 可以将 Synapse Workspace 和 Databricks 等分析工具连接到共享数据以执行分析。 访问共享数据的费用将计入目标存储帐户。

服务限制

源存储帐户最多可支持 20 个目标,目标存储帐户最多可支持 100 个源。 如果需要提高限制,请联系支持人员。

访问策略

支持的策略

Microsoft Purview 的此数据资源支持以下类型的策略:

Azure 存储帐户上的访问策略先决条件

区域支持

  • 支持所有 Microsoft Purview 区域
  • 支持以下区域中的存储帐户,无需进行其他配置。 但是,不支持区域冗余存储 (ZRS) 帐户。
    • 美国东部
    • 美国东部 2
    • 美国中南部
    • 美国西部 2
    • 加拿大中部
    • 北欧
    • 西欧
    • 法国中部
    • 英国南部
    • 东南亚
    • 澳大利亚东部
  • 设置 功能标志 AllowPurviewPolicyEnforcement 后,支持公有云中其他区域中的存储帐户,如下一部分所述。 如果在设置 功能标志 AllowPurviewPolicyEnforcement 后创建,则支持新创建的 ZRS 存储帐户。

如果需要,可以 按照本指南操作创建新的存储帐户。

为 Microsoft Purview 中的策略配置 Azure 存储帐户所在的订阅

仅在某些区域需要此步骤, (请参阅上一部分) 。 若要使 Microsoft Purview 能够管理一个或多个 Azure 存储帐户的策略,请在要在其中部署 Azure 存储帐户的订阅中执行以下 PowerShell 命令。 这些 PowerShell 命令将使 Microsoft Purview 能够管理该订阅中所有 Azure 存储帐户的策略。

如果要在本地执行这些命令,请确保以管理员身份运行 PowerShell。 或者,可以在 Azure 门户 中使用 Azure Cloud Shell:https://shell.azure.com

# Install the Az module
Install-Module -Name Az -Scope CurrentUser -Repository PSGallery -Force
# Login into the subscription
Connect-AzAccount -Subscription <SubscriptionID>
# Register the feature
Register-AzProviderFeature -FeatureName AllowPurviewPolicyEnforcement -ProviderNamespace Microsoft.Storage

如果最后一个命令的输出将 RegistrationState 显示为 Registered,则你的订阅将启用访问策略。 如果输出为 Registering,请等待至少 10 分钟,然后重试该命令。 除非 RegistrationState 显示为 Registered,否则请勿继续

为策略配置 Microsoft Purview 帐户

在 Microsoft Purview 中注册数据源

在 Microsoft Purview 中为数据资源创建策略之前,必须在 Microsoft Purview Studio 中注册该数据资源。 本指南稍后会介绍与注册数据资源相关的说明。

注意

Microsoft Purview 策略依赖于数据资源 ARM 路径。 如果数据资源移动到新的资源组或订阅,则需要取消注册,然后在 Microsoft Purview 中再次注册。

配置权限以在数据源上启用数据使用管理

注册资源后,但在 Microsoft Purview 中为该资源创建策略之前,必须配置权限。 需要一组权限才能启用 数据使用管理。 这适用于数据源、资源组或订阅。 若要启用 数据使用管理,必须 资源具有特定的标识和访问管理 (IAM) 特权,以及特定的 Microsoft Purview 特权:

  • 必须在资源的 Azure 资源管理器 路径上使用以下 IAM 角色组合之一,或者 (的任何父角色组合之一,即使用 IAM 权限继承) :

    • IAM 所有者
    • IAM 参与者和 IAM 用户访问管理员

    若要配置 Azure 基于角色的访问控制 (RBAC) 权限,请按照 本指南操作。 以下屏幕截图显示了如何访问数据资源Azure 门户中的“访问控制”部分以添加角色分配。

    显示Azure 门户中用于添加角色分配的部分的屏幕截图。

    注意

    数据资源的 IAM 所有者 角色可以从父资源组、订阅或订阅管理组继承。 检查哪些 Azure AD 用户、组和服务主体持有或正在继承资源的 IAM 所有者 角色。

  • 如果启用继承) ,还需要具有集合或父集合的 Microsoft Purview 数据源管理员 角色 (。 有关详细信息,请参阅 有关管理 Microsoft Purview 角色分配的指南

    以下屏幕截图显示了如何在根集合级别分配 数据源管理员 角色。

    显示用于在根集合级别分配数据源管理员角色的选项的屏幕截图。

配置 Microsoft Purview 权限以创建、更新或删除访问策略

若要创建、更新或删除策略,需要在 Microsoft Purview 中获取根集合级别的策略作者角色:

  • 策略作者角色可以创建、更新和删除 DevOps 和数据所有者策略。
  • 策略作者角色可以删除自助服务访问策略。

有关管理 Microsoft Purview 角色分配的详细信息,请参阅在Microsoft Purview 数据映射中创建和管理集合

注意

必须在根集合级别配置策略作者角色。

此外,若要在创建或更新策略的主题时轻松搜索 Azure AD 用户或组,可以从获取 Azure AD 中的 “目录读取者” 权限中获益匪浅。 这是 Azure 租户中的用户的常见权限。 如果没有目录读取者权限,策略作者必须键入数据策略主题中包含的所有主体的完整用户名或电子邮件。

配置 Microsoft Purview 权限以发布数据所有者策略

如果将 Microsoft Purview 策略作者数据源管理员 角色分配给组织中的不同人员,则数据所有者策略允许进行检查和平衡。 在数据所有者策略生效之前, (数据源管理员) 的第二个人必须对其进行查看并通过发布来显式批准该策略。 这不适用于 DevOps 或自助访问策略,因为创建或更新这些策略时,这些策略会自动发布。

若要发布数据所有者策略,需要获取 Microsoft Purview 中根集合级别的数据源管理员角色。

有关管理 Microsoft Purview 角色分配的详细信息,请参阅在Microsoft Purview 数据映射中创建和管理集合

注意

若要发布数据所有者策略,必须在根集合级别配置数据源管理员角色。

将访问预配责任委托给 Microsoft Purview 中的角色

为资源启用 数据使用管理后,任何在根集合级别具有 策略作者 角色的 Microsoft Purview 用户都可以从 Microsoft Purview 预配对该数据源的访问权限。

注意

任何 Microsoft Purview 根 集合管理员可以 将新用户分配到根 策略作者 角色。 任何 集合管理员可以 将新用户分配到集合下的 数据源管理员 角色。 最小化并仔细审查拥有 Microsoft Purview 集合管理员数据源管理员策略作者 角色的用户。

如果删除了具有已发布策略的 Microsoft Purview 帐户,这些策略将在依赖于特定数据源的一段时间内停止强制实施。 此更改可能会影响安全性和数据访问可用性。 IAM 中的“参与者”和“所有者”角色可以删除 Microsoft Purview 帐户。 可以通过转到 Microsoft Purview 帐户的“访问控制 (IAM) ”部分并选择“角色分配”来检查这些权限。 还可以使用锁来防止通过资源管理器锁删除 Microsoft Purview 帐户。

在 Microsoft Purview for Data Use Management 中注册数据源

必须先将 Azure 存储资源注册到 Microsoft Purview,然后才能创建访问策略。 若要注册资源,请遵循本指南的 先决条件注册 部分:

注册数据源后,需要启用数据使用管理。 在数据源上创建策略之前,这是一个先决条件。 数据使用管理可能会影响数据的安全性,因为它委托给管理对数据源的访问权限的某些 Microsoft Purview 角色。 在本指南:如何启用数据使用管理中了解与数据使用管理相关的安全做法

数据源将 “数据使用管理 ”选项设置为 “已启用”后,如下所示: 屏幕截图显示如何使用“数据使用管理集”选项为策略注册数据源

创建策略

若要为Azure Data Lake Storage Gen2创建访问策略,请按照以下指南操作:

若要创建涵盖资源组或 Azure 订阅内所有数据源的策略,可参阅 此部分

后续步骤

按照以下指南详细了解 Microsoft Purview 和数据。