连接到 Microsoft Purview 中的 Azure Blob 存储

本文概述了在 Microsoft Purview 中注册和管理Azure Blob 存储帐户的过程,包括对Azure Blob 存储源进行身份验证和交互的说明

支持的功能

元数据提取 完整扫描 增量扫描 作用域扫描 分类 标记 访问策略 血统 数据共享 实时视图
是 (预览版) 有限**

** 如果在数据工厂中将数据集用作源/接收器,则支持沿袭复制活动

对于 csv、tsv、psv、ssv 等文件类型,在以下逻辑到位时将提取架构:

  • 第一行值非空
  • 第一行值是唯一的
  • 第一行值不是日期或数字

先决条件

** 如果在数据工厂中将数据集用作源/接收器,则支持沿袭复制活动

注册

本部分将允许在 Purview 中注册用于扫描和数据共享的 Azure Blob 存储帐户。

注册的先决条件

  • 你需要是数据源管理员和其他 Purview 角色之一, (例如数据读取者或Data Share参与者) ,才能在 Microsoft Purview 治理门户中注册和管理源。 有关详细信息,请参阅 Microsoft Purview 权限页

注册步骤

在设置数据源扫描之前,请务必在 Microsoft Purview 中注册数据源。

  1. 通过以下方式转到 Microsoft Purview 治理门户:

  2. 导航到 数据映射 --> 源

    显示用于打开 Microsoft Purview 治理门户的链接的屏幕截图

    导航到数据映射中的“源”链接的屏幕截图

  3. 使用“ 集合 ”菜单创建 “集合” 层次结构,并根据需要向各个子集合分配权限

    显示用于创建集合层次结构的集合菜单的屏幕截图

  4. 导航到“ ”菜单下的相应集合,然后选择“ 注册 ”图标以注册新的 Azure Blob 数据源

    显示用于注册数据源的集合的屏幕截图

  5. 选择Azure Blob 存储数据源,然后选择“继续

    允许选择数据源的屏幕截图

  6. 为数据源提供合适的名称,选择相关的 Azure 订阅、现有Azure Blob 存储帐户名称和集合,然后选择“应用”。 将 “数据使用管理 ”开关保留为 禁用 位置,直到你有机会仔细阅读此 文档

    显示为了注册数据源而输入的详细信息的屏幕截图

  7. Azure Blob 存储帐户将显示在所选集合下

    显示映射到集合以启动扫描的数据源的屏幕截图

扫描

对于 csv、tsv、psv、ssv 等文件类型,在以下逻辑到位时将提取架构:

  • 第一行值非空
  • 第一行值是唯一的
  • 第一行值不是日期或数字

扫描身份验证

Azure 网络可能允许 Azure 资源之间的通信,但如果已在 Azure 中设置了防火墙、专用终结点或虚拟网络,则需要遵循以下配置之一。

网络约束 集成运行时类型 可用凭据类型
无专用终结点或防火墙 Azure IR 托管标识 (建议的) 、服务主体或帐户密钥
已启用防火墙,但没有专用终结点 Azure IR 托管标识
已启用专用终结点 *自承载 IR 服务主体、帐户密钥

*若要使用自承载集成运行时,首先需要 创建一个 并确认 Microsoft Purview 的网络设置

使用系统或用户分配的托管标识进行扫描

可以使用两种类型的托管标识:

  • 系统分配的托管标识 (推荐) - 创建 Microsoft Purview 帐户后,系统分配的托管标识 (SAMI) 会在 Azure AD 租户中自动创建。 根据资源类型,Microsoft Purview 系统分配的托管标识 (SAMI) 需要特定的 RBAC 角色分配才能执行扫描。

  • 用户分配的托管标识 (预览版) - 与系统托管标识类似,用户分配的托管标识 (UAMI) 是一种凭据资源,可用于允许 Microsoft Purview 对 Azure Active Directory 进行身份验证。 有关详细信息,请参阅 我们的用户分配托管标识指南。 请务必向 Microsoft Purview 帐户授予扫描 Azure Blob 数据源的权限。 可以根据所需的级别扫描权限,在订阅、资源组或资源级别添加对 SAMI 或 UAMI 的访问权限。

注意

如果为存储帐户启用了防火墙,则必须在设置扫描时使用 托管标识 身份验证方法。

注意

需要是订阅的所有者才能在 Azure 资源上添加托管标识。

  1. Azure 门户查找订阅、资源组或资源 (例如,要允许目录扫描的 Azure Blob 存储帐户) 。

    显示存储帐户的屏幕截图

  2. 在左侧导航栏中选择“访问控制 (IAM) ”,然后选择“+ 添加”->“添加角色分配

    显示存储帐户的访问控制的屏幕截图

  3. “角色”设置为“存储 Blob 数据读取者”,并在“选择输入”框下输入 Microsoft Purview 帐户名称用户分配的托管标识。 然后,选择“ 保存 ”,将此角色分配给 Microsoft Purview 帐户。

    显示为 Microsoft Purview 帐户分配权限的详细信息的屏幕截图

  4. Azure 门户 中转到 Azure Blob 存储帐户

  5. 导航到 “安全性 + 网络 > 网络”

  6. “允许从中访问”下选择“所选网络

  7. “例外” 部分中,选择“ 允许受信任的 Microsoft 服务访问此存储帐户 ”,然后单击“ 保存”

    显示允许受信任的 Microsoft 服务访问存储帐户的异常的屏幕截图

注意

有关详细信息,请参阅使用 Azure Active Directory 授权访问 Blob 和队列中的步骤

使用帐户密钥进行扫描

选择的身份验证方法是 “帐户密钥”时,需要获取访问密钥并将其存储在密钥保管库中:

  1. 导航到 Azure Blob 存储帐户

  2. 选择 “安全性 + 网络 > 访问密钥”

    显示存储帐户中的访问密钥的屏幕截图

  3. 复制 密钥 并单独保存,以便执行后续步骤

    显示要复制的访问密钥的屏幕截图

  4. 导航到密钥保管库

    显示密钥保管库的屏幕截图

  5. 选择“设置>机密”,然后选择“+ 生成/导入

    显示用于生成机密的密钥保管库选项的屏幕截图

  6. 输入“名称”“值”作为存储帐户中的密钥

    显示用于输入机密值的密钥保管库选项的屏幕截图

  7. 选择“ 创建” 以完成

  8. 如果密钥保管库尚未连接到 Microsoft Purview,则需要 创建新的密钥保管库连接

  9. 最后,使用密钥 创建新凭据 以设置扫描

使用服务主体进行扫描

创建新的服务主体

如果需要 创建新的服务主体,则需要在 Azure AD 租户中注册应用程序,并提供对数据源中的服务主体的访问权限。 Azure AD 全局管理员或其他角色(如应用程序管理员)可以执行此操作。

获取服务主体的应用程序 ID
  1. 复制已创建的服务主体概述中存在的应用程序 (客户端) ID

    显示服务主体的应用程序 (客户端) ID 的屏幕截图

授予服务主体对 Azure Blob 帐户的访问权限

请务必向服务主体授予扫描 Azure Blob 数据源的权限。 可以在订阅、资源组或资源级别添加对服务主体的访问权限,具体取决于所需的扫描访问权限级别。

注意

需要是订阅的所有者才能在 Azure 资源上添加服务主体。

  1. Azure 门户查找订阅、资源组或资源 (例如,要允许目录扫描的Azure Blob 存储存储帐户) 。

    显示存储帐户的屏幕截图

  2. 在左侧导航栏中选择“访问控制 (IAM) ”,然后选择“+ 添加”->“添加角色分配

    显示存储帐户的访问控制的屏幕截图

  3. “角色”设置为“存储 Blob 数据读取者”,并在“选择输入”框下输入服务主体。 然后,选择“ 保存 ”,将此角色分配给 Microsoft Purview 帐户。

    显示向服务主体提供存储帐户权限的详细信息的屏幕截图

创建扫描

  1. 打开 Microsoft Purview 帐户并选择“打开 Microsoft Purview 治理门户

  2. 导航到 数据映射 --> 以查看集合层次结构

  3. 选择之前注册的 Azure Blob 数据源下的“新建扫描”图标

    显示创建新扫描的屏幕的屏幕截图

如果使用系统或用户分配的托管标识

提供扫描 名称 ,在“ 凭据”下选择“Microsoft Purview 帐户 SAMI”或“UAMI”,为扫描选择适当的集合,然后选择“ 测试连接”。 成功连接后,选择“继续

显示用于运行扫描的托管标识选项的屏幕截图

如果使用帐户密钥

提供扫描名称,根据配置选择 Azure IR 或 Self-Hosted IR,为扫描选择适当的集合,然后选择“身份验证方法”作为“帐户密钥”,然后选择“创建

显示用于扫描的“帐户密钥”选项的屏幕截图

如果使用服务主体

  1. 提供扫描名称,根据配置选择 Azure IR 或 Self-Hosted IR,为扫描选择适当的集合,然后在“凭据”下选择“+ 新建

    显示服务主体启用扫描选项的屏幕截图

  2. 选择相应的 Key Vault 连接以及创建服务主体时使用的机密名称服务主体 ID 是前面复制的应用程序 (客户端) ID

    显示服务主体选项的屏幕截图

  3. 选择“ 测试连接”。 成功连接后,选择“继续

确定扫描范围并运行扫描

  1. 可以通过在列表中选择相应的项目,将扫描范围限定为特定的文件夹和子文件夹。

    确定扫描范围

  2. 然后选择扫描规则集。 可以在系统默认规则集和现有自定义规则集之间进行选择,也可以内联创建新的规则集。

    扫描规则集

  3. 如果创建新的 扫描规则集,请选择要包含在扫描规则中的 文件类型

    扫描规则集文件类型

  4. 可以选择要包含在扫描 规则中的分类 规则

    扫描规则集分类规则

    扫描规则集选择

  5. 选择扫描触发器。 可以设置计划或运行扫描一次。

    扫描触发器

  6. 查看扫描并选择“ 保存并运行”。

    审阅扫描

查看扫描

  1. 导航到集合中的数据源,然后选择“查看详细信息”以检查扫描状态

    查看扫描

  2. 扫描详细信息指示上次运行状态中的扫描进度,以及扫描分类的资产数

    查看扫描详细信息

  3. “上次运行”状态将更新为“正在进行”,并在整个扫描成功运行后更新为“已完成”

    查看正在进行扫描

    查看扫描已完成

管理扫描

可以管理扫描,也可以在完成后再次运行

  1. 选择 “扫描名称 ”以管理扫描

    管理扫描

  2. 可以再次 运行扫描编辑扫描删除扫描

    管理扫描选项

  3. 可以再次 运行增量扫描完全扫描

    完整或增量扫描

数据共享

Microsoft Purview 数据共享 (预览) 允许就地将数据从 Azure Blob 存储帐户共享到 Azure Blob 存储帐户。 本部分详细介绍了在 Azure Blob 存储帐户之间就地共享和接收数据的具体要求。 有关如何使用 数据共享 的分步指南,请参阅如何共享数据和 如何接收 共享。

支持就地数据共享的存储帐户

就地数据共享支持以下存储帐户:

  • 区域:加拿大中部、加拿大东部、英国南部、英国西部、澳大利亚东部、日本东部、韩国南部和南非北部
  • 冗余选项:LRS、GRS、RA-GRS
  • 层:热层、冷层

仅对预览版使用没有生产工作负荷的存储帐户。

注意

源和目标存储帐户必须彼此位于同一区域。 它们不需要与 Microsoft Purview 帐户位于同一区域。

共享数据所需的存储帐户权限

若要向共享添加或更新存储帐户资产,需要以下权限之一:

  • Microsoft.Authorization/roleAssignments/write - 此权限在 所有者 角色中可用。
  • Microsoft.Storage/storageAccounts/blobServices/containers/blobs/modifyPermissions/ - 此权限在 Blob 存储数据所有者 角色中可用。

接收共享数据所需的存储帐户权限

若要映射收到的共享中的存储帐户资产,需要以下权限之一:

  • Microsoft.Storage/storageAccounts/write - 此权限在 “参与者 ”和“ 所有者” 角色中可用。
  • Microsoft.Storage/storageAccounts/blobServices/containers/write - 此权限在“参与者”、“所有者”、“存储 Blob 数据参与者”和“存储 Blob 数据所有者”角色中可用。

更新源存储帐户中的共享数据

对源存储帐户中共享文件夹中的共享文件或数据的汇报将准实时提供给目标存储帐户中的收件人。 删除共享文件夹中的子文件夹或文件时,它们将消失给收件人。 若要删除共享文件夹、文件或父文件夹或容器,需要首先从源存储帐户撤销对所有共享的访问权限。

访问目标存储帐户中的共享数据

目标存储帐户使收件人能够近乎实时地以只读的方式访问共享数据。 可以将 Synapse Workspace 和 Databricks 等分析工具连接到共享数据以执行分析。 访问共享数据的费用将计入目标存储帐户。

服务限制

源存储帐户最多可支持 20 个目标,目标存储帐户最多可支持 100 个源。 如果需要增加限制,请联系支持人员。

访问策略

Microsoft Purview 的此数据资源支持以下类型的策略:

Azure 存储帐户上的访问策略先决条件

区域支持

  • 支持所有 Microsoft Purview 区域
  • 支持以下区域中的存储帐户,无需进行其他配置。 但是,不支持区域冗余存储 (ZRS) 帐户。
    • 美国东部
    • 美国东部 2
    • 美国中南部
    • 美国西部 2
    • 加拿大中部
    • 北欧
    • 西欧
    • 法国中部
    • 英国南部
    • 东南亚
    • 澳大利亚东部
  • 设置 功能标志 AllowPurviewPolicyEnforcement 后,支持公有云中其他区域中的存储帐户,如下一部分所述。 如果在设置 功能标志 AllowPurviewPolicyEnforcement 后创建,则支持新创建的 ZRS 存储帐户。

如果需要,可以 按照本指南操作创建新的存储帐户。

为 Microsoft Purview 中的策略配置 Azure 存储帐户所在的订阅

仅在某些区域需要此步骤, (请参阅上一部分) 。 若要使 Microsoft Purview 能够管理一个或多个 Azure 存储帐户的策略,请在要在其中部署 Azure 存储帐户的订阅中执行以下 PowerShell 命令。 这些 PowerShell 命令将使 Microsoft Purview 能够管理该订阅中所有 Azure 存储帐户的策略。

如果要在本地执行这些命令,请确保以管理员身份运行 PowerShell。 或者,可以在 Azure 门户 中使用 Azure Cloud Shell:https://shell.azure.com

# Install the Az module
Install-Module -Name Az -Scope CurrentUser -Repository PSGallery -Force
# Login into the subscription
Connect-AzAccount -Subscription <SubscriptionID>
# Register the feature
Register-AzProviderFeature -FeatureName AllowPurviewPolicyEnforcement -ProviderNamespace Microsoft.Storage

如果最后一个命令的输出将 RegistrationState 显示为 Registered,则你的订阅将启用访问策略。 如果输出为 Registering,请等待至少 10 分钟,然后重试该命令。 除非 RegistrationState 显示为 Registered,否则请勿继续

为策略配置 Microsoft Purview 帐户

在 Microsoft Purview 中注册数据源

在 Microsoft Purview 中为数据资源创建策略之前,必须在 Microsoft Purview Studio 中注册该数据资源。 本指南稍后会介绍与注册数据资源相关的说明。

注意

Microsoft Purview 策略依赖于数据资源 ARM 路径。 如果数据资源移动到新的资源组或订阅,则需要取消注册,然后在 Microsoft Purview 中再次注册。

配置权限以在数据源上启用数据使用管理

注册资源后,但在 Microsoft Purview 中为该资源创建策略之前,必须配置权限。 需要一组权限才能启用 数据使用管理。 这适用于数据源、资源组或订阅。 若要启用 数据使用管理,必须 资源具有特定的标识和访问管理 (IAM) 特权,以及特定的 Microsoft Purview 特权:

  • 必须在资源的 Azure 资源管理器 路径上使用以下 IAM 角色组合之一,或者 (的任何父角色组合之一,即使用 IAM 权限继承) :

    • IAM 所有者
    • IAM 参与者和 IAM 用户访问管理员

    若要配置 Azure 基于角色的访问控制 (RBAC) 权限,请按照 本指南操作。 以下屏幕截图显示了如何访问数据资源Azure 门户中的“访问控制”部分以添加角色分配。

    显示Azure 门户中用于添加角色分配的部分的屏幕截图。

    注意

    数据资源的 IAM 所有者 角色可以从父资源组、订阅或订阅管理组继承。 检查哪些 Azure AD 用户、组和服务主体持有或正在继承资源的 IAM 所有者 角色。

  • 如果启用继承) ,还需要具有集合或父集合的 Microsoft Purview 数据源管理员 角色 (。 有关详细信息,请参阅 有关管理 Microsoft Purview 角色分配的指南

    以下屏幕截图显示了如何在根集合级别分配 数据源管理员 角色。

    显示用于在根集合级别分配数据源管理员角色的选项的屏幕截图。

配置 Microsoft Purview 权限以创建、更新或删除访问策略

若要创建、更新或删除策略,需要在 Microsoft Purview 中获取根集合级别的策略作者角色:

  • 策略作者角色可以创建、更新和删除 DevOps 和数据所有者策略。
  • 策略作者角色可以删除自助服务访问策略。

有关管理 Microsoft Purview 角色分配的详细信息,请参阅在Microsoft Purview 数据映射中创建和管理集合

注意

必须在根集合级别配置策略作者角色。

此外,若要在创建或更新策略的主题时轻松搜索 Azure AD 用户或组,可以从获取 Azure AD 中的 “目录读取者” 权限中获益匪浅。 这是 Azure 租户中的用户的常见权限。 如果没有目录读取者权限,策略作者必须键入数据策略主题中包含的所有主体的完整用户名或电子邮件。

配置 Microsoft Purview 权限以发布数据所有者策略

如果将 Microsoft Purview 策略作者数据源管理员 角色分配给组织中的不同人员,则数据所有者策略允许进行检查和平衡。 在数据所有者策略生效之前, (数据源管理员) 的第二个人必须对其进行查看并通过发布来显式批准该策略。 这不适用于 DevOps 或自助访问策略,因为创建或更新这些策略时,这些策略会自动发布。

若要发布数据所有者策略,需要获取 Microsoft Purview 中根集合级别的数据源管理员角色。

有关管理 Microsoft Purview 角色分配的详细信息,请参阅在Microsoft Purview 数据映射中创建和管理集合

注意

若要发布数据所有者策略,必须在根集合级别配置数据源管理员角色。

将访问预配责任委托给 Microsoft Purview 中的角色

为资源启用 数据使用管理后,任何在根集合级别具有 策略作者 角色的 Microsoft Purview 用户都可以从 Microsoft Purview 预配对该数据源的访问权限。

注意

任何 Microsoft Purview 根 集合管理员可以 将新用户分配到根 策略作者 角色。 任何 集合管理员可以 将新用户分配到集合下的 数据源管理员 角色。 最小化并仔细审查拥有 Microsoft Purview 集合管理员数据源管理员策略作者 角色的用户。

如果删除了具有已发布策略的 Microsoft Purview 帐户,这些策略将在依赖于特定数据源的一段时间内停止强制实施。 此更改可能会影响安全性和数据访问可用性。 IAM 中的“参与者”和“所有者”角色可以删除 Microsoft Purview 帐户。 可以通过转到 Microsoft Purview 帐户的“访问控制 (IAM) ”部分并选择“角色分配”来检查这些权限。 还可以使用锁来防止通过资源管理器锁删除 Microsoft Purview 帐户。

在 Microsoft Purview for Data Use Management 中注册数据源

必须先将 Azure 存储资源注册到 Microsoft Purview,然后才能创建访问策略。 若要注册资源,请遵循本指南的 先决条件注册 部分:

注册数据源后,需要启用数据使用管理。 在数据源上创建策略之前,这是一个先决条件。 数据使用管理可能会影响数据的安全性,因为它委托给管理对数据源的访问权限的某些 Microsoft Purview 角色。 在本指南:如何启用数据使用管理中了解与数据使用管理相关的安全做法

数据源将 “数据使用管理 ”选项设置为 “已启用”后,如下所示: 屏幕截图显示如何使用“数据使用管理集”选项为策略注册数据源

创建策略

若要为Azure Blob 存储创建访问策略,请遵循以下指南:在单个存储帐户上预配读取/修改访问权限

若要创建涵盖资源组或 Azure 订阅内所有数据源的策略,可参阅 此部分

后续步骤

按照以下指南详细了解 Microsoft Purview 和数据。