连接到 Microsoft Purview 中的 Azure Blob 存储
本文概述了在 Microsoft Purview 中注册和管理Azure Blob 存储帐户的过程,包括对Azure Blob 存储源进行身份验证和交互的说明
支持的功能
元数据提取 | 完整扫描 | 增量扫描 | 作用域扫描 | 分类 | 标记 | 访问策略 | 血统 | 数据共享 | 实时视图 |
---|---|---|---|---|---|---|---|---|---|
是 | 是 | 是 | 是 | 是 | 是 | 是 (预览版) | 有限** | 是 | 是 |
** 如果在数据工厂中将数据集用作源/接收器,则支持沿袭复制活动
对于 csv、tsv、psv、ssv 等文件类型,在以下逻辑到位时将提取架构:
- 第一行值非空
- 第一行值是唯一的
- 第一行值不是日期或数字
先决条件
具有活动订阅的 Azure 帐户。 免费创建帐户。
有效的 Microsoft Purview 帐户。
你需要是数据源管理员和数据读取者,才能在 Microsoft Purview 治理门户中注册和管理源。 有关详细信息,请参阅 Microsoft Purview 权限页 。
** 如果在数据工厂中将数据集用作源/接收器,则支持沿袭复制活动
注册
本部分将允许在 Purview 中注册用于扫描和数据共享的 Azure Blob 存储帐户。
注册的先决条件
- 你需要是数据源管理员和其他 Purview 角色之一, (例如数据读取者或Data Share参与者) ,才能在 Microsoft Purview 治理门户中注册和管理源。 有关详细信息,请参阅 Microsoft Purview 权限页 。
注册步骤
在设置数据源扫描之前,请务必在 Microsoft Purview 中注册数据源。
通过以下方式转到 Microsoft Purview 治理门户:
- 直接浏览并选择 https://web.purview.azure.com Microsoft Purview 帐户。
- 打开Azure 门户,搜索并选择 Microsoft Purview 帐户。 选择 “Microsoft Purview 治理门户 ”按钮。
导航到 数据映射 --> 源
使用“ 集合 ”菜单创建 “集合” 层次结构,并根据需要向各个子集合分配权限
导航到“ 源 ”菜单下的相应集合,然后选择“ 注册 ”图标以注册新的 Azure Blob 数据源
选择Azure Blob 存储数据源,然后选择“继续”
为数据源提供合适的名称,选择相关的 Azure 订阅、现有Azure Blob 存储帐户名称和集合,然后选择“应用”。 将 “数据使用管理 ”开关保留为 禁用 位置,直到你有机会仔细阅读此 文档。
Azure Blob 存储帐户将显示在所选集合下
扫描
对于 csv、tsv、psv、ssv 等文件类型,在以下逻辑到位时将提取架构:
- 第一行值非空
- 第一行值是唯一的
- 第一行值不是日期或数字
扫描身份验证
Azure 网络可能允许 Azure 资源之间的通信,但如果已在 Azure 中设置了防火墙、专用终结点或虚拟网络,则需要遵循以下配置之一。
网络约束 | 集成运行时类型 | 可用凭据类型 |
---|---|---|
无专用终结点或防火墙 | Azure IR | 托管标识 (建议的) 、服务主体或帐户密钥 |
已启用防火墙,但没有专用终结点 | Azure IR | 托管标识 |
已启用专用终结点 | *自承载 IR | 服务主体、帐户密钥 |
*若要使用自承载集成运行时,首先需要 创建一个 并确认 Microsoft Purview 的网络设置
使用系统或用户分配的托管标识进行扫描
可以使用两种类型的托管标识:
系统分配的托管标识 (推荐) - 创建 Microsoft Purview 帐户后,系统分配的托管标识 (SAMI) 会在 Azure AD 租户中自动创建。 根据资源类型,Microsoft Purview 系统分配的托管标识 (SAMI) 需要特定的 RBAC 角色分配才能执行扫描。
用户分配的托管标识 (预览版) - 与系统托管标识类似,用户分配的托管标识 (UAMI) 是一种凭据资源,可用于允许 Microsoft Purview 对 Azure Active Directory 进行身份验证。 有关详细信息,请参阅 我们的用户分配托管标识指南。 请务必向 Microsoft Purview 帐户授予扫描 Azure Blob 数据源的权限。 可以根据所需的级别扫描权限,在订阅、资源组或资源级别添加对 SAMI 或 UAMI 的访问权限。
注意
如果为存储帐户启用了防火墙,则必须在设置扫描时使用 托管标识 身份验证方法。
注意
需要是订阅的所有者才能在 Azure 资源上添加托管标识。
从Azure 门户查找订阅、资源组或资源 (例如,要允许目录扫描的 Azure Blob 存储帐户) 。
在左侧导航栏中选择“访问控制 (IAM) ”,然后选择“+ 添加”->“添加角色分配”
将“角色”设置为“存储 Blob 数据读取者”,并在“选择输入”框下输入 Microsoft Purview 帐户名称或用户分配的托管标识。 然后,选择“ 保存 ”,将此角色分配给 Microsoft Purview 帐户。
在 Azure 门户 中转到 Azure Blob 存储帐户
导航到 “安全性 + 网络 > 网络”
在“允许从中访问”下选择“所选网络”
在 “例外” 部分中,选择“ 允许受信任的 Microsoft 服务访问此存储帐户 ”,然后单击“ 保存”
注意
有关详细信息,请参阅使用 Azure Active Directory 授权访问 Blob 和队列中的步骤
使用帐户密钥进行扫描
选择的身份验证方法是 “帐户密钥”时,需要获取访问密钥并将其存储在密钥保管库中:
导航到 Azure Blob 存储帐户
选择 “安全性 + 网络 > 访问密钥”
复制 密钥 并单独保存,以便执行后续步骤
导航到密钥保管库
选择“设置>机密”,然后选择“+ 生成/导入”
输入“名称”和“值”作为存储帐户中的密钥
选择“ 创建” 以完成
如果密钥保管库尚未连接到 Microsoft Purview,则需要 创建新的密钥保管库连接
最后,使用密钥 创建新凭据 以设置扫描
使用服务主体进行扫描
创建新的服务主体
如果需要 创建新的服务主体,则需要在 Azure AD 租户中注册应用程序,并提供对数据源中的服务主体的访问权限。 Azure AD 全局管理员或其他角色(如应用程序管理员)可以执行此操作。
获取服务主体的应用程序 ID
复制已创建的服务主体概述中存在的应用程序 (客户端) ID
授予服务主体对 Azure Blob 帐户的访问权限
请务必向服务主体授予扫描 Azure Blob 数据源的权限。 可以在订阅、资源组或资源级别添加对服务主体的访问权限,具体取决于所需的扫描访问权限级别。
注意
需要是订阅的所有者才能在 Azure 资源上添加服务主体。
从Azure 门户查找订阅、资源组或资源 (例如,要允许目录扫描的Azure Blob 存储存储帐户) 。
在左侧导航栏中选择“访问控制 (IAM) ”,然后选择“+ 添加”->“添加角色分配”
将“角色”设置为“存储 Blob 数据读取者”,并在“选择输入”框下输入服务主体。 然后,选择“ 保存 ”,将此角色分配给 Microsoft Purview 帐户。
创建扫描
打开 Microsoft Purview 帐户并选择“打开 Microsoft Purview 治理门户”
导航到 数据映射 -->源 以查看集合层次结构
选择之前注册的 Azure Blob 数据源下的“新建扫描”图标
如果使用系统或用户分配的托管标识
提供扫描 名称 ,在“ 凭据”下选择“Microsoft Purview 帐户 SAMI”或“UAMI”,为扫描选择适当的集合,然后选择“ 测试连接”。 成功连接后,选择“继续”
如果使用帐户密钥
提供扫描名称,根据配置选择 Azure IR 或 Self-Hosted IR,为扫描选择适当的集合,然后选择“身份验证方法”作为“帐户密钥”,然后选择“创建”
如果使用服务主体
提供扫描名称,根据配置选择 Azure IR 或 Self-Hosted IR,为扫描选择适当的集合,然后在“凭据”下选择“+ 新建”
选择相应的 Key Vault 连接以及创建服务主体时使用的机密名称。 服务主体 ID 是前面复制的应用程序 (客户端) ID
选择“ 测试连接”。 成功连接后,选择“继续”
确定扫描范围并运行扫描
可以通过在列表中选择相应的项目,将扫描范围限定为特定的文件夹和子文件夹。
然后选择扫描规则集。 可以在系统默认规则集和现有自定义规则集之间进行选择,也可以内联创建新的规则集。
如果创建新的 扫描规则集,请选择要包含在扫描规则中的 文件类型 。
可以选择要包含在扫描 规则中的分类 规则
选择扫描触发器。 可以设置计划或运行扫描一次。
查看扫描并选择“ 保存并运行”。
查看扫描
导航到集合中的数据源,然后选择“查看详细信息”以检查扫描状态
扫描详细信息指示上次运行状态中的扫描进度,以及扫描和分类的资产数
“上次运行”状态将更新为“正在进行”,并在整个扫描成功运行后更新为“已完成”
管理扫描
可以管理扫描,也可以在完成后再次运行
选择 “扫描名称 ”以管理扫描
可以再次 运行扫描 , 编辑扫描, 删除扫描
可以再次 运行增量扫描 或 完全扫描 。
数据共享
Microsoft Purview 数据共享 (预览) 允许就地将数据从 Azure Blob 存储帐户共享到 Azure Blob 存储帐户。 本部分详细介绍了在 Azure Blob 存储帐户之间就地共享和接收数据的具体要求。 有关如何使用 数据共享 的分步指南,请参阅如何共享数据和 如何接收 共享。
支持就地数据共享的存储帐户
就地数据共享支持以下存储帐户:
- 区域:加拿大中部、加拿大东部、英国南部、英国西部、澳大利亚东部、日本东部、韩国南部和南非北部
- 冗余选项:LRS、GRS、RA-GRS
- 层:热层、冷层
仅对预览版使用没有生产工作负荷的存储帐户。
注意
源和目标存储帐户必须彼此位于同一区域。 它们不需要与 Microsoft Purview 帐户位于同一区域。
共享数据所需的存储帐户权限
若要向共享添加或更新存储帐户资产,需要以下权限之一:
- Microsoft.Authorization/roleAssignments/write - 此权限在 所有者 角色中可用。
- Microsoft.Storage/storageAccounts/blobServices/containers/blobs/modifyPermissions/ - 此权限在 Blob 存储数据所有者 角色中可用。
接收共享数据所需的存储帐户权限
若要映射收到的共享中的存储帐户资产,需要以下权限之一:
- Microsoft.Storage/storageAccounts/write - 此权限在 “参与者 ”和“ 所有者” 角色中可用。
- Microsoft.Storage/storageAccounts/blobServices/containers/write - 此权限在“参与者”、“所有者”、“存储 Blob 数据参与者”和“存储 Blob 数据所有者”角色中可用。
更新源存储帐户中的共享数据
对源存储帐户中共享文件夹中的共享文件或数据的汇报将准实时提供给目标存储帐户中的收件人。 删除共享文件夹中的子文件夹或文件时,它们将消失给收件人。 若要删除共享文件夹、文件或父文件夹或容器,需要首先从源存储帐户撤销对所有共享的访问权限。
访问目标存储帐户中的共享数据
目标存储帐户使收件人能够近乎实时地以只读的方式访问共享数据。 可以将 Synapse Workspace 和 Databricks 等分析工具连接到共享数据以执行分析。 访问共享数据的费用将计入目标存储帐户。
服务限制
源存储帐户最多可支持 20 个目标,目标存储帐户最多可支持 100 个源。 如果需要增加限制,请联系支持人员。
访问策略
Microsoft Purview 的此数据资源支持以下类型的策略:
Azure 存储帐户上的访问策略先决条件
区域支持
- 支持所有 Microsoft Purview 区域 。
- 支持以下区域中的存储帐户,无需进行其他配置。 但是,不支持区域冗余存储 (ZRS) 帐户。
- 美国东部
- 美国东部 2
- 美国中南部
- 美国西部 2
- 加拿大中部
- 北欧
- 西欧
- 法国中部
- 英国南部
- 东南亚
- 澳大利亚东部
- 设置 功能标志 AllowPurviewPolicyEnforcement 后,支持公有云中其他区域中的存储帐户,如下一部分所述。 如果在设置 功能标志 AllowPurviewPolicyEnforcement 后创建,则支持新创建的 ZRS 存储帐户。
如果需要,可以 按照本指南操作创建新的存储帐户。
为 Microsoft Purview 中的策略配置 Azure 存储帐户所在的订阅
仅在某些区域需要此步骤, (请参阅上一部分) 。 若要使 Microsoft Purview 能够管理一个或多个 Azure 存储帐户的策略,请在要在其中部署 Azure 存储帐户的订阅中执行以下 PowerShell 命令。 这些 PowerShell 命令将使 Microsoft Purview 能够管理该订阅中所有 Azure 存储帐户的策略。
如果要在本地执行这些命令,请确保以管理员身份运行 PowerShell。 或者,可以在 Azure 门户 中使用 Azure Cloud Shell:https://shell.azure.com。
# Install the Az module
Install-Module -Name Az -Scope CurrentUser -Repository PSGallery -Force
# Login into the subscription
Connect-AzAccount -Subscription <SubscriptionID>
# Register the feature
Register-AzProviderFeature -FeatureName AllowPurviewPolicyEnforcement -ProviderNamespace Microsoft.Storage
如果最后一个命令的输出将 RegistrationState 显示为 Registered,则你的订阅将启用访问策略。 如果输出为 Registering,请等待至少 10 分钟,然后重试该命令。 除非 RegistrationState 显示为 Registered,否则请勿继续。
为策略配置 Microsoft Purview 帐户
在 Microsoft Purview 中注册数据源
在 Microsoft Purview 中为数据资源创建策略之前,必须在 Microsoft Purview Studio 中注册该数据资源。 本指南稍后会介绍与注册数据资源相关的说明。
注意
Microsoft Purview 策略依赖于数据资源 ARM 路径。 如果数据资源移动到新的资源组或订阅,则需要取消注册,然后在 Microsoft Purview 中再次注册。
配置权限以在数据源上启用数据使用管理
注册资源后,但在 Microsoft Purview 中为该资源创建策略之前,必须配置权限。 需要一组权限才能启用 数据使用管理。 这适用于数据源、资源组或订阅。 若要启用 数据使用管理,必须 对 资源具有特定的标识和访问管理 (IAM) 特权,以及特定的 Microsoft Purview 特权:
必须在资源的 Azure 资源管理器 路径上使用以下 IAM 角色组合之一,或者 (的任何父角色组合之一,即使用 IAM 权限继承) :
- IAM 所有者
- IAM 参与者和 IAM 用户访问管理员
若要配置 Azure 基于角色的访问控制 (RBAC) 权限,请按照 本指南操作。 以下屏幕截图显示了如何访问数据资源Azure 门户中的“访问控制”部分以添加角色分配。
注意
数据资源的 IAM 所有者 角色可以从父资源组、订阅或订阅管理组继承。 检查哪些 Azure AD 用户、组和服务主体持有或正在继承资源的 IAM 所有者 角色。
如果启用继承) ,还需要具有集合或父集合的 Microsoft Purview 数据源管理员 角色 (。 有关详细信息,请参阅 有关管理 Microsoft Purview 角色分配的指南。
以下屏幕截图显示了如何在根集合级别分配 数据源管理员 角色。
配置 Microsoft Purview 权限以创建、更新或删除访问策略
若要创建、更新或删除策略,需要在 Microsoft Purview 中获取根集合级别的策略作者角色:
- 策略作者角色可以创建、更新和删除 DevOps 和数据所有者策略。
- 策略作者角色可以删除自助服务访问策略。
有关管理 Microsoft Purview 角色分配的详细信息,请参阅在Microsoft Purview 数据映射中创建和管理集合。
注意
必须在根集合级别配置策略作者角色。
此外,若要在创建或更新策略的主题时轻松搜索 Azure AD 用户或组,可以从获取 Azure AD 中的 “目录读取者” 权限中获益匪浅。 这是 Azure 租户中的用户的常见权限。 如果没有目录读取者权限,策略作者必须键入数据策略主题中包含的所有主体的完整用户名或电子邮件。
配置 Microsoft Purview 权限以发布数据所有者策略
如果将 Microsoft Purview 策略作者 和 数据源管理员 角色分配给组织中的不同人员,则数据所有者策略允许进行检查和平衡。 在数据所有者策略生效之前, (数据源管理员) 的第二个人必须对其进行查看并通过发布来显式批准该策略。 这不适用于 DevOps 或自助访问策略,因为创建或更新这些策略时,这些策略会自动发布。
若要发布数据所有者策略,需要获取 Microsoft Purview 中根集合级别的数据源管理员角色。
有关管理 Microsoft Purview 角色分配的详细信息,请参阅在Microsoft Purview 数据映射中创建和管理集合。
注意
若要发布数据所有者策略,必须在根集合级别配置数据源管理员角色。
将访问预配责任委托给 Microsoft Purview 中的角色
为资源启用 数据使用管理后,任何在根集合级别具有 策略作者 角色的 Microsoft Purview 用户都可以从 Microsoft Purview 预配对该数据源的访问权限。
注意
任何 Microsoft Purview 根 集合管理员可以 将新用户分配到根 策略作者 角色。 任何 集合管理员可以 将新用户分配到集合下的 数据源管理员 角色。 最小化并仔细审查拥有 Microsoft Purview 集合管理员、 数据源管理员或 策略作者 角色的用户。
如果删除了具有已发布策略的 Microsoft Purview 帐户,这些策略将在依赖于特定数据源的一段时间内停止强制实施。 此更改可能会影响安全性和数据访问可用性。 IAM 中的“参与者”和“所有者”角色可以删除 Microsoft Purview 帐户。 可以通过转到 Microsoft Purview 帐户的“访问控制 (IAM) ”部分并选择“角色分配”来检查这些权限。 还可以使用锁来防止通过资源管理器锁删除 Microsoft Purview 帐户。
在 Microsoft Purview for Data Use Management 中注册数据源
必须先将 Azure 存储资源注册到 Microsoft Purview,然后才能创建访问策略。 若要注册资源,请遵循本指南的 先决条件 和 注册 部分:
注册数据源后,需要启用数据使用管理。 在数据源上创建策略之前,这是一个先决条件。 数据使用管理可能会影响数据的安全性,因为它委托给管理对数据源的访问权限的某些 Microsoft Purview 角色。 在本指南:如何启用数据使用管理中了解与数据使用管理相关的安全做法
数据源将 “数据使用管理 ”选项设置为 “已启用”后,如下所示:
创建策略
若要为Azure Blob 存储创建访问策略,请遵循以下指南:在单个存储帐户上预配读取/修改访问权限。
若要创建涵盖资源组或 Azure 订阅内所有数据源的策略,可参阅 此部分。
后续步骤
按照以下指南详细了解 Microsoft Purview 和数据。