在 Microsoft Purview 中连接到 Azure Data Lake Gen1

本文概述了在 Microsoft Purview 中注册 Azure Data Lake Storage Gen1 数据源的过程,包括对 Azure Data Lake Storage Gen1 源进行身份验证和交互的说明。

注意

Azure Data Lake Storage Gen2现已正式发布。 建议立即开始使用。 有关详细信息,请参阅 产品页面

支持的功能

元数据提取 完整扫描 增量扫描 作用域扫描 分类 标记 访问策略 血统 数据共享 实时视图
有限**

** 如果在数据工厂中将数据集用作源/接收器,则支持沿袭复制活动

先决条件

注册

本部分将允许注册 ADLS Gen1 数据源并设置适当的身份验证机制,以确保成功扫描数据源。

注册步骤

在设置数据源扫描之前,请务必在 Microsoft Purview 中注册数据源。

  1. 通过以下方式打开 Microsoft Purview 治理门户:

  2. 导航到 数据映射 --> 源

    显示用于打开 Microsoft Purview 治理门户的链接的屏幕截图

    导航到数据映射中的“源”链接的屏幕截图

  3. 使用“ 集合 ”菜单创建 “集合” 层次结构,并根据需要向各个子集合分配权限

    显示用于创建集合层次结构的集合菜单的屏幕截图

  4. 导航到“ ”菜单下的相应集合,然后选择“ 注册 ”图标以注册新的 ADLS Gen1 数据源

    显示用于注册数据源的集合的屏幕截图

  5. 选择 Azure Data Lake Storage Gen1 数据源,然后选择“继续

    允许选择数据源的屏幕截图

  6. 为数据源提供合适的名称,选择相关的 Azure 订阅、现有的 Data Lake Store 帐户名称和集合,然后选择“应用

    显示为了注册数据源而输入的详细信息的屏幕截图

  7. ADLS Gen1 存储帐户将显示在所选集合下

    显示映射到集合以启动扫描的数据源的屏幕截图

扫描

扫描的先决条件

若要有权扫描数据源,需要在 ADLS Gen1 存储帐户中配置身份验证方法。 支持以下选项:

注意

如果为存储帐户启用了防火墙,则必须在设置扫描时使用托管标识身份验证方法。

  • 系统分配的托管标识 (建议) - 创建 Microsoft Purview 帐户后,系统 托管标识 就会在 Azure AD 租户中自动创建。 根据资源类型,Microsoft Purview SAMI 需要特定的 RBAC 角色分配才能执行扫描。

  • 用户分配的托管标识 (预览版) - 与系统托管标识类似,用户分配的托管标识是一种凭据资源,可用于允许 Microsoft Purview 针对 Azure Active Directory 进行身份验证。 有关详细信息,请参阅 用户分配的托管标识指南

  • 服务主体 - 在此方法中,可以在 Azure Active Directory 租户中创建新的服务主体或使用现有的服务主体。

扫描身份验证

使用系统或用户分配的托管标识进行扫描

请务必向 Microsoft Purview 帐户授予扫描 ADLS Gen1 数据源的权限。 可以在订阅、资源组或资源级别添加系统托管标识或用户分配的托管标识,具体取决于你希望其具有扫描权限的内容。

注意

需要是订阅的所有者才能在 Azure 资源上添加托管标识。

  1. Azure 门户查找订阅、资源组或资源 (例如,要允许目录扫描的 Azure Data Lake Storage Gen1 存储帐户) 。

  2. 选择“ 概述 ”,然后选择“ 数据资源管理器”

    显示存储帐户的屏幕截图

  3. 在顶部导航中选择“访问”

    显示存储帐户的数据资源管理器的屏幕截图

  4. 选择“选择”,并在“选择用户或组”菜单中添加“Microsoft Purview 名称” (,即系统托管标识) 或用户分配的托管标识 (预览版) 。

  5. 选择“读取和执行权限”。 请确保在“添加选项”中选择“ 此文件夹和所有子”,并选择“访问权限条目”和“默认权限项 ”,如以下屏幕截图所示。 选择 “确定”

    显示为 Microsoft Purview 帐户分配权限的详细信息的屏幕截图

提示

访问权限项当前文件和文件夹的权限条目。 默认权限条目是将由新文件和文件夹继承的权限项。 若要仅向当前现有文件授予权限, 请选择访问权限条目。 若要授予扫描将来将添加的文件和文件夹的权限, 请包含默认权限条目

使用服务主体进行扫描

创建新的服务主体

如果需要 创建新的服务主体,则需要在 Azure AD 租户中注册应用程序,并提供对数据源中的服务主体的访问权限。 Azure AD 全局管理员或其他角色(如应用程序管理员)可以执行此操作。

获取服务主体的应用程序 ID
  1. 复制已创建的服务主体概述中存在的应用程序 (客户端) ID

    显示服务主体的应用程序 (客户端) ID 的屏幕截图

授予服务主体对 ADLS Gen1 帐户的访问权限

请务必向服务主体授予扫描 ADLS Gen2 数据源的权限。 可以根据服务主体所需的权限,在订阅、资源组或资源级别添加对服务主体的访问权限。

注意

需要是订阅的所有者才能在 Azure 资源上添加服务主体。

  1. 通过打开存储帐户并选择“概述>”--数据资源管理器,为存储帐户提供服务主体访问权限

    显示存储帐户的屏幕截图

  2. 在顶部导航中选择“访问”

    显示存储帐户的数据资源管理器的屏幕截图

  3. “选择用户或组”选择中选择“选择并添加服务主体”。

  4. 选择“读取和执行权限”。 请确保在“添加”选项中选择“ 此文件夹和所有子级”和“ 访问权限条目”和“默认权限项 ”。 选择 “确定”

    显示为服务主体分配权限的详细信息的屏幕截图

创建扫描

  1. 打开 Microsoft Purview 帐户并选择“打开 Microsoft Purview 治理门户

  2. 导航到 数据映射 --> 以查看集合层次结构

    显示集合层次结构的屏幕截图

  3. 选择之前注册的 ADLS Gen1 数据源下的“新建扫描”图标

    显示带有新扫描图标的数据源的屏幕截图

如果使用系统或用户分配的托管标识

提供扫描 的名称 ,在“ 凭据”下选择系统或用户分配的托管标识,为扫描选择适当的集合,然后选择“ 测试连接”。 成功连接后,选择“ 继续”。

显示用于运行扫描的托管标识选项的屏幕截图

如果使用服务主体

  1. 为扫描提供“名称”,为扫描选择适当的集合,然后选择“凭据”下的“+ 新建

    显示服务主体选项的屏幕截图

  2. 选择相应的 Key Vault 连接以及创建服务主体时使用的机密名称服务主体 ID 是如前所述复制的应用程序 (客户端) ID

    显示服务主体密钥保管库选项的屏幕截图

  3. 选择“ 测试连接”。 成功连接后,选择“继续

    显示服务主体的测试连接的屏幕截图

确定扫描范围并运行扫描

  1. 可以通过在列表中选择相应的项目,将扫描范围限定为特定的文件夹和子文件夹。

    确定扫描范围

  2. 然后选择扫描规则集。 可以在系统默认规则集和现有自定义规则集之间进行选择,也可以内联创建新的规则集。

    扫描规则集

  3. 如果创建新的 扫描规则集,请选择要包含在扫描规则中的 文件类型

    扫描规则集文件类型

  4. 可以选择要包含在扫描 规则中的分类 规则

    扫描规则集分类规则

    扫描规则集选择

  5. 选择扫描触发器。 可以设置计划或运行扫描一次。

    扫描触发器

    扫描触发器选择

  6. 查看扫描并选择“ 保存并运行”。

    审阅扫描

查看扫描

  1. 导航到集合中的数据源,然后选择“查看详细信息”以检查扫描状态

    查看扫描

  2. 扫描详细信息指示上次运行状态中的扫描进度,以及扫描分类的资产数

    查看扫描详细信息

  3. “上次运行”状态将更新为“正在进行”,并在整个扫描成功运行后更新为“已完成”

    查看正在进行扫描

    查看扫描已完成

管理扫描

可以管理扫描,也可以在完成后再次运行。

  1. 选择 “扫描名称 ”以管理扫描

    管理扫描

  2. 可以再次 运行扫描编辑扫描删除扫描

    管理扫描选项

    注意

    • 删除扫描不会删除从以前的扫描创建的目录资产。
    • 如果源表已更改,并且你在 Microsoft Purview 的架构选项卡中编辑说明后重新扫描源表,则资产将不再使用架构更改进行更新。
  3. 可以再次 运行增量扫描完全扫描

    管理完整扫描或增量扫描

    管理扫描结果

后续步骤

注册源后,请按照以下指南详细了解 Microsoft Purview 和数据。