在 Microsoft Purview (预览版中连接到和管理 Azure Databricks Unity 目录)

本文概述了如何注册 Azure Databricks,以及如何在 Microsoft Purview 中对 Azure Databricks Unity Catalog 进行身份验证和交互。 有关 Microsoft Purview 的详细信息,请阅读 介绍性文章

重要

此功能目前处于预览阶段。 Microsoft Azure 预览版补充使用条款包括适用于 Beta 版、预览版或其他尚未正式发布的 Azure 功能的其他法律条款。

支持的功能

元数据提取 完整扫描 增量扫描 作用域扫描 分类 标记 访问策略 血统 数据共享 实时视图

扫描 Azure Databricks Unity 目录时,Microsoft Purview 支持:

  • 元存储
  • 目录
  • Schemas
  • 包含列的表
  • 包含列的视图

设置扫描时,可以选择扫描整个 Unity Catalog,或将扫描范围限定为一部分目录。

注意

此连接器从 Azure Databricks Unity Catalog 引入元数据。 若要扫描 Azure Databricks 工作区范围的元数据,请参阅 Azure Databricks Hive 元存储连接器

已知限制

  • 如果 Azure Databricks 工作区不允许从公用网络进行访问,或者 Purview 帐户未启用从所有网络进行访问,则目前不支持扫描。 我们将很快添加此支持。
  • 从数据源中删除对象时,当前后续扫描不会自动删除 Microsoft Purview 中的相应资产。

先决条件

  • 必须具有具有活动订阅的 Azure 帐户。 免费创建帐户

  • 必须具有有效的 Microsoft Purview 帐户

  • 需要 Azure 密钥保管库,并授予 Microsoft Purview 访问机密的权限

  • 需要数据源管理员和数据读取者权限才能在 Microsoft Purview 治理门户中注册和管理源。 有关权限的详细信息,请参阅 Microsoft Purview 中的访问控制

  • 若要扫描 Azure Databricks Unity 目录,Microsoft Purview 会连接到工作区中的 SQL 仓库,并使用个人访问令牌进行身份验证。 需要有一个 已启用 Unity Catalog 的 Azure Databricks 工作区,并将其附加到要扫描的元存储。 在 Azure Databricks 工作区中:

    • 生成个人访问令牌,并将其作为机密存储在 Azure 密钥保管库中。

      • 对于要引入 Microsoft Purview 的所有对象,用户至少需要对表/视图具有 SELECT 权限,对对象的 目录具有 USE CATALOG 特权,对对象的架构具有 USE SCHEMA 权限。

      • 若要扫描 Unity Catalog 元存储中的所有对象,请使用具有元存储管理员角色的用户。 有关详细信息,请参阅 管理 Unity Catalog 中的特权Unity Catalog 特权和安全对象

    • 创建 SQL 仓库。 还可以使用自动创建的初学者仓库(如果适用)。

      • 记下 HTTP 路径。 可以在 Azure Databricks 工作区 - SQL 仓库 -> 仓库 ->> 连接详细信息 -> HTTP 路径中找到它。

      • 确保用户具有 “可以使用” 权限,以便连接到 Azure Databricks SQL 仓库。 有关详细信息,请参阅 SQL 仓库访问控制

注册

本部分介绍如何使用 Microsoft Purview 治理门户在 Microsoft Purview 中注册 Azure Databricks 工作区。

  1. 转到 Microsoft Purview 帐户。

  2. 在左窗格中选择“ 数据映射 ”。

  3. 选择“注册”。

  4. “注册源”中,选择“ Azure Databricks>继续”。

  5. 在“ (Azure Databricks) 注册源 ”屏幕上,执行以下操作:

    1. 对于 “名称”,请输入 Microsoft Purview 将列为数据源的名称。

    2. 对于 Azure 订阅Databricks 工作区名称,请从下拉列表中选择要扫描的订阅和工作区。 Databricks 工作区 URL 会自动填充。

    3. 对于 “选择集合”,请从列表中选择一个集合或创建一个新集合。 此为可选步骤。

    注册 Azure Databricks 源的屏幕截图。

  6. 选择“完成”

扫描

提示

若要排查扫描的任何问题,请:

  1. 确认已遵循所有 先决条件
  2. 查看 扫描故障排除文档

使用以下步骤扫描 Azure Databricks 以自动识别资产。 有关一般扫描的详细信息,请参阅 Microsoft Purview 中的扫描和引入

  1. 转到 “源”。

  2. 选择已注册的 Azure Databricks。

  3. 选择“ + 新建扫描”。

  4. 提供以下详细信息:

    1. 名称:输入扫描的名称。

    2. 提取方法: 指示从 Hive 元存储或 Unity Catalog 中提取元数据。 选择 “Unity 目录”。

    3. 通过集成运行时进行连接:选择默认的自动解析集成运行时。

    4. 凭据:选择要连接到数据源的凭据。 请确保:

      • 创建凭据时选择“ 访问令牌身份验证 ”。
      • 在相应的框中提供在 “先决条件” 中创建的个人访问令牌的机密名称。

      有关详细信息,请参阅 Microsoft Purview 中的源身份验证凭据

    5. HTTP 路径: 指定 Microsoft Purview 将连接到的 Databricks SQL 仓库的 HTTP 路径并执行扫描,例如 /sql/1.0/endpoints/xxxxxxxxxxxxxxxx。 可以在 Azure Databricks 工作区 - SQL 仓库 -> 仓库 ->> 连接详细信息 -> HTTP 路径中找到它。

  5. 单击“ 测试连接 ”以验证设置。

    设置 Azure Databricks Unity 目录扫描的屏幕截图。

  6. 选择 继续

  7. “范围扫描 ”页中,选择要扫描的目录 () 。

    设置 Azure Databricks 扫描范围的屏幕截图。

  8. 对于 “扫描触发器”,选择是设置计划还是运行扫描一次。

  9. 查看扫描并选择“ 保存并运行”。

扫描成功完成后,请参阅如何 浏览和搜索资产

查看扫描和扫描运行

查看现有扫描:

  1. 转到 Microsoft Purview 治理门户。 在左窗格中,选择“ 数据映射”。
  2. 选择数据源。 可以在“最近扫描”下查看该数据源上的现有 扫描列表,也可以在“扫描”选项卡上查看所有 扫描
  3. 选择要查看的结果的扫描。 窗格显示之前的所有扫描运行,以及每个扫描运行的状态和指标。
  4. 选择运行 ID 以检查扫描运行详细信息

管理扫描

若要编辑、取消或删除扫描,请执行以下操作:

  1. 转到 Microsoft Purview 治理门户。 在左窗格中,选择“ 数据映射”。

  2. 选择数据源。 可以在“最近扫描”下查看该数据源上的现有 扫描列表,也可以在“扫描”选项卡上查看所有 扫描

  3. 选择要管理的扫描。 然后,可以:

    • 通过选择“编辑扫描 ”来编辑扫描
    • 选择“取消扫描运行”, 取消正在进行的扫描
    • 通过选择“删除扫描” 来删除扫描

注意

  • 删除扫描不会删除从以前的扫描创建的目录资产。
  • 如果源表已更改,并且你在 Microsoft Purview 的“ 架构 ”选项卡上编辑说明后重新扫描源表,则资产将不再使用架构更改进行更新。

浏览和搜索资产

扫描 Azure Databricks 后,可以 浏览数据目录搜索数据目录 以查看资产详细信息。

按源类型浏览时,会看到 Azure Databricks Unity CatalogAzure Databricks 的两个条目。 前者包含 Unity Catalog 项目,包括元存储及其目录/架构/表/视图,而后者包含工作区。

按源类型浏览资产的屏幕截图。

在 Azure Databricks 工作区资产中,可以在“属性”选项卡下找到关联的 Unity Catalog,反向应用也是如此。

查找与 Azure Databricks 源关联的 Unity 目录的屏幕截图。

后续步骤

注册源后,请使用以下指南详细了解 Microsoft Purview 和数据: