为 Azure Databricks Unity目录设置数据质量

若要使用 Unity 目录,必须为 Azure Databricks 工作区启用Unity目录,这意味着工作区已附加到Unity目录元存储。 创建时会自动为Unity目录启用所有新工作区,但较旧的工作区可能需要帐户管理员手动启用Unity目录。 无论工作区是否自动启用Unity目录,都需要执行以下步骤才能开始使用Unity目录:

  • 创建目录和架构以包含数据库对象(如表和卷)。
  • 创建托管存储位置,以在这些目录和架构中存储托管表和卷。
  • 授予用户对目录、架构和数据库对象的访问权限。

自动启用 Unity 目录的工作区会预配工作区目录,该目录具有授予所有工作区用户的广泛权限。 此目录是试用Unity目录的便捷起点。

有关详细的设置说明,请参阅设置和管理Unity目录。

扫描 Azure Databricks Unity 目录时,Microsoft Purview 支持:

  • 元存储
  • 目录
  • Schemas
  • 包含列的表
  • 包含列的视图

设置扫描时,可以选择扫描整个目录Unity,或将扫描范围限定为目录子集。

在 Microsoft Purview 中将数据映射扫描配置为目录 Databricks Unity目录数据

  • 在 Microsoft Purview 中注册 Azure Databricks 工作区
  • 扫描已注册的 Azure Databricks 工作区
    • 输入扫描的名称
    • 选择 unity catalog 作为提取方法
    • 通过集成运行时 (Azure 集成运行时、托管 VNet IR 或创建的 Kubernetes 支持的自承载集成运行时进行连接)
    • 创建凭据时选择“访问令牌身份验证”。 有关详细信息,请参阅 Microsoft Purview 中的源身份验证凭据。
    • 指定 Microsoft Purview 将连接到并执行扫描的 Databricks SQL 仓库的 HTTP 路径
    • 在“范围扫描”页中,选择要扫描的目录。
    • 选择用于分类的扫描规则集。 可以在系统默认规则集和现有自定义规则集之间进行选择,也可以内联创建新的规则集。 有关详细信息,请查看分类一文。
    • 对于“扫描触发器”,选择是设置计划还是运行扫描一次。
    • 查看扫描并选择“保存并运行”。
  • 查看扫描并扫描运行以完成数据编目。

扫描后,Unity目录 (UC) 中的数据资产将在Microsoft Purview 统一目录搜索中可用。 在 Microsoft Purview 中查找有关如何连接和管理 Azure Databricks Unity Catalog 的详细信息

重要

  • 创建凭据时选择“访问令牌身份验证”。
  • 将访问令牌放在托管的 Azure 密钥保管库,并将密钥保管库连接到连接管理器。
  • 确保提供产品 (服务,) MSI 读取 (机密) 访问密钥保管库。

为数据质量扫描设置与 Databricks UC 的连接

此时,我们已准备好扫描的资产进行编目和治理。 将扫描的资产关联到治理域 Sele 中的数据产品。 在“数据质量”选项卡上,添加新Azure SQL数据库连接:获取手动输入的数据库名称。

  1. Microsoft Purview 门户中,打开统一目录

  2. “运行状况管理”下,选择“ 数据质量”。

  3. 从列表中选择治理域,然后从“管理”下拉列表中选择“Connections”。

  4. “Connections”页上配置连接:

    • 添加连接名称和说明。
    • 选择源类型 “Azure Databricks”。
    • 选择“Azure 订阅”。
    • 选择工作区 URL。
    • 添加 Databricks 元存储 ID。
    • 选择“Unity目录”作为提取方法。
    • 选择“HTTP 路径”。
    • 选择“unity 目录名称”。
    • 选择架构名称。
    • 选择表名称。
    • 选择身份验证方法 - 访问令牌
      • 添加 Azure 订阅
      • Key Vault 连接
      • 机密名称
      • 机密版本
    • 如果 Databricks 在 V-Net 中运行,请选中“启用托管 V-Net”复选框。
    • 将自动选择区域。
    • 如果尚未创建 v-net 存储,请创建新的 v-net。
  5. 测试连接。 如果 Databricks 存储位于 vNet 中,则无法测试连接。

显示如何设置 databricks UC 连接的屏幕截图。

显示如何配置 databricks 连接令牌的屏幕截图。

重要

  • 数据质量专员需要对 Azure Databricks Unity 目录具有只读访问权限才能设置数据质量连接。
  • 如果禁用了公共访问,则需要选中“允许受信任的Microsoft服务”复选框进行密钥保管库。 这仅适用于 密钥保管库,而不适用于 Azure Databricks 工作区。

Azure Databricks Unity目录数据库中数据的分析和数据质量扫描

成功完成连接设置后,可以在 Azure Databricks Unity目录数据库中分析、创建和应用规则,并运行数据质量扫描。 按照以下资源中的分步指南进行作:

参考文档