databricks Unity目录数据库的数据质量

备注

Microsoft Purview 数据目录将其名称更改为 Microsoft Purview 统一目录。 所有功能将保持不变。 当新的 Microsoft Purview 数据治理体验在你的区域中正式发布时,你将看到名称更改。 检查你所在的区域的名称

若要使用 Unity 目录,必须为 Azure Databricks 工作区启用Unity目录,这意味着工作区已附加到Unity目录元存储。 创建时会自动为Unity目录启用所有新工作区,但较旧的工作区可能需要帐户管理员手动启用Unity目录。 无论工作区是否自动启用Unity目录,都需要执行以下步骤才能开始使用Unity目录:

  • 创建目录和架构以包含数据库对象(如表和卷)。
  • 创建托管存储位置,以在这些目录和架构中存储托管表和卷。
  • 授予用户对目录、架构和数据库对象的访问权限。

自动启用 Unity 目录的工作区会预配工作区目录,该目录具有授予所有工作区用户的广泛权限。 此目录是试用Unity目录的便捷起点。

有关详细的设置说明,请参阅设置和管理Unity目录。

扫描 Azure Databricks Unity 目录时,Microsoft Purview 支持:

  • 元存储
  • 目录
  • Schemas
  • 包含列的表
  • 包含列的视图

设置扫描时,可以选择扫描整个目录Unity,或将扫描范围限定为目录子集。

在 Microsoft Purview 中将数据映射扫描配置为目录 Databricks Unity目录数据

  • 在 Microsoft Purview 中注册 Azure Databricks 工作区
  • 扫描已注册的 Azure Databricks 工作区
    • 输入扫描的名称
    • 选择 unity catalog 作为提取方法
    • 通过集成运行时 (Azure 集成运行时、托管 VNet IR 或创建的 Kubernetes 支持的自承载集成运行时进行连接)
    • 创建凭据时选择“访问令牌身份验证”。 有关详细信息,请参阅 Microsoft Purview 中的源身份验证凭据。
    • 指定 Microsoft Purview 将连接到并执行扫描的 Databricks SQL 仓库的 HTTP 路径
    • 在“范围扫描”页中,选择要扫描的目录。
    • 选择用于分类的扫描规则集。 可以在系统默认规则集和现有自定义规则集之间进行选择,也可以内联创建新的规则集。 有关详细信息,请查看分类一文。
    • 对于“扫描触发器”,选择是设置计划还是运行扫描一次。
    • 查看扫描并选择“保存并运行”。
  • 查看扫描并扫描运行以完成数据编目。

扫描后,Unity目录 (UC) 中的数据资产将在数据目录搜索中可用。 有关如何在 Microsoft Purview 中连接和管理 Azure Databricks Unity Catalog 的更多详细信息,请参阅此文档。

重要

  • 创建凭据时选择“访问令牌身份验证”。
  • 将访问令牌放在托管的 Azure 密钥保管库,并将密钥保管库连接到连接管理器。
  • 确保提供产品 (服务,) MSI 读取 (机密) 访问密钥保管库。

为数据质量扫描设置与 databricks UC 的连接

此时,我们已准备好扫描的资产进行编目和治理。 将扫描的资产关联到治理域 Sele 中的数据产品。 在“数据质量”选项卡上,添加新Azure SQL数据库连接:获取手动输入的数据库名称。

  1. 选择“数据质量 > 治理域 > 管理”选项卡以创建连接。

  2. 在连接页中配置连接。

    • 添加连接名称和说明
    • 选择源类型 Azure Databricks
    • 选择工作区 URL
    • 选择“Unity目录”作为提取方法
    • 选择 HTTP 路径
    • 选择 unity 目录名称
    • 选择架构名称
    • 选择表名称
    • 选择身份验证方法 - 访问令牌
      • 添加 Azure 订阅
      • Key Vault 连接
      • 机密名称
      • 机密版本
  3. 测试连接

显示如何设置 databricks UC 连接的屏幕截图。

显示如何配置 databricks 连接令牌的屏幕截图。

重要

  • 数据质量专员需要对 Azure databrics Unity Catalog 具有只读访问权限才能设置数据质量连接。

Azure Databricks Unity目录数据库中数据的分析和数据质量扫描。

成功完成连接设置后,可以在 Azure databricks Unity目录数据库中分析、创建和应用规则,并运行数据的 DQ 扫描。 遵循以下文档中所述的分步指南:

参考文档