databricks Unity目录数据库的数据质量
备注
Microsoft Purview 数据目录将其名称更改为 Microsoft Purview 统一目录。 所有功能将保持不变。 当新的 Microsoft Purview 数据治理体验在你的区域中正式发布时,你将看到名称更改。 检查你所在的区域的名称。
若要使用 Unity 目录,必须为 Azure Databricks 工作区启用Unity目录,这意味着工作区已附加到Unity目录元存储。 创建时会自动为Unity目录启用所有新工作区,但较旧的工作区可能需要帐户管理员手动启用Unity目录。 无论工作区是否自动启用Unity目录,都需要执行以下步骤才能开始使用Unity目录:
- 创建目录和架构以包含数据库对象(如表和卷)。
- 创建托管存储位置,以在这些目录和架构中存储托管表和卷。
- 授予用户对目录、架构和数据库对象的访问权限。
自动启用 Unity 目录的工作区会预配工作区目录,该目录具有授予所有工作区用户的广泛权限。 此目录是试用Unity目录的便捷起点。
有关详细的设置说明,请参阅设置和管理Unity目录。
扫描 Azure Databricks Unity 目录时,Microsoft Purview 支持:
- 元存储
- 目录
- Schemas
- 包含列的表
- 包含列的视图
设置扫描时,可以选择扫描整个目录Unity,或将扫描范围限定为目录子集。
- 在 Microsoft Purview 中注册 Azure Databricks 工作区
- 扫描已注册的 Azure Databricks 工作区
- 输入扫描的名称
- 选择 unity catalog 作为提取方法
- 通过集成运行时 (Azure 集成运行时、托管 VNet IR 或创建的 Kubernetes 支持的自承载集成运行时进行连接)
- 创建凭据时选择“访问令牌身份验证”。 有关详细信息,请参阅 Microsoft Purview 中的源身份验证凭据。
- 指定 Microsoft Purview 将连接到并执行扫描的 Databricks SQL 仓库的 HTTP 路径
- 在“范围扫描”页中,选择要扫描的目录。
- 选择用于分类的扫描规则集。 可以在系统默认规则集和现有自定义规则集之间进行选择,也可以内联创建新的规则集。 有关详细信息,请查看分类一文。
- 对于“扫描触发器”,选择是设置计划还是运行扫描一次。
- 查看扫描并选择“保存并运行”。
- 查看扫描并扫描运行以完成数据编目。
扫描后,Unity目录 (UC) 中的数据资产将在数据目录搜索中可用。 有关如何在 Microsoft Purview 中连接和管理 Azure Databricks Unity Catalog 的更多详细信息,请参阅此文档。
重要
- 创建凭据时选择“访问令牌身份验证”。
- 将访问令牌放在托管的 Azure 密钥保管库,并将密钥保管库连接到连接管理器。
- 确保提供产品 (服务,) MSI 读取 (机密) 访问密钥保管库。
此时,我们已准备好扫描的资产进行编目和治理。 将扫描的资产关联到治理域 Sele 中的数据产品。 在“数据质量”选项卡上,添加新Azure SQL数据库连接:获取手动输入的数据库名称。
选择“数据质量 > 治理域 > 管理”选项卡以创建连接。
在连接页中配置连接。
- 添加连接名称和说明
- 选择源类型 Azure Databricks
- 选择工作区 URL
- 选择“Unity目录”作为提取方法
- 选择 HTTP 路径
- 选择 unity 目录名称
- 选择架构名称
- 选择表名称
- 选择身份验证方法 - 访问令牌
- 添加 Azure 订阅
- Key Vault 连接
- 机密名称
- 机密版本
测试连接
重要
- 数据质量专员需要对 Azure databrics Unity Catalog 具有只读访问权限才能设置数据质量连接。
成功完成连接设置后,可以在 Azure databricks Unity目录数据库中分析、创建和应用规则,并运行数据的 DQ 扫描。 遵循以下文档中所述的分步指南: