使用 Azure Databricks 进行数据管理

本页概述了如何在 Azure Databricks 中使用 Unity 目录管理数据。

注释

本页重点介绍数据的治理。 安全性和合规性中介绍了相关的安全主题,如以下内容:

  • 身份验证和访问控制
  • 网络配置
  • 数据安全与加密
  • 隐私与合规性

什么是 Unity Catalog?

Unity Catalog 是一个集中式数据目录,它为多个平台上采用多种格式的表格和非结构化数据提供精细的数据访问控制,并治理机器学习模型等人工智能资产。 它还包括发现数据、跟踪使用情况、捕获世系和监视数据质量所需的工具。

Unity 目录是 开源的 ,支持多个平台。 它已深入集成到 Azure Databricks 中。

请参阅什么是 Unity Catalog?

Unity 目录数据管理模型

使用 Unity 目录进行数据治理具有以下特性:

  • 数据统一:跨平台的所有数据和 AI 资产的统一视图,减少重复和蔓延。
  • 数据访问控制:用于确保数据易于访问的工具,但仅适用于正确的用户。
  • 数据可发现性:便于查找所需数据的工具。
  • 数据质量:用于确保在整个生命周期内准确、完整、一致且安全的数据的工具。
  • 数据协作和共享:不仅在组织内部,而且跨组织和平台边界安全地共享数据。
  • 审核:捕获谁使用数据以及如何使用数据的工具。

本页介绍如何使用 Azure Databricks 中的 Unity 目录满足这些需求。

数据访问控制

为了确保用户仅访问他们应使用的数据,Unity 目录提供了分层特权模型,使你能够向用户、组和服务主体授予从帐户级别到表行和列对数据和 AI 资产的访问权限。 可以控制对存储在专用 Unity Catalog 存储中或其他平台(如云存储或数据库系统)中的资产的访问。关键在于,Unity Catalog 使用户能够从 Azure Databricks 内访问所有数据,无论数据存储在哪里,同时 Unity Catalog 控制他们的访问并跟踪他们的数据使用情况。

任务 DESCRIPTION
管理特权 了解 Unity 目录管理的安全对象以及如何控制对这些对象的访问。
管理基于属性的访问控制(ABAC) 了解如何在 Unity Catalog 中使用 ABAC 来控制数据访问权限。
管理标识 了解如何在 Unity Catalog 的上下文中管理身份。
精细访问控制 了解如何使用行筛选器和列掩码控制对表数据的访问。
管理对外部存储和数据平台的访问 了解如何使用 Unity 目录控制对云存储、外部数据平台和外部非数据服务的访问。
管理来自外部平台的访问 了解 Unity Catalog 如何管理使用 Apache Iceberg 或 Unity Catalog API 的外部平台对您的数据的访问。

数据可发现性

Azure Databricks 和 Unity 目录提供以下工具来帮助用户找到所需的数据:

功能 / 特点 DESCRIPTION
目录浏览器 使用资产名称和元数据(如注释和标记)浏览和搜索数据和 AI 资产。
目录浏览器 使用笔记本和 SQL 查询编辑器中内置的浏览器查找数据和 AI 资产。 参见 导航 Databricks 笔记本和文件编辑器 以及 在 SQL 编辑器中编写查询并浏览数据
AI 生成的注释 自动生成数据和 AI 资产的文档,以帮助发现。
表格洞察 使用目录资源管理器中内置的 UI 查看 Unity 目录中任何表的最常见用户和查询。
数据世系 捕获和可视化数据流经组织的方式。
有关功能和模型世系,请参阅 功能治理和世系
实体关系图 (ERD) 显示已定义外键的表的关系。

另请参阅发现数据

数据质量监控

用于确保数据质量和数据完整性的工具已深入集成到 Delta Lake、Apache Spark 和 Azure Databricks 中。 可以在 Azure Databricks 文档中了解它们。

Unity Catalog 添加了以下内容:

功能 / 特点 DESCRIPTION
湖屋监控 一个数据监视工具,用于捕获帐户中所有表中数据的统计属性和质量。 还可以监视包含模型输出和预测的推理表,从而使用该服务跟踪机器学习模型和模型服务终结点的性能。
已认证和已弃用的系统标记 使用数据质量或生命周期状态指示器标记安全对象,例如目录、架构和表。 这些系统标记可帮助组织强制实施治理,提高数据可发现性,并提高对分析和 AI 应用程序的信任。

数据协作和共享

Unity 目录允许用户在同一区域中的所有帐户工作区中协作处理相同的数据。 当你需要跨工作区区域、跨组织以及跨平台进行协作时,Unity 目录为以下共享工具提供了基础。

功能 / 特点 DESCRIPTION
增量共享 一个安全的数据共享平台,使你能够与组织外部的用户共享 Azure Databricks 中的数据和 AI 资产,无论这些用户是否使用 Databricks。
清洁室 Databricks 托管的环境,Databricks 和非 Databricks 平台上的多个参与者可以协作处理项目,而无需彼此共享基础数据。
Databricks 市场 用于交换数据和 AI 产品的开放论坛。 它还提供专用数据交换。

审计

审核日志 捕获有关谁访问给定数据集以及他们执行的操作的细致的详细信息。 Unity 目录添加 系统表,这是访问和查询帐户审核日志的最简单方法。

请参阅 诊断日志的参考资料通过系统表监控帐户活动

旧版 Azure Databricks 数据治理工具

Azure Databricks 还提供这些旧式治理功能。 Databricks 建议改用 Unity Catalog。

功能 / 特点 DESCRIPTION
表访问控制 一种旧数据治理模型,可让你以编程方式授予和撤销对由工作区的内置 Hive 元存储管理的对象的访问权限。
Azure Data Lake Storage 凭据传递 一个旧版数据治理功能,允许你使用登录 Azure Databricks 时使用的相同 Microsoft Entra ID 身份从 Azure Databricks 群集自动向 Azure 存储进行身份验证。

后续步骤