为 Unity Catalog 对象添加 AI 生成的注释

本文介绍 AI 生成的 Unity 目录对象和表列注释(也称为 AI 生成的文档),介绍了它们的工作原理,并介绍了如何添加和编辑它们。

重要说明

保存注释会触发 SQL ALTER 命令,这会中断 Azure Databricks 管道和作业。

有关由 AI 生成的评论背后的 AI 的详细信息,请参阅 Databricks AI 的信任与安全的功能

支持的对象

以下 Unity Catalog 对象支持 AI 生成的注释:

  • 目录
  • 架构
  • 表列
  • 函数
  • 模型

AI 生成的注释不支持视图或具体化视图。

AI 生成的注释的工作原理是什么?

作为对象所有者或具有修改对象权限的用户,可以使用目录资源管理器查看并为由 Unity Catalog 管理的对象和表列添加 AI 生成的注释。 注释由一个大型语言模型 (LLM) 提供支持,该模型会考虑对象元数据,例如表结构和列名。

AI 生成的备注提供了一种可快速帮助用户发现由 Unity 目录管理的数据的方法。

重要说明

AI 生成的注释旨在根据架构对对象和表列进行一般性描述。 这些说明针对商业和企业上下文中的数据进行了优化,使用了来自不同行业的多个开放数据集的示例架构。 该模型使用数百个模拟样本进行评估,以验证它会避免生成有害或不当的描述。

AI 模型并非始终准确,在保存之前必须审查注释。 Databricks 强烈建议对 AI 生成的注释进行人工审查,以检查是否存在不准确之处。 该模型不应依赖于数据分类任务(例如检测包含 PII 的列)。

要查看已添加的注释,必须对该对象拥有 SELECT 特权,对父架构拥有 USE SCHEMA特权,以及对父目录拥有 USE CATALOG 特权。

有关用于生成注释建议的模型的信息,请参阅 常见问题解答

开始之前

在可以使用 AI 生成的注释之前,工作区管理员必须启用 Azure AI 服务支持的 AI 辅助功能:

  1. 在“设置”中转到“高级”选项卡,然后向下滚动到“其他”部分。
  2. 启用“Azure AI 服务支持的 AI 辅助功能”选项。

重要说明

仅对于表和列,AI 注释默认工作,不受 合作伙伴支持的 AI 辅助功能控制。 有关详细信息,请参阅由合作伙伴驱动的 AI 辅助功能设置控制的 功能。

添加 AI 生成的注释

必须使用目录资源管理器查看建议的注释、编辑它们,并将它们添加到对象和表列中。

所需权限:你必须是该对象的所有者,或对该对象拥有 MODIFY 特权,才能查看 AI 建议的注释以及编辑并添加它。

为对象添加一个由 AI 建议的注释

  1. 在 Azure Databricks 工作区中,单击 “数据”图标。目录

  2. 搜索或浏览以找到目标对象并将其选中。

  3. 关于此 <object> 面板中,单击“AI 生成”

    AI 生成的注释按钮

    AI 可能需要一些时间才能生成注释。

  4. 单击“接受”按原样接受注释,或单击“编辑”在保存之前对其进行修改。

向表格列添加 AI 建议的注释

  1. 在 Azure Databricks 工作区中,单击 “数据”图标。目录

  2. 搜索或浏览该表,然后选择它。

  3. 在表列标题上方,单击“AI 生成”

    为每个列生成一条注释。

  4. 单击列注释旁边的复选标记以接受它或在不保存的情况下将其关闭。

更新 AI 生成的注释

对象的所有者或具有该对象 MODIFY 特权的用户可以随时通过目录资源管理器 UI 更新注释。 内置聊天助手可协助编辑注释,提供以下选项:“缩短文本”或“翻译文本”为其他语言。

AI 生成的注释内联助手

还可以使用 ALTERCOMMENT ON SQL 命令。

有关 Unity 目录对象的 AI 生成评论的常见问题解答

本部分以常见问题的形式提供有关 Unity 目录对象的 AI 生成注释(也称为 AI 生成的文档)的一般信息。

AI 生成的注释功能使用哪些服务?

如果启用了 合作伙伴支持的 AI,则 AI 生成的表和表列注释(也称为 AI 生成的文档)使用 Azure OpenAI 服务。 如果关闭“合作伙伴支持的 AI”,AI 注释将使用 Databricks 托管的模型。

有关更多详细信息,包括用于其他 AI 生成评论的模型,请参阅由合作伙伴支持的 AI 辅助功能设置所管理的功能

模型服务终结点托管在哪些区域?

对于欧盟 (EU) 工作区,AI 辅助功能使用托管在欧盟的外部模型。 所有其他区域使用托管在美国的模型。

会将哪些数据发送到模型?

Azure Databricks 将以下元数据连同每个 API 请求一起发送到模型:

  • 目录(目录名称、当前注释、目录类型)
  • 架构(目录名称、架构名称、当前注释)
  • 表(目录名称、架构名称、表名称、当前注释)
  • 函数(目录名称、架构名称、函数名称、当前注释、参数、定义)
  • 模型(目录名称、架构名称、模型名称、当前注释、别名)
  • 卷(目录名称、架构名称、卷名称、当前注释)
  • 列名称(列名称、类型、是否为主键、当前列注释)

已批准的注释与 Unity Catalog 的其他元数据一起存储在 Azure Databricks 控制平面数据库中。 控制平面数据库已经过 AES-256 位加密。