将 AI 生成的注释添加到 Unity Catalog 对象

本文介绍了 AI 生成的 Unity Catalog 对象和表列注释(也称为 AI 生成的文档),包括其工作原理、有关如何添加和编辑的演示,以及常见问题解答。

支持的对象

以下 Unity Catalog 对象支持 AI 生成的注释:

  • 目录
  • 架构
  • 表列
  • 函数
  • 模型

AI 生成的注释不支持视图或具体化视图。

AI 生成的注释的工作原理是什么?

对于 Unity Catalog 管理的对象或表列,对象所有者或具有对象修改权限的用户可以使用目录资源管理器查看并添加 AI 生成的注释。 注释由大型语言模型 (LLM) 提供支持,该模型会考虑对象元数据,例如表架构和列名称。

AI 生成的备注提供了一种可快速帮助用户发现由 Unity 目录管理的数据的方法。

重要

AI 生成的注释旨在根据架构提供对象和表列的一般说明。 这些说明针对商业和企业上下文中的数据进行了优化,使用了来自不同行业的多个开放数据集的示例架构。 该模型使用数百个模拟样本进行评估,以验证它会避免生成有害或不当的描述。

AI 模型并非始终准确,在保存之前必须审查注释。 Databricks 强烈建议对 AI 生成的注释进行人工审查,以检查是否存在不准确之处。 该模型不应依赖于数据分类任务(例如检测包含 PII 的列)。

要在添加注释后查看注释,你必须具有对象的 SELECT 特权、父架构的 USE SCHEMA 特权和父目录的 USE CATALOG 特权。

有关用于生成注释建议的模型的信息,请参阅有关 AI 生成的注释的常见问题解答

开始之前

在可以使用 AI 生成的注释之前,工作区管理员必须启用 Azure AI 服务支持的 AI 辅助功能:

  1. 在“设置”中转到“高级”选项卡,然后向下滚动到“其他”部分。
  2. 启用“Azure AI 服务支持的 AI 辅助功能”选项。

添加 AI 生成的注释

必须使用目录资源管理器查看、编辑建议的注释,并将其添加到对象和表列。

所需权限:你必须是对象所有者或拥有对象的 MODIFY 特权才能查看、编辑和添加 AI 建议的注释。

将 AI 建议的注释添加到对象

  1. 在 Azure Databricks 工作区中,单击 “目录”图标“目录”。

  2. 搜索或浏览该对象,然后将其选中。

  3. 在“关于此 <object>面板中,单击“AI 生成”

    “AI 生成的注释”按钮

    AI 可能需要一些时间才能生成注释。

  4. 单击“接受”按原样接受注释,或单击“编辑”在保存之前对其进行修改。

将 AI 生成的注释添加到表列

  1. 在 Azure Databricks 工作区中,单击 “目录”图标“目录”。

  2. 搜索或浏览该表,然后选择它。

  3. 在表列标题上方,单击“AI 生成”

    为每个列生成一条注释。

  4. 单击列注释旁边的复选标记以接受它或在不保存的情况下将其关闭。

更新 AI 生成的注释

对象所有者或具有对象的 MODIFY 特权的用户可以使用目录资源管理器 UI 随时更新注释。 内联聊天助手有助于编辑批注,其中提供了“缩短文本”选项或用于翻译为其他语言的“翻译文本”选项。

“AI 生成的注释”内联助手

还可以使用 ALTERCOMMENT ON SQL 命令。

有关 AI 生成的注释的常见问题解答

本节以常见问题解答的形式提供了有关 AI 生成的注释(也称为 AI 生成的文档)的一般信息。

AI 生成的文档功能使用哪些服务?

AI 生成的注释使用内部大型语言模型 (LLM) 来处理表和列。 这些注释可能会使用外部模型合作伙伴来处理其他 Unity Catalog 对象和内联助手。 发送到外部服务的数据不会用于模型训练。 模型本身是无状态的:模型提供者不会存储任何提示或补全的内容。

模型服务终结点托管在哪些区域?

对于欧盟 (EU) 工作区,AI 辅助功能使用托管在欧盟的外部模型。 所有其他区域使用托管在美国的模型。

Azure Databricks 与 Azure AI 服务之间的数据如何进行加密?

Databricks 与 Azure AI 服务之间的流量使用行业标准 TLS 1.2 加密技术在传输中进行加密。

是否所有内容都会经过静态加密?

Azure Databricks 工作区中存储的所有数据都会经过 AES-256 位加密。 我们的外部合作伙伴不会存储发送给他们的任何提示或补全内容。

会将哪些数据发送到模型?

Azure Databricks 将以下元数据连同每个 API 请求一起发送到模型:

  • 目录(目录名称、当前注释、目录类型)
  • 架构(目录名称、架构名称、当前注释)
  • 表(目录名称、架构名称、表名称、当前注释)
  • 函数(目录名称、架构名称、函数名称、当前注释、参数、定义)
  • 模型(目录名称、架构名称、模型名称、当前注释、别名)
  • 卷(目录名称、架构名称、卷名称、当前注释)
  • 列名称(列名称、类型、是否为主键、当前列注释)

已批准的注释连同其余的 Unity Catalog 元数据一起存储在 Azure Databricks 控制平面数据库中。 控制平面数据库已经过 AES-256 位加密。

使用该功能将受到客户在使用 Azure Databricks 时同意的现有 Azure Databricks 条款和条件的监管。