使用值采样来提高 Genie 的准确性

重要

此功能目前以公共预览版提供。

值采样通过收集和使用表中的实际数据值来帮助 Genie 生成更准确的 SQL。 它有两个组件:

  • 示例值: 帮助 Genie 了解数据类型和格式设置的每个列的小示例。
  • 值字典: 列中最相关的值的特选列表,用于将用户提示与实际数据匹配。

概述

当用户在 Genie 中提问时,措辞通常是对话性的,可以包含拼写错误等错误。 在这些情况下,提示中的值可能与数据中的结构或值不匹配。 这可能会导致 Genie 错误地解释问题并生成不正确的 SQL。

例如,用户可能会询问:

“给我展示佛罗里达州第一季度的汽车销售情况。

如果数据使用状态缩写(例如 FL),并且 Genie 无法访问该列的值,Genie 可能会生成包含 ILIKE '%Florida%'的 SQL,这将不返回任何结果。

state 列启用值采样使 Genie 可以访问代表性值。 在此上下文中,Genie 可以识别 FL 对应“佛罗里达州”,并生成更准确的 SQL。

缺乏价值词典 使用值字典
WHERE state ILIKE '%Florida%' WHERE state = 'FL'

值采样通过提高生成准确 SQL 的能力来帮助 Genie 返回正确的结果。

要求

  • 必须启用 Genie 空间。 请参阅 “管理 Genie”访问权限
  • 默认情况下,Genie 数据采样预览设置处于启用状态。 如有必要,工作区管理员可以从 预览页面管理对预览的访问权限。 预览功能必须设置为 On,Genie空间作者才能使用示例值和值字典。

值采样的工作原理

Genie 会自动存储示例值,并在向空间中添加表时为符合条件的列创建值字典。 排除包含行筛选器或列掩码的表。 列列表视图显示标记以指示哪些列包括 示例值值字典

  • 为所有符合条件的列收集示例值,帮助 Genie 了解数据类型和格式
  • 值字典 最多可以创建 60 列,这些字典应该专注于用户可能会引用特定值的列,比如状态和产品类别。 每个字典最多可包含长度小于 127 个字符的非重复值 1,024 个。 如果达到了值字典的空间限制,并且想要调整包含哪些列,则可以手动选择这些列。 有关说明,请参阅 “管理值字典”。 值字典存储在工作区的存储桶中。

管理示例值

如果为工作区启用了值采样,则会在创建新空间时选择表时自动添加示例值。

若要关闭列的示例值,

  1. 在 Genie 空间中单击“ 配置 > 数据 ”。
  2. 单击表名可查看其列。
  3. 单击列名称旁边的 “编辑图标” 编辑图标。
  4. 单击 “高级”
  5. 关闭 示例值

此操作会自动禁用该列的值字典生成功能。 如有必要,请使用此设置重新打开 示例值

管理值字典

Genie 使用提示、相关表元数据、采样值、错误信号以及任何输入代码或查询生成响应。 当列具有关联的值字典时,Genie 利用存储的值来更好地解释用户提示并生成更准确的 SQL 查询。 值字典显著提高了 Genie 的准确性,尤其是在与明确的示例查询和精心制作的指令相结合时。 有关更多指导,请参阅 创建有效的 Genie 空间

选择值字典的列时,请选择那些能够提供有用上下文以帮助理解提示的字符串列。 具有分类或一致格式值的列(如状态或产品类别)通常效果最佳。 避免使用自由文本或非结构化列(如用户 ID、名称或评论),因为这些列通常缺乏有意义的上下文,并可以减少准确性。

若要设置哪些字符串列包括值字典:

  1. 在 Genie 空间中单击“ 配置 > 数据 ”。
  2. 单击表名可查看其列。
  3. 单击列名称旁边的 “编辑图标” 编辑图标。
  4. 单击 “高级”
  5. 开启值字典构建
  6. 若要禁用某列的值字典,请关闭生成值字典。 请参阅 刷新或删除值

右侧具有值字典按钮的字符串列。

刷新或删除值

刷新示例值会更新列的存储值。 刷新示例值(如果:

  • 新值已添加到列。
  • 现有值的格式已更改。

若要刷新值字典,请单击 “Kebab”菜单图标。列视图中的 kebab 菜单,然后单击 “刷新示例值”。

刷新值或删除 UI 中的值选项