通过


使用数据工程代理

重要

此功能目前以公共预览版提供。

本页介绍向 Databricks 助手添加功能的数据工程代理。 若要使用数据工程代理,请在助手中选择 代理 模式。

数据工程代理专为 Lakeflow Spark 声明性管道(SDP)和 Lakeflow 管道编辑器设计,它浏览数据、生成和运行管道代码,并修复了所有来自单个提示的错误。

什么是数据工程代理?

数据工程代理是 Databricks 助手代理模式下的强大功能,可将助手转换为自治合作伙伴,可以在 SDP 和 Lakeflow 管道编辑器中自动执行整个多步骤数据工程工作流。

使用数据工程代理。

与助手聊天模式相比,代理模式具有扩展的功能:规划解决方案、检索相关资产、运行代码、使用管道输出改进结果、自动修复错误等。

数据工程代理可以从头开始规划和生成整个管道,或加速处理现有管道。 代理与你合作,批准其计划,并在继续之前确认其后续步骤。 经批准,数据工程代理可以使用工具执行搜索表、编辑 SQL 或 Python 源文件、运行管道更新和读取管道数据集等任务。

数据工程代理的访问和作由用户的权限控制。 它只能访问你有权访问的数据,并执行你有权执行的作。

注释

在助手中打开代理模式时,助手会根据 Databricks 中当前使用的功能调整其功能。 例如,在 Lakeflow 管道编辑器中,助手侧重于管道编辑和数据工程任务。 在笔记本和 SQL 编辑器中,助手支持数据浏览和分析。 有关详细信息,请参阅 Data Science Agent

要求

若要使用数据工程代理,工作区需要以下各项:

使用数据工程代理

若要使用数据工程代理,请执行以下步骤:

  1. 在 Lakeflow 管道编辑器中,单击“虚拟形象助理”图标打开助手侧面板。单击位于工作区右上角的助手

  2. 在右下角,选择 “代理”。 这会切换助手的代理模式,使你能够与数据工程代理进行交互。

  3. 输入给代理的提示内容。 例如,可以询问有关管道的问题,例如“描述此管道”。 还可以要求它添加新数据集,例如,“在从bronze_sales_data读取数据并清理数据并添加有用的质量期望的新文件中创建silver_sales_data”。

    注释

    代理尊重用户的 Unity 目录权限,因此它只能访问你有权访问的数据和管道源。

  4. 代理生成响应时,通常会暂停以获取输入:

    • 对于更复杂的任务,代理可能会创建一个分步计划并提出澄清的问题。 回答代理的澄清问题,以帮助它磨练其计划。

    • 当代理需要运行代码或更新管道时,它会在继续之前请求审批。 允许拒绝 其请求。 还可以 在此线程中选择“允许 ”(引用助手对话线程)或 “始终允许”。

      重要

      数据工程代理可以在管道中生成和执行代码。 虽然它有防护措施来防止危险行动,但仍有风险。 应仅将其与信任的数据一起使用,并且应在运行代码之前查看代码。

    • 当代理继续工作时,系统可能会提示你选择“ 继续 ”或“ 拒绝”。 查看代理的现有工作,然后选择 “继续 ”以允许代理继续执行后续步骤或 拒绝 以告诉它尝试其他作。

    • 若要在代理正常工作时停止代理,请单击红色“停止”图标。

代理可以创建新文件、生成文本、查询和代码、运行文件或管道,并访问输出数据集来解释结果。

注释

为了让数据工程代理继续其工作并履行下一步操作,您需要停留在代理正在工作中的当前选项卡。

小窍门

可以添加供代理在大多数响应中使用的指令。 例如,如果具有要使用的代码约定或要使用的首选库,则可以将这些准则添加到代理的说明。 还可以创建 技能 ,以便为特定于域的任务扩展具有专用功能的代理。 有关更多详细信息和其他提示,请参阅 自定义和改进 Databricks 助手响应

Capabilities

数据工程代理可以帮助完成大多数管道开发任务。 关键功能包括:

  • 数据发现:代理可以搜索工作区中的表,以帮助查找任务所需的数据。
  • 管道代码编辑:代理一次可以创建和编辑多个文件。 它会让你了解它正在更改的文件,并显示每个文件中的代码差异,以便你可以在末尾单独或全部查看更改。
  • 管道执行:代理可以运行单个文件、干运行/运行管道或执行完全刷新。 当代理程序想要继续时,它会在执行此操作之前请求您的确认。
  • 了解和改进管道行为:代理可以检查数据集和管道输出,帮助你了解管道从端到端的操作及其原因。 例如,它可以汇总转换、跟踪数据流向下游表的过程,并突出显示行计数或架构中的意料之外的变化。 当它显示潜在的数据质量问题时,代理可以帮助你推理其原因,并建议在管道中解决它们的位置和方法。

这些功能支持常见用例,例如:

  • 创作新管道:数据工程代理可以帮助创建新的奖牌体系结构管道的所有步骤,从引入数据到标准化和清理数据、转换和分析数据。
  • 解释管道:代理可以分析和解释现有管道,以帮助快速提升。
  • 修复问题:出现错误时,代理可以帮助诊断和修复问题,在解决问题之前循环访问多个文件。

例子

请尝试以下提示以开始作:

  • “使用表事务和 my_catalog.my_schema 中的客户生成并运行奖牌体系结构管道,以便进行欺诈检测。
  • “解释此管道的每一步。
  • “修复此管道中的故障。”

后续步骤