重要
此功能目前以公共预览版提供。
本页介绍向 Databricks 助手添加功能的数据工程代理。 若要使用数据工程代理,请在助手中选择 代理 模式。
数据工程代理专为 Lakeflow Spark 声明性管道(SDP)和 Lakeflow 管道编辑器设计,它浏览数据、生成和运行管道代码,并修复了所有来自单个提示的错误。
什么是数据工程代理?
数据工程代理是 Databricks 助手代理模式下的强大功能,可将助手转换为自治合作伙伴,可以在 SDP 和 Lakeflow 管道编辑器中自动执行整个多步骤数据工程工作流。
与助手聊天模式相比,代理模式具有扩展的功能:规划解决方案、检索相关资产、运行代码、使用管道输出改进结果、自动修复错误等。
数据工程代理可以从头开始规划和生成整个管道,或加速处理现有管道。 代理与你合作,批准其计划,并在继续之前确认其后续步骤。 经批准,数据工程代理可以使用工具执行搜索表、编辑 SQL 或 Python 源文件、运行管道更新和读取管道数据集等任务。
数据工程代理的访问和作由用户的权限控制。 它只能访问你有权访问的数据,并执行你有权执行的作。
注释
在助手中打开代理模式时,助手会根据 Databricks 中当前使用的功能调整其功能。 例如,在 Lakeflow 管道编辑器中,助手侧重于管道编辑和数据工程任务。 在笔记本和 SQL 编辑器中,助手支持数据浏览和分析。 有关详细信息,请参阅 Data Science Agent 。
要求
若要使用数据工程代理,工作区需要以下各项:
- 为帐户和工作区启用了合作伙伴支持的 AI 功能。 请参阅 合作伙伴支持的 AI 功能。
- 已启用 Databricks 助手代理模式预览版。 请参阅 管理 Azure Databricks 预览版。
使用数据工程代理
若要使用数据工程代理,请执行以下步骤:
在 Lakeflow 管道编辑器中,单击
打开助手侧面板。单击位于工作区右上角的助手。
在右下角,选择 “代理”。 这会切换助手的代理模式,使你能够与数据工程代理进行交互。
输入给代理的提示内容。 例如,可以询问有关管道的问题,例如“描述此管道”。 还可以要求它添加新数据集,例如,“在从bronze_sales_data读取数据并清理数据并添加有用的质量期望的新文件中创建silver_sales_data”。
注释
代理尊重用户的 Unity 目录权限,因此它只能访问你有权访问的数据和管道源。
代理生成响应时,通常会暂停以获取输入:
对于更复杂的任务,代理可能会创建一个分步计划并提出澄清的问题。 回答代理的澄清问题,以帮助它磨练其计划。
当代理需要运行代码或更新管道时,它会在继续之前请求审批。 允许 或 拒绝 其请求。 还可以 在此线程中选择“允许 ”(引用助手对话线程)或 “始终允许”。
重要
数据工程代理可以在管道中生成和执行代码。 虽然它有防护措施来防止危险行动,但仍有风险。 应仅将其与信任的数据一起使用,并且应在运行代码之前查看代码。
当代理继续工作时,系统可能会提示你选择“ 继续 ”或“ 拒绝”。 查看代理的现有工作,然后选择 “继续 ”以允许代理继续执行后续步骤或 拒绝 以告诉它尝试其他作。
若要在代理正常工作时停止代理,请单击红色
代理可以创建新文件、生成文本、查询和代码、运行文件或管道,并访问输出数据集来解释结果。
注释
为了让数据工程代理继续其工作并履行下一步操作,您需要停留在代理正在工作中的当前选项卡。
小窍门
可以添加供代理在大多数响应中使用的指令。 例如,如果具有要使用的代码约定或要使用的首选库,则可以将这些准则添加到代理的说明。 还可以创建 技能 ,以便为特定于域的任务扩展具有专用功能的代理。 有关更多详细信息和其他提示,请参阅 自定义和改进 Databricks 助手响应。
Capabilities
数据工程代理可以帮助完成大多数管道开发任务。 关键功能包括:
- 数据发现:代理可以搜索工作区中的表,以帮助查找任务所需的数据。
- 管道代码编辑:代理一次可以创建和编辑多个文件。 它会让你了解它正在更改的文件,并显示每个文件中的代码差异,以便你可以在末尾单独或全部查看更改。
- 管道执行:代理可以运行单个文件、干运行/运行管道或执行完全刷新。 当代理程序想要继续时,它会在执行此操作之前请求您的确认。
- 了解和改进管道行为:代理可以检查数据集和管道输出,帮助你了解管道从端到端的操作及其原因。 例如,它可以汇总转换、跟踪数据流向下游表的过程,并突出显示行计数或架构中的意料之外的变化。 当它显示潜在的数据质量问题时,代理可以帮助你推理其原因,并建议在管道中解决它们的位置和方法。
这些功能支持常见用例,例如:
- 创作新管道:数据工程代理可以帮助创建新的奖牌体系结构管道的所有步骤,从引入数据到标准化和清理数据、转换和分析数据。
- 解释管道:代理可以分析和解释现有管道,以帮助快速提升。
- 修复问题:出现错误时,代理可以帮助诊断和修复问题,在解决问题之前循环访问多个文件。
例子
请尝试以下提示以开始作:
- “使用表事务和 my_catalog.my_schema 中的客户生成并运行奖牌体系结构管道,以便进行欺诈检测。
- “解释此管道的每一步。
- “修复此管道中的故障。”
后续步骤
- 详细了解 Databricks AI 辅助功能
- 获取自定义与改进 Databricks 助手响应的建议
- 使用 数据科学代理进行数据发现和探索
- 浏览 Lakeflow 管道编辑器