使用任务模块来部署 Databricks 笔记本。
配置笔记本任务
在开始之前,必须让笔记本位于配置作业的用户可以访问的位置。
注意
作业界面根据其他配置设置动态显示选项。
要开始配置 Notebook 任务的流程:
- 在作业 UI 中导航到“任务”选项卡。
- 单击“ 添加任务”。
- 在 “任务名称 ”字段中输入名称。
- 在“类型”下拉菜单中,选择“
Notebook”。
配置数据源
在 Source 下拉菜单中,使用以下选项之一选择Python脚本的位置。
工作区
通过完成以下步骤,使用工作区配置存储在工作区中的笔记本:
- 单击“路径”字段。 此时会显示“选择笔记本”对话框。
- 浏览到笔记本,单击以突出显示文件,然后单击“确认”。
注意
可以使用此选项为存储在 Databricks Git 目录中的笔记本配置任务。 Databricks 建议使用 Git 提供程序选项,并通过远程 Git 存储库对与作业调度相关的资产进行版本控制。
Git 服务商
使用 Git 提供程序在远程 Git 存储库中配置笔记本。
UI 显示的选项取决于你是否已在其他地方配置 Git 提供程序。 只有一个远程 Git 存储库可用于作业中的所有任务。 请参阅 将 Git 与 Lakeflow 作业配合使用。
重要
从远程 Git 存储库运行的 Lakeflow 作业创建的笔记本是临时的,无法依赖这些笔记本来跟踪 MLflow 运行、试验或模型。 从作业创建笔记本时,请使用工作区 MLflow 试验(而不是笔记本 MLflow 试验),并在运行任何 MLflow 跟踪代码之前在工作区笔记本中调用 mlflow.set_experiment("/path/to/experiment")。 如需更多详细信息,请参阅防止 MLflow 试验中出现数据丢失。
配置 git 引用后会显示“路径”字段。
输入笔记本的相对路径,例如 etl/bronze/ingest.py。
重要
输入相对路径时,请不要以 / 或 ./ 开头。 例如,如果要访问的笔记本的绝对路径为 /etl/bronze/ingest.py,请在“路径”etl/bronze/ingest.py字段中输入 。
配置计算库和依赖库
- 使用计算选择或配置支持笔记本中逻辑的群集。
- 如果您使用
Serverless计算,可以使用“环境”面板或%pip install,直接在笔记本环境中安装库。 请参阅 配置无服务器环境。 - 对于所有其他计算配置,请单击“依赖库”下的“+ 添加”。 此时会显示“添加依赖库”对话框。
- 可以选择现有库或上传新库。
- 只能使用存储在计算配置支持的位置中的库。 请参阅 Python 库支持。
- 每个库源具有不同的流,用于选择或上传库。 请参阅 “安装库”。
完成作业配置
- (可选)将参数配置为可在笔记本中使用
dbutils.widgets访问的键值对。 请参阅配置任务参数。 - 单击“保存任务”。
限制
笔记本单元总输出(所有笔记本单元格的组合输出)受 30MB 大小限制的约束。 此外,单个单元格输出存在 8MB 的大小限制。 如果单元格总输出超过 30MB,或者单个单元格的输出大于 8MB,则会取消运行并标记为失败。
如果您需要帮助查找接近或超出限制的单元格,请在通用集群上运行该笔记本,并使用此笔记本自动保存技术。