与笔记本相关的工作任务

使用任务模块来部署 Databricks 笔记本。

配置笔记本任务

在开始之前,必须让笔记本位于配置作业的用户可以访问的位置。

注意

作业界面根据其他配置设置动态显示选项。

要开始配置 Notebook 任务的流程:

  1. 在作业 UI 中导航到“任务”选项卡。
  2. 单击“ 添加任务”。
  3. “任务名称 ”字段中输入名称。
  4. 在“类型”下拉菜单中,选择“Notebook”。

配置数据源

Source 下拉菜单中,使用以下选项之一选择Python脚本的位置。

工作区

通过完成以下步骤,使用工作区配置存储在工作区中的笔记本:

  1. 单击“路径”字段。 此时会显示“选择笔记本”对话框。
  2. 浏览到笔记本,单击以突出显示文件,然后单击“确认”

注意

可以使用此选项为存储在 Databricks Git 目录中的笔记本配置任务。 Databricks 建议使用 Git 提供程序选项,并通过远程 Git 存储库对与作业调度相关的资产进行版本控制。

Git 服务商

使用 Git 提供程序在远程 Git 存储库中配置笔记本。

UI 显示的选项取决于你是否已在其他地方配置 Git 提供程序。 只有一个远程 Git 存储库可用于作业中的所有任务。 请参阅 将 Git 与 Lakeflow 作业配合使用

重要

从远程 Git 存储库运行的 Lakeflow 作业创建的笔记本是临时的,无法依赖这些笔记本来跟踪 MLflow 运行、试验或模型。 从作业创建笔记本时,请使用工作区 MLflow 试验(而不是笔记本 MLflow 试验),并在运行任何 MLflow 跟踪代码之前在工作区笔记本中调用 mlflow.set_experiment("/path/to/experiment")。 如需更多详细信息,请参阅防止 MLflow 试验中出现数据丢失

配置 git 引用后会显示“路径”字段。

输入笔记本的相对路径,例如 etl/bronze/ingest.py

重要

输入相对路径时,请不要以 /./ 开头。 例如,如果要访问的笔记本的绝对路径为 /etl/bronze/ingest.py,请在“路径”etl/bronze/ingest.py字段中输入

配置计算库和依赖库

  1. 使用计算选择或配置支持笔记本中逻辑的群集。
  2. 如果您使用 Serverless 计算,可以使用“环境”面板或 %pip install,直接在笔记本环境中安装库。 请参阅 配置无服务器环境
  3. 对于所有其他计算配置,请单击“依赖库”下的“+ 添加”。 此时会显示“添加依赖库”对话框。
    • 可以选择现有库或上传新库。
    • 只能使用存储在计算配置支持的位置中的库。 请参阅 Python 库支持
    • 每个库源具有不同的流,用于选择或上传库。 请参阅 “安装库”。

完成作业配置

  1. (可选)将参数配置为可在笔记本中使用dbutils.widgets访问的键值对。 请参阅配置任务参数
  2. 单击“保存任务”。

限制

笔记本单元总输出(所有笔记本单元格的组合输出)受 30MB 大小限制的约束。 此外,单个单元格输出存在 8MB 的大小限制。 如果单元格总输出超过 30MB,或者单个单元格的输出大于 8MB,则会取消运行并标记为失败。

如果您需要帮助查找接近或超出限制的单元格,请在通用集群上运行该笔记本,并使用此笔记本自动保存技术