共用方式為


設定和編輯 Databricks 作業

本文著重於使用工作流程工作區 UI 建立、設定和編輯作業的指示。 Azure Databricks 有其他進入點和設定工具,包括下列專案:

提示

若要將作業檢視為 YAML,請按下作業的 [立即執行] 左側的 Kebab 功能表,然後按下 [切換至程式碼版本 (YAML)]

建立新作業

本節說明建立新作業以使用工作區 UI 排程筆記本工作所需的最低設定。

作業包含一或多個工作。 您可以設定該作業的第一個工作,以建立新的作業。

注意

每個工作類型在工作區 UI 中都有動態組態選項。 請參閱設定和編輯 Databricks 工作

  1. 按下側邊欄中的 工作流程圖示 [工作流程],然後按下 [建立作業] 按鈕
  2. 輸入 [工作名稱]
  3. 選取 [路徑] 欄位的筆記本。
  4. 按一下 [建立工作]

如果您的工作區未針對作業啟用無伺服器計算,您必須選取 [計算] 選項。 Databricks 建議在設定工作時一律使用作業計算。

新的作業以預設名稱 New Job <date> <time> 出現於工作區作業清單。

在工作區中選取要編輯的作業

若要使用工作區 UI 編輯參數,請進行下列步驟:

  1. 按一下側邊欄中的 工作流程圖示 [工作流程]
  2. 在 [名稱] 資料行,按下工作名稱。

使用作業 UI 來執行下列動作:

  • 編輯工作設定
  • 重新命名、複製或刪除作業
  • 將新工作新增至現有的作業
  • 編輯工作設定

注意

您也可以檢視 JSON 定義,以搭配 REST API [取得]、[建立] 和 [重設] 端點。

編輯工作設定

側邊面板包含 [工作詳細資料]。 您可以變更工作的觸發程序、計算組態、通知、並行執行數目上限,設定持續時間閾值,以及新增或變更標籤。 如果已啟用作業存取控制,也可以編輯作業權限。

為所有作業工作新增參數

在作業層級設定的參數傳遞至任何接受索引鍵/值參數的作業工作,包括設定為接受關鍵字引數的 Python Wheel 檔案。 請參閱參數化作業

將標籤新增至作業

若要將標籤或 key:value 屬性新增至作業,可以在編輯作業時新增標籤。 您可以使用標籤在 [作業清單] 中篩選作業。 您可以使用 department 標籤篩選屬於特定部門的所有作業。

注意

由於作業標籤並非設計來儲存敏感性資訊,例如個人識別資訊或密碼,因此 Databricks 建議只針對非敏感性值使用標籤。

卷標也會傳播至執行作業時所建立的作業叢集,讓您能夠搭配現有的叢集監視使用標籤。

請按下 [作業詳細資料] 側面板中的 [+ 標籤] 以新增或編輯標籤。 您可將標記新增為索引鍵/值組或標籤。 若要新增標籤,請在 [索引鍵] 欄位中輸入標籤,並將 [值] 欄位留空。

重新命名、複製或刪除作業

若要重新命名作業,請移至作業 UI,然後按下作業名稱。

您可以藉助複製現有的作業,快速建立新的作業。 複製作業會建立作業的相同複本,但作業識別碼除外。 若要複製作業,請執行下列動作:

  1. 移至作業的作業 UI。
  2. 按下 [立即執行] 按鈕旁的 Kebab 功能表
  3. 從下拉式功能表中,選取 [複製作業]
  4. 輸入複製作業的名稱。
  5. 按下 [複製]

刪除作業

若要刪除作業,移至作業的頁面上,按下作業名稱旁的 Kebab 功能表,然後從下拉式功能表中選取 [刪除作業]

搭配作業使用 Git

如果您的作業包含任何支援使用遠端 Git 提供者的工作,則作業 UI 包含 [Git] 欄位,以及新增或編輯 Git 設定的選項。

您可以設定下列工作類型來使用遠端 Git 存放庫:

  • Notebooks
  • Python 指令碼
  • SQL 檔案
  • dbt

作業中的所有工作都必須參考遠端存放庫中的相同認可。 針對使用遠端存放庫的作業,您只能指定下列其中一項:

  • [分支]:分支的名稱,例如 main
  • [標籤]:標籤的名稱,例如 release-1.0.0
  • [認可]:特定認可的雜湊,例如 e0056d01

作業執行開始時,Databricks 會擷取遠端存放庫的快照認可,以確保整個作業針對相同版本的程式碼執行。

當您檢視執行儲存在遠端 Git 存放庫中之程式碼的工作執行歷程記錄時,[工作執行詳細資料] 面板會包含 Git 詳細資料,包括與執行相關聯的認可 SHA。 請參閱檢視執行歷程記錄

注意

設定為使用遠端 Git 存放庫的工作無法寫入工作區檔案。 它們必須將暫存資料寫入暫時驅動程式記憶體,並將永續性資料寫入磁碟區或資料表。

Databricks 建議在 Git 資料夾中建立參考工作區路徑的作業,以便於開發期間快速反覆執行和測試。 Databricks 建議您在移至預備和生產環境時,重新設定作業以參考遠端 Git 存放庫。 深入瞭解 Databricks 作業中的版本控制原始程式碼。

設定 Git 提供者

作業 UI 有一個對話方塊可設定遠端 Git 存放庫。 您可以從 [Git] 標題下的 [作業詳細資料] 面板,或在設定為使用 [Git 提供者]的任何工作中存取此對話方塊。

用來存取對話方塊的選項會根據工作類型而有所不同,以及是否已為作業設定 Git 參考。 啟動對話方塊的按鈕包括 [新增 Git 設定]、[編輯] 或 [新增 Git 參考]

在 [Git 資訊] 對話方塊中 (在由 [作業詳細資料] 面板存取時,直接 標示為 [Git]),輸入以下詳細資訊:

  • Git 存放庫 URL
  • 從下拉式清單中選取您的 [Git 提供者]
  • 在 [Git 參考] 欄位中,輸入對應至您要執行之原始程式碼版本的分支、標記或認可識別碼。
  • 從下拉式清單選取 [分支]、[標記] 或 [認可]

注意

對話方塊可能會提示您輸入以下:遺漏此帳戶的 Git 認證。新增認證。 您必須先設定遠端 Git 存放庫,才能使用它作為參考。 請參閱設定 Databricks Git 資料夾 (Repos)

設定工作的預期完成時間或逾時

可以設定作業的可選持續時間閾值,包括工作的預期,以及完成時間上限。 若要設定持續時間閾值,請按下 [作業詳細資料] 面板中 [持續時間閾值] 底下的 [設定持續時間閾值]

若要設定任務的預期完成時間,請在 [警告] 欄位中輸入持續時間。 如果作業超過此閾值,就會觸發事件。 您可以使用此事件在作業執行緩慢時發出通知。 請參閱為執行緩慢或延遲的工作設定通知

若要設定工作的完成時間上限,請在 [逾時] 欄位中輸入最大持續時間。 如果作業未在此時間完成,Azure Databricks 會將其狀態設定為「逾時」。

您可以選擇性地指定工作的持續時間閾值。 請參閱設定工作的預期完成時間或逾時