分享方式:


使用適用於工作流程的無伺服器計算來執行 Azure Databricks 工作

重要

由於適用於工作流程的無伺服器計算不支援控制輸出流量,因此您的工作具有網際網路的完整存取權。

工作流程的無伺服器計算可讓您執行 Azure Databricks 工作,而不需設定及部署基礎結構。 透過無伺服器計算,您可以專注於實作資料處理和分析管線,而 Azure Databricks 可高效地管理計算資源,包括最佳化和調整工作負載的計算。 自動調整和 Photon 會自動針對執行工作的計算資源啟用。

適用於工作流程的無伺服器計算自動最佳化,會根據您的工作負載選取適當的資源 (例如執行個體類型、記憶體和處理引擎),來進行自動最佳化計算。 自動最佳化也會自動重試失敗的工作。

Databricks 會自動升級 Databricks Runtime 版本,以支援對平台的增強功能和升級,同時確保 Azure Databricks 工作的穩定性。 若要查看適用於工作流程的無伺服器計算目前使用的 Databricks Runtime 版本,請參閱無伺服器計算版本資訊

由於不需要叢集建立權限,因此所有工作區使用者都可以使用無伺服器計算來執行其工作流程。

本文說明如何使用 Azure Databricks 工作 UI 來建立和執行使用無伺服器計算的工作。 您也可以搭配工作 API、Databricks Asset Bundles 和適用於 Python 的 Databricks SDK 使用無伺服器計算,自動化建立和執行工作。

需求

  • 您的 Azure Databricks 工作區必須啟用 Unity 目錄。

  • 由於適用於工作流程的無伺服器計算使用共用存取模式,因此您的工作負載必須支援此存取模式。

  • 您的 Azure Databricks 工作區必須位於受支援區域。 請參閱功能可用性

  • 您的 Azure Databricks 帳戶必須啟用無伺服器計算。 請參閱啟用無伺服器計算

使用無伺服器計算建立工作

注意

由於適用於工作流程的無伺服器計算可確保佈建足夠的資源來執行工作負載,因此在執行需要大量記憶體或包含許多任務的 Azure Databricks 工作時,您可能會遇到啟動時間增加的情況。

Notebook、Python 指令、dbt 和 Python Wheel 任務類型支援無伺服器計算。 根據預設,當您建立新工作並新增其中一個支援的任務類型時,會選取無伺服器計算作為計算類型。

建立無伺服器任務

Databricks 建議針對所有工作任務使用無伺服器計算。 您也可以為工作中的任務指定不同的計算類型,如果適用於工作流程的無伺服器計算不支援某個任務類型,則可能需要此類型。

將現有的工作設定為使用無伺服器計算

您可以在編輯工作時,將現有的工作切換為針對支援的任務類型使用無伺服器計算。 若要切換至無伺服器計算,請:

  • 在 [工作詳細資料] 側面板中,按下 [計算] 底下的 [交換],按下 [新增],輸入或更新任何設定,然後按下 [更新]
  • 按下 [計算] 下拉式功能表中的 向下插入點,然後選取 [無伺服器]

將任務切換為無伺服器計算

使用無伺服器計算排程筆記本

除了使用工作 UI 來建立及排程可使用無伺服器計算的工作之外,您還可以直接從 Databricks 筆記本建立和執行可使用無伺服器計算的工作。 請參閱建立及管理排程作業

設定 Spark 組態參數

若要在無伺服器計算上自動設定 Spark,Databricks 只允許設定特定的 Spark 組態參數。 如需允許的參數清單,請參閱支援的 Spark 組態參數

您只能在工作階段層級設定 Spark 組態參數。 為此,請在筆記本中進行設定,並將筆記本新增至使用這些參數的相同工作中包含的任務中。 請參閱在筆記本取得和設定 Apache Spark 組態屬性

設定環境和相依性

若要了解如何使用無伺服器計算來安裝程式庫和相依性,請參閱安裝筆記本相依性

設定無伺服器計算自動最佳化,以禁止重試

適用於工作流程的無伺服器計算自動最佳化會自動最佳化用來執行工作和重試失敗工作的計算。 預設會啟用自動最佳化,因此 Databricks 建議讓其保持啟用狀態,以確保關鍵性工作負載可至少執行一次。 不過,如果您有必須最多僅執行一次的工作負載 (例如,非等冪工作作),您可以在新增或編輯任務時關閉自動最佳化:

  1. 在 [重試] 旁邊,按下 [新增] (或 編輯圖示,如果已存在重試原則)。
  2. 在 [重試原則] 對話方塊中,取消選取 [啟用無伺服器自動最佳化 (可能包含其他重試)]
  3. 按一下確認
  4. 如果您要新增任務,請按下 [建立任務]。 如果您要編輯任務,請按下 [儲存任務]

監視使用適用於工作流程的無伺服器計算的工作成本

您可以查詢計費使用量系統資料表,來監視使用適用於工作使流程的無伺服器計算的工作成本。 此資料表已更新,包含有關無伺服器成本的使用者和工作負載屬性。 請參閱計費使用量系統資料表參考

檢視 Spark 查詢的詳細資料

適用於工作流程的無伺服器計算有新的介面,可讓您檢視 Spark 陳述式的詳細執行階段資訊,例如計量和查詢計劃。 若要檢視在無伺服器計算上執行的工作中包含的 Spark 陳述式查詢深入解析:

  1. 按一下 工作流程圖示 側邊欄中的 [工作流程]。
  2. 在 [名稱] 資料行中,按下您想要檢視深入解析的工作名稱。
  3. 按下您想要檢視深入解析的特定執行。
  4. 在 [任務執行] 側面板的 [計算] 區段中,按下 [查詢歷史記錄]
  5. 隨即會根據您所處的任務的任務執行識別碼,將您重新導向至 [查詢歷史記錄]。

如需使用查詢歷史記錄的資訊,請參閱查詢歷史記錄

限制

如需適用於工作流程的無伺服器計算的限制清單,請參閱無伺服器計算版本資訊中的無伺服器計算限制