共用方式為


Python 腳本任務用於作業

使用 Python 腳本 任務來執行 Python 檔案。

設定一個 Python 腳本任務

在開始之前,你必須將 Python 腳本上傳到使用者能設定工作的地方。 Databricks 建議使用 workspace 檔案來處理 Python 腳本。 請參閲工作區檔案是什麼?

Note

工作 UI 會根據其他已設定的設定動態顯示選項。

Databricks 建議不要使用 DBFS 根或掛載區儲存程式碼或資料。 相反地,你可以將 Python 腳本遷移到工作區檔案或卷,或使用 URI 來存取雲端物件儲存。

要開始配置 Python script 任務的流程:

  1. 流覽至 [工作 UI] 中的 [任務] 索引標籤。
  2. 按一下 新增任務
  3. [任務名稱] 欄位中輸入名稱。
  4. Type 下拉選單中,選擇 Python script

設定來源

Source 下拉選單中,使用以下選項之一選擇Python腳本的位置。

Workspace

使用 Workspace 來設定儲存在 workspace 檔案中的 Python 腳本。

  1. 按一下 [路徑] 欄位。 會出現 Select Python File對話框。
  2. 瀏覽Python腳本,點選高亮該檔案,然後點Confirm

Note

你可以用這個選項在 Databricks Git 資料夾裡的 Python 腳本上設定任務。 Databricks 建議使用Git 提供者選項和遠端 Git 存放庫來對排程工作中的資產進行版本控制。

DBFS/ADLS

使用 DBFS/ADLS 來設定儲存在卷、雲端物件儲存位置或 DBFS 根節點中的 Python腳本。

Databricks 建議將 Python 腳本儲存在 Unity 目錄卷或雲端物件儲存中。

Path 欄位,輸入你Python腳本的 URI。 例如,dbfs:/path/to/script.pyabfss://container-name@storage-account-name.dfs.core.windows.net/path/to/script.py

Git 提供者

使用 Git provider 來設定儲存在遠端 Git 儲存庫中的 Python 腳本。

UI 所顯示的選項取決於您是否已在其他地方設定了 Git 提供者。 只有一個遠端 Git 存放庫可用於工作中的所有任務。 請參見「使用 Git 搭配 Lakeflow 工作」。

[路徑] 欄位會出現在您設定 Git 參考之後。

輸入你Python腳本的相對路徑,例如 etl/bronze/ingest.py

Important

當您輸入相對路徑時,請勿以 /./開頭。 例如,如果你想存取的Python碼的絕對路徑是 /etl/bronze/ingest.py,請在 etl/bronze/ingest.py 欄位輸入

設定計算和相依程式庫

  1. 使用 [計算] 來選取或設定在指令碼中支援邏輯的叢集。
  2. 如果您使用 Serverless 計算,請使用 [環境與連結庫] 欄位來選取、編輯或新增環境。 請參閱 設定無伺服器環境
  3. 對於所有其他計算設定,請在 [相依程式庫] 下按 [+ 新增]。 此時 [新增相依程式庫] 對話方塊將隨即顯示。
    • 您可以選取現有的連結庫或上傳新的連結庫。
    • 只能使用儲存在計算組態所支援位置的程式庫。 請參見 Python 函式庫支援
    • 每個程式庫來源都有不同的程式庫選取或上傳流程。 請參閱 安裝連結庫

完成工作組態

  1. (可選)將 Parameters 配置為一串字串,作為 CLI 參數傳遞給 Python 腳本。 請參閱 設定工作參數
  2. 按一下 [儲存工作]