Note
此資訊適用於 Databricks CLI 版本 0.205 及以上。 Databricks CLI 處於 公開預覽狀態。
Databricks CLI 的使用受限於 Databricks 授權 和 Databricks 隱私權聲明,包括任何使用數據條款。
pipelines
Databricks CLI 中的指令群組包含兩組功能。 第一組讓你能管理管線專案及其工作流程。 第二組則允許你在 Databricks 中建立、編輯、刪除、啟動及查看管線物件的細節。
如需管線的相關資訊,請參閱 Lakeflow Spark 宣告式管線。
管理管線專案
以下指令可讓你管理專案中的管線。 管線專案是指可以包含一個或多個管線物件的套件。
Databricks 管線部署
部署管線時,將專案中定義的所有檔案上傳到目標工作區,並建立或更新工作區中定義的管線。
這很重要
執行此指令時,必須在專案目錄的根目錄中有一個宣告式自動化套件(Declarative Automation Bundles databricks.yml )檔案。 關於建立管線專案、部署並執行管線的教學,請參見 「使用宣告式自動化套件開發管線」。
databricks pipelines deploy [flags]
Arguments
None
選項
--auto-approve
跳過部署可能需要的互動式核准
--fail-on-active-runs
如果部署中有正在運行的管線,則失敗
--force-lock
強制取得部署鎖定。 此選項會停用防止同時部署互動的機制。 只有在先前部署當機或中斷導致鎖檔案過時,才應該使用。
Databricks 管線 摧毀
毀掉一個管線工程。
databricks pipelines destroy [flags]
Arguments
None
選項
--auto-approve
跳過互動式核准以刪除管道
--force-lock
強制取得部署鎖定。 此選項會停用防止同時部署互動的機制。 只有在先前部署當機或中斷導致鎖檔案過時,才應該使用。
Databricks 資料管線模擬演練
驗證管線圖的正確性,該圖由 KEY標示為 。 不會實體化或發布任何資料集。
databricks pipelines dry-run [flags] [KEY]
Arguments
KEY
這是該管線試跑的唯一名稱,依其 YAML 檔案定義。 如果專案中只有一條管線,則 KEY 是可選的,且該管線會自動被選中。
選項
--no-wait
不要等到執行完成
--restart
如果程序已經在運行,則重新啟動該程序
Databricks 管線產生
為現有 Spark 管線產生設定。
此指令會在指定目錄中尋找 spark-pipeline.yml or *.spark-pipeline.yml 檔案,並在定義管線的專案資料夾中產生新的 *.pipeline.yml 設定檔 resources 。 若存在多個 spark-pipeline.yml 檔案,請指定特定檔案的完整路徑 *.spark-pipeline.yml 。
databricks pipelines generate [flags]
Note
要在 Databricks 工作區中為現有管線產生設定,請參考 databricks bundle 生成管線 及 使用 Databricks CLI 為現有工作或管線生成設定。
選項
--existing-pipeline-dir
通往現有管線目錄的 src 路徑(例如, src/my_pipeline)。
--force
覆寫現有的管線設定檔。
範例
以下範例在當前目錄中讀取 src/my_pipeline/spark-pipeline.yml,然後建立一個定義管線的設定檔 resources/my_pipeline.pipeline.yml :
databricks pipelines generate --existing-pipeline-dir src/my_pipeline
Databricks 管線歷史
取得由 標識為 KEY的管線的過去執行資料。
databricks pipelines history [flags] [KEY]
Arguments
KEY
管線的唯一名稱,依其 YAML 檔案定義。 如果專案中只有一條管線,則 KEY 是可選的,且該管線會自動被選中。
選項
--end-time string
篩選器在此之前更新(格式: 2025-01-15T10:30:00Z)
--start-time string
過濾器在此時間後進行更新(格式:2025-01-15T10:30:00Z)
Databricks 管線初始化
啟動一個新的管線專案。
有關使用 Databricks CLI 建立、部署及執行管線專案的教學,請參見 「使用 宣告式自動化套件開發管線」。
databricks pipelines init [flags]
Arguments
None
選項
--config-file string
JSON 檔案,包含用於範本初始化所需的輸入參數鍵值對
--output-dir string
用來寫入初始化範本的目錄
Databricks 管線日誌
檢索由KEY識別的管線事件。 預設情況下,此指令會顯示管線最近一次更新的事件。
databricks pipelines logs [flags] [KEY]
Arguments
KEY
管線的唯一名稱,依其 YAML 檔案定義。 如果專案中只有一條管線,則 KEY 是可選的,且該管線會自動被選中。
選項
--end-time string
篩選在此結束時間之前的事件(格式: 2025-01-15T10:30:00Z)
--event-type strings
依事件類型列表篩選事件
--level strings
以日誌層級列表篩選事件(INFO, WARN, ERROR, METRICS)
-n, --number int
待回的事件數量
--start-time string
篩選此開始時間之後的事件(格式: 2025-01-15T10:30:00Z)
--update-id string
用更新 ID 篩選事件。 如果沒有提供,則使用最新的更新 ID
範例
databricks pipelines logs pipeline-name --update-id update-1 -n 10
databricks pipelines logs pipeline-name --level ERROR,METRICS --event-type update_progress --start-time 2025-01-15T10:30:00Z
Databricks 資料管道開放
在瀏覽器中開啟一個管線,標識為 KEY。
databricks pipelines open [flags] [KEY]
Arguments
KEY
該管線唯一要開啟的名稱,依其 YAML 檔案定義。 如果專案中只有一條管線,則 KEY 是可選的,且該管線會自動被選中。
選項
--force-pull
略過本機快取並從遠端工作區載入狀態
DataBricks 管線執行
執行識別為 KEY 的管線。 除非另有規定,否則會更新管線中的所有資料表。
這很重要
執行此指令時,宣告式自動化套件 databricks.yml 檔案必須位於專案目錄根目錄,且管線必須已部署完成。 關於建立管線專案、部署並執行管線的教學,請參見 「使用宣告式自動化套件開發管線」。
databricks pipelines run [flags] [KEY]
Arguments
KEY
管線唯一要執行的名稱,依照其 YAML 檔案定義。 如果專案中只有一條管線,則 KEY 是可選的,且該管線會自動被選中。
選項
--full-refresh strings
需要重置與重新計算的資料表列表
--full-refresh-all
執行完整圖重置並重新計算
--no-wait
不要等到執行完成
--refresh strings
可執行的資料表列表
--restart
如果程序已經在運行,則重新啟動該程序
databricks 資料管道停止
如果管線正在運行,請以 KEY 或 PIPELINE_ID 來識別並停止該管線。 如果管線沒有正在執行的更新,此要求不會進行任何操作(no-op)。
databricks pipelines stop [KEY|PIPELINE_ID] [flags]
Arguments
KEY
停止管線的唯一名稱,定義於其 YAML 檔案中。 如果專案中只有一條管線,則 KEY 是可選的,且該管線會自動被選中。
PIPELINE_ID
要停止的管線的UUID。
選項
--no-wait
不要等到進入IDLE狀態
--timeout duration
達到 IDLE 狀態的時間上限 (預設為 20m0s)
管理管線物件
以下指令允許您在 Databricks 中管理管線物件。 管線物件是專案內的單一管線。
databricks 資料管道建立
根據要求的組態建立新的數據處理管線。 如果成功,此命令會傳回新管線的標識碼。
databricks pipelines create [flags]
Arguments
None
選項
--json JSON
內嵌的 JSON 字串或 @path 整合至包含要求內容的 JSON 檔案。
databricks 管線刪除
刪除管線。
databricks pipelines delete PIPELINE_ID [flags]
Arguments
PIPELINE_ID
要刪除的管線。
選項
Databricks 管線獲取
取得管線。
databricks pipelines get PIPELINE_ID [flags]
Arguments
PIPELINE_ID
要取得的管線。
選項
databricks 管線 get-update
從運行中的管線獲取更新。
databricks pipelines get-update PIPELINE_ID UPDATE_ID [flags]
Arguments
PIPELINE_ID
管線的標識碼。
UPDATE_ID
更新的標識碼。
選項
databricks 資料管道 list-pipeline-events
擷取管線的事件。
databricks pipelines list-pipeline-events PIPELINE_ID [flags]
Arguments
PIPELINE_ID
要為其擷取事件的管線。
選項
--filter string
選取結果子集的準則,使用類似 SQL 的語法表示。
--max-results int
單一頁面中要傳回的項目數上限。
--page-token string
先前呼叫所傳回的頁面標記。
databricks 管線 list-pipelines
列出 Delta Live Tables 系統中定義的管線。
databricks pipelines list-pipelines [flags]
Arguments
None
選項
--filter string
根據指定的準則選取結果子集。
--max-results int
單一頁面中可返回的最大項目數量。
--page-token string
先前呼叫所傳回的頁面標記。
databricks 資料管道 列出更新
列出作用中管線的更新。
databricks pipelines list-updates PIPELINE_ID [flags]
Arguments
PIPELINE_ID
要傳回更新的管線。
選項
--max-results int
單一頁面中要傳回的項目數上限。
--page-token string
先前呼叫所傳回的頁面標記。
--until-update-id string
如果存在,則會傳回更新,直到並包含此update_id為止。
Databricks 管道啟始更新
開始管線的更新。 如果管線已經有活動更新,要求將會失敗,且活動更新會繼續執行。
databricks pipelines start-update PIPELINE_ID [flags]
Arguments
PIPELINE_ID
為此管線啟動更新。
選項
--cause StartUpdateCause
支援的值:[API_CALL、JOB_TASK、RETRY_ON_FAILURE、SCHEMA_CHANGE、SERVICE_UPGRADE、USER_ACTION]
--full-refresh
如果為 true,此更新會在執行之前重設所有數據表。
--json JSON
內嵌的 JSON 字串或 @path 整合至包含要求內容的 JSON 檔案。
--validate-only
如果為 true,此更新只會驗證管線原始程式碼的正確性,但不會具體化或發布任何數據集。
databricks 管線更新
使用提供的組態更新管線。
databricks pipelines update PIPELINE_ID [flags]
Arguments
PIPELINE_ID
此管線的唯一標識碼。
選項
--allow-duplicate-names
若錯誤,則若名稱變更且與其他管線名稱衝突,部署將失敗。
--budget-policy-id string
此管線的預算原則。
--catalog string
在 Unity Catalog 中的資料目錄,用於從此管線中發佈數據。
--channel string
Lakeflow Spark 宣告式管線的釋出通道,指定使用哪個版本。
--continuous
管線是連續運行的還是被觸發的。
--development
管線是否正在開發中。
--edition string
管線產品版本。
--expected-last-modified int
如果存在,則為編輯前管線設定的上次修改時間。
--id string
此管線的唯一標識碼。
--json JSON
內嵌的 JSON 字串或 @path 整合至包含要求內容的 JSON 檔案。
--name string
管線的友好標識碼。
--photon
是否啟用 Photon 於這個管線。
--pipeline-id string
此管線的唯一標識碼。
--schema string
預設架構(資料庫),用於讀取或寫入資料表的默認位置。
--serverless
是否已為此管線啟用無伺服器計算。
--storage string
用來儲存檢查點和數據表的 DBFS 根目錄。
--target string
要在此管線中加入數據表的目標架構(資料庫)。
databricks 管線 get-permission-levels
取得管線權限等級。
databricks pipelines get-permission-levels PIPELINE_ID [flags]
Arguments
PIPELINE_ID
要取得或管理許可權的管線。
選項
databricks 管線獲取許可權
取得管道的許可權。 管線可以從其根對象繼承許可權。
databricks pipelines get-permissions PIPELINE_ID [flags]
Arguments
PIPELINE_ID
要取得或管理許可權的管線。
選項
databricks 管道 設置權限
設定管線許可權。
設定物件的許可權,若已有許可權則予以取代。 如果未指定任何許可權,則刪除所有直接許可權。 物件可以從其根對象繼承許可權。
databricks pipelines set-permissions PIPELINE_ID [flags]
Arguments
PIPELINE_ID
要取得或管理許可權的管線。
選項
--json JSON
內嵌的 JSON 字串或 @path 整合至包含要求內容的 JSON 檔案。
Databricks 資料管道更新權限
更新管線的許可權。 管線可以從其根對象繼承許可權。
databricks pipelines update-permissions PIPELINE_ID [flags]
Arguments
PIPELINE_ID
要取得或管理許可權的管線。
選項
--json JSON
內嵌的 JSON 字串或 @path 整合至包含要求內容的 JSON 檔案。
全域旗標
--debug
是否要啟用偵錯記錄。
-h 或 --help
顯示 Databricks CLI、相關命令群組或相關命令的幫助說明。
--log-file 字串
字串,表示要寫入輸出記錄檔的檔案。 若未指定此旗標,則預設值是將輸出記錄寫入 stderr。
--log-format 格式
記錄格式類型,text 或 json。 預設值是 text。
--log-level 字串
表示日誌格式層級的字串。 若未指定,則日誌的格式層級功能將被停用。
-o, --output 類型
指令輸出類型,text 或 json。 預設值是 text。
-p, --profile 字串
用於執行命令的~/.databrickscfg檔案中的配置檔名稱。 如果未指定此旗標,則如果存在,則會使用名為 DEFAULT 的配置檔。
--progress-format 格式
顯示進度記錄的格式:default、、appendinplace、 或json
-t, --target 字串
如果適用,要使用的套件組合目標