Note
此資訊適用於 Databricks CLI 版本 0.205 及以上。 Databricks CLI 處於 公開預覽狀態。
Databricks CLI 的使用須遵循 Databricks 許可證 和 Databricks 隱私通知,包括任何使用資料條款。
clusters 內的命令群組可讓您建立、啟動、編輯、列出、終止和刪除叢集。
Databricks 叢集是一組計算資源和組態,可讓您執行數據工程、數據科學和數據分析工作負載,例如生產 ETL 管線、串流分析、臨機作分析和機器學習。 請參閱 傳統運算概觀。
Important
Databricks 會保留終止叢集 30 天的叢集組態資訊。 若要保留所有用途的叢集組態,即使終止超過 30 天,系統管理員也可以將叢集釘選到叢集清單。
databricks 群集變更擁有者
變更叢集的擁有者。 您必須是系統管理員,而且叢集必須終止才能執行這項作業。 服務主體應用程式標識碼可以當做自變數提供給owner_username。
databricks clusters change-owner CLUSTER_ID OWNER_USERNAME [flags]
Arguments
CLUSTER_ID
叢集標識碼。
OWNER_USERNAME
此 RPC 之後 cluster_id 的新擁有者。
選項
--json JSON
內嵌 JSON 字串或 @path 具有要求本文的 JSON 檔案
databricks 創建叢集
建立新叢集。 此命令會視需要從雲端提供者取得新的實例。 此命令是異步的;傳回cluster_id可用來輪詢叢集狀態。 當這個指令回傳時,叢集處於待處理狀態。 叢集一旦進入執行狀態即可使用。 由於雲端提供者限制(帳戶限制、現貨價格等)或暫時性網路問題,Databricks 可能無法取得某些要求的節點。
如果 Databricks 取得至少 85 個% 要求的隨選節點,叢集建立將會成功。 否則叢集會以資訊錯誤訊息終止。
Databricks 建議填寫 建立計算 UI ,然後從 UI 複製產生的 JSON 定義,而不是從頭開始撰寫叢集的 JSON 定義。
databricks clusters create SPARK_VERSION [flags]
Arguments
SPARK_VERSION
叢集的 Spark 版本,例如 13.3.x-scala2.12。 您可以使用列出可用的 Spark 版本 API 來擷取 可用的 Spark 版本 清單。
選項
--apply-policy-default-values
當設定為 true,則會使用政策中的固定值和預設值來處理被省略的欄位。
--autotermination-minutes int
在叢集處於非使用中狀態之後,會在幾分鐘內自動終止叢集。
--cluster-name string
使用者要求的叢集名稱。
--data-security-mode DataSecurityMode
數據安全性模式決定從叢集存取數據時要使用的數據控管模型。 支援的值:DATA_SECURITY_MODE_AUTO、、、DATA_SECURITY_MODE_DEDICATEDDATA_SECURITY_MODE_STANDARDLEGACY_PASSTHROUGHLEGACY_SINGLE_USERLEGACY_SINGLE_USER_STANDARDLEGACY_TABLE_ACL、、 NONESINGLE_USERUSER_ISOLATION
--driver-instance-pool-id string
叢集驅動程式所屬實例集區的選擇性標識碼。
--driver-node-type-id string
Spark 驅動程式的節點類型。
--enable-elastic-disk
自動調整本機儲存:啟用時,這個叢集會在 Spark 工作執行個體的磁碟空間不足時動態取得額外的磁碟空間。
--enable-local-disk-encryption
是否要在叢集 VM 的本機磁碟上啟用 LUKS。
--instance-pool-id string
叢集所屬實例集區的選擇性標識符。
--is-single-node
只有在 kind = CLASSIC_PREVIEW時,才能使用此欄位。
--json JSON
內嵌 JSON 字串或 @path 具有要求本文的 JSON 檔案
--kind Kind
這個計算規格所描述的計算類型。 支援的值:CLASSIC_PREVIEW
--no-wait
不要等到達到運行狀態
--node-type-id string
此欄位透過單一值,將對此叢集中每個 Spark 節點可使用的資源編碼。
--num-workers int
此叢集應該擁有的工作節點數目。
--policy-id string
適用時用來建立叢集之叢集原則的標識符。
--runtime-engine RuntimeEngine
決定叢集的運行引擎,可以是標準引擎或 Photon 引擎。 支援的值:NULL、PHOTON、STANDARD
--single-user-name string
如果 data_security_mode 為 SINGLE_USER,則為單一用戶名稱。
--timeout duration
達到執行狀態的時間上限(預設為 20m0s)
--use-ml-runtime
只有在 kind = CLASSIC_PREVIEW時,才能使用此欄位。
刪除 Databricks 叢集
以指定的標識碼終止叢集。 叢集將以非同步方式移除。 一旦終止完成,叢集就進入狀態 TERMINATED 。 如果叢集已經處於 a TERMINATING 或 TERMINATED 狀態,則不會發生任何事。
databricks clusters delete CLUSTER_ID [flags]
Arguments
CLUSTER_ID
要被終止的叢集。
選項
--json JSON
內嵌 JSON 字串或 @path 具有要求本文的 JSON 檔案
--no-wait
不要等待到達 TERMINATED 狀態
--timeout duration
達到 TERMINATED 狀態的時間上限(預設為 20m0s)
Databricks 叢集設定編輯
更新叢集的組態,以符合所提供的屬性和大小。 如果叢集處於 RUNNING 或 TERMINATED 狀態,則可以更新叢集。
如果叢集在執行中(RUNNING)狀態下更新,會重新啟動以啟動新的屬性。
若叢集在終止狀態下更新,則仍維持終止狀態。 下次用叢集/啟動 API 啟動時,新的屬性就會生效。 任何嘗試在其他狀態下更新叢集的行為都會被拒絕,返回INVALID_STATE錯誤碼。
Databricks 作業服務所建立的叢集無法編輯。
databricks clusters edit CLUSTER_ID SPARK_VERSION [flags]
Arguments
CLUSTER_ID
叢集的標識碼
SPARK_VERSION
叢集的 Spark 版本,例如 13.3.x-scala2.12。 您可以使用列出可用的 Spark 版本 API 來擷取 可用的 Spark 版本 清單。
選項
--apply-policy-default-values
針對省略的欄位,使用原則中的固定和預設值。
--autotermination-minutes int
在叢集處於非使用狀態之後,以分鐘為單位自動終止叢集。
--cluster-name string
使用者要求的叢集名稱。
--data-security-mode DataSecurityMode
數據安全性模式決定從叢集存取數據時要使用的數據控管模型。 支援的值:DATA_SECURITY_MODE_AUTO、、、DATA_SECURITY_MODE_DEDICATED``, DATA_SECURITY_MODE_STANDARDLEGACY_PASSTHROUGH、、、LEGACY_SINGLE_USERLEGACY_SINGLE_USER_STANDARDLEGACY_TABLE_ACLNONESINGLE_USERUSER_ISOLATION
--driver-instance-pool-id string
叢集驅動程式所屬實例集區的選擇性標識碼。
--driver-node-type-id string
Spark 驅動程式的節點類型。
--enable-elastic-disk
自動調整本機儲存:啟用時,這個叢集會在 Spark 工作執行個體的磁碟空間不足時動態取得額外的磁碟空間。
--enable-local-disk-encryption
是否要在叢集 VM 的本機磁碟上啟用 LUKS。
--instance-pool-id string
叢集所屬實例集區的選擇性標識符。
--is-single-node
只有在 kind = CLASSIC_PREVIEW時,才能使用此欄位。
--json JSON
內嵌 JSON 字串或 @path 具有要求本文的 JSON 檔案
--kind Kind
這個計算規格所描述的計算類型。 支援的值:CLASSIC_PREVIEW
--no-wait
不要等到達到運行狀態
--node-type-id string
此欄位透過單一值,將對此叢集中每個 Spark 節點可使用的資源編碼。
--num-workers int
此叢集應該擁有的工作節點數目。
--policy-id string
適用時用來建立叢集之叢集原則的標識符。
--runtime-engine RuntimeEngine
決定叢集的運行引擎,可以是標準引擎或 Photon 引擎。 支援的值:NULL、PHOTON、STANDARD
--single-user-name string
如果data_security_mode為SINGLE_USER,則為單一用戶名稱。
--timeout duration
達到執行狀態的時間上限(預設為 20m0s)
--use-ml-runtime
只有在 kind = CLASSIC_PREVIEW時,才能使用此欄位。
databricks 叢集事件
列出叢集活動的相關事件。 此 API 支援分頁功能。 如果有更多要讀取的事件,回應會包含要求下一頁事件所需的所有參數。
databricks clusters events CLUSTER_ID [flags]
Arguments
CLUSTER_ID
要擷取相關事件的叢集標識碼。
選項
--end-time int
以 epoch 毫秒為單位的結束時間。
--json JSON
內嵌 JSON 字串或 @path 具有要求本文的 JSON 檔案
--limit int
已被取代:請改用page_token搭配page_size。
--offset int
已被取代:請改用page_token搭配page_size。
--order GetEventsOrder
列出事件的順序。 支援的值:ASC、DESC
--page-size int
要包含在事件頁面中的事件數目上限。
--page-token string
使用從上一個要求傳回的next_page_token或prev_page_token,分別列出下一頁或上一頁的事件。
--start-time int
以 epoch 毫秒為單位的起始時間。
databricks 叢集取得
根據其 ID 取得叢集的資訊。 叢集在運行中或在終止後的最多60天內都可以獲得描述。
databricks clusters get CLUSTER_ID [flags]
Arguments
CLUSTER_ID
要從中擷取資訊的叢集。
選項
databricks 叢集清單
列出所有已釘選和運行中叢集的相關資訊,以及過去 30 天內終止的所有叢集。 不包含在此期間之前終止的叢集。
databricks clusters list [flags]
Arguments
None
選項
--cluster-sources []string
依來源篩選叢集
--cluster-states []string
依狀態篩選叢集
--is-pinned
根據釘選狀態篩選叢集
--page-size int
使用此欄位可指定要由伺服器傳回的結果數目上限。
--page-token string
使用從上一個要求傳回的next_page_token或prev_page_token,分別列出叢集的下一頁或上一頁。
--policy-id string
依策略 ID 篩選叢集
databricks 叢集 list-node-types
列出支援的Spark節點類型。 這些節點類型可用來啟動叢集。
databricks clusters list-node-types [flags]
Arguments
None
選項
databricks 叢集清單區域
列出可在 中建立叢集的可用性區域(例如 us-west-2a)。 這些區域可用來啟動叢集。
databricks clusters list-zones [flags]
Arguments
None
選項
databricks 叢集永久刪除
永久刪除叢集。 此叢集已終止,且會以異步方式移除資源。
此外,使用者將不再在叢集清單中看到永久刪除的叢集,而 API 使用者無法再對永久刪除的叢集執行任何動作。
databricks clusters permanent-delete CLUSTER_ID [flags]
Arguments
CLUSTER_ID
要刪除的叢集。
選項
--json JSON
內嵌 JSON 字串或 @path 具有要求本文的 JSON 檔案
databricks 叢集釘選
釘選叢集以確保 ListClusters API 隨時都會返回此叢集。 再次釘選已釘選的叢集將不會有任何作用。 此 API 只能由工作區系統管理員呼叫。
databricks clusters pin CLUSTER_ID [flags]
Arguments
CLUSTER_ID
叢集標識碼。
選項
--json JSON
內嵌 JSON 字串或 @path 具有要求本文的 JSON 檔案
databricks 叢集調整大小
調整叢集規模,以達到所需的工作節點數目。 除非叢集處於執行中狀態,否則這會失敗。
databricks clusters resize CLUSTER_ID [flags]
Arguments
CLUSTER_ID
需調整大小的叢集。
選項
--json JSON
內嵌 JSON 字串或 @path 具有要求本文的 JSON 檔案
--no-wait
不要等到達到運行狀態
--num-workers int
此叢集應該擁有的工作節點數目。
--timeout duration
達到 RUNNING 狀態的時間上限 (預設為 20m0s)
databricks 叢集重新啟動
使用指定的識別碼重新啟動叢集。 如果叢集目前不是執行狀態,什麼都不會發生。
databricks clusters restart CLUSTER_ID [flags]
Arguments
CLUSTER_ID
要啟動的計算叢集。
選項
--json JSON
內嵌 JSON 字串或 @path 具有要求本文的 JSON 檔案
--no-wait
不要等到達到運行狀態
--restart-user string
重新啟動叢集的使用者。
--timeout duration
達到 RUNNING 狀態的時間上限 (預設為 20m0s)
databricks 叢集 spark-versions
列出可用的 Spark 版本。 這些版本可用來啟動叢集。
databricks clusters spark-versions [flags]
Arguments
None
選項
Databricks 叢集啟動中
使用指定的標識碼啟動終止的叢集。 這與 createCluster 類似:- 保留先前的叢集ID和屬性。 - 叢集會從最後一個指定的叢集大小開始。 - 如果上一個叢集是自動調整叢集,則目前的叢集會以節點數目下限開始。 - 如果叢集目前未處於終止狀態,則不會發生任何事。 - 啟動以執行作業的叢集無法啟動。
databricks clusters start CLUSTER_ID [flags]
Arguments
CLUSTER_ID
要啟動的計算叢集。
選項
--json JSON
內嵌 JSON 字串或 @path 具有要求本文的 JSON 檔案
--no-wait
不要等到達到運行狀態
--timeout duration
達到 RUNNING 狀態的時間上限 (預設為 20m0s)
databricks 叢集取消釘選
取消釘選叢集,從而允許該叢集最終可從 ListClusters API 中移除。 取消釘選未釘選的叢集將不會有任何作用。 此 API 只能由工作區系統管理員呼叫。
databricks clusters unpin CLUSTER_ID [flags]
Arguments
CLUSTER_ID
叢集標識碼。
選項
--json JSON
內嵌 JSON 字串或 @path 具有要求本文的 JSON 檔案
databricks 叢集更新
更新叢集的組態,以調整至符合部分屬性和大小。 在請求本文中使用 update_mask 欄位指定要更新的欄位。 如果叢集處於 RUNNING 或 TERMINATED 狀態,則可以更新叢集。 如果在執行中狀態時更新叢集,則會重新啟動叢集,讓新的屬性生效。 如果叢集在 TERMINATED 狀態下更新,它將維持在 TERMINATED 狀態。 更新的屬性會在下次使用叢集啟動 API 時生效。 嘗試以任何其他狀態更新叢集將會遭到拒絕,並出現INVALID_STATE錯誤碼。 Databricks 作業服務所建立的叢集無法更新。
databricks clusters update CLUSTER_ID UPDATE_MASK [flags]
Arguments
CLUSTER_ID
叢集的標識碼。
UPDATE_MASK
用來指定要更新的叢集屬性和大小欄位。 如需詳細資訊,請參閱 https://google.aip.dev/161。 欄位遮罩必須是單一字串,並以逗號分隔多個字段(無空格)。 欄位路徑相對於資源物件,使用點 (.) 來巡覽子欄位 (例如 , author.given_name)。 不允許序列或對應欄位中的專案規格,因為只能指定整個集合欄位。 功能變數名稱必須完全符合資源功能變數名稱。 使用 _ 的欄位遮罩表示完整取代。 建議一律明確列出要更新的字段,並避免使用 _ 通配符,因為如果 API 未來變更,可能會導致非預期的結果。
選項
--json JSON
內嵌 JSON 字串或 @path 具有要求本文的 JSON 檔案
--no-wait
不要等到達到運行狀態
--timeout duration
達到 RUNNING 狀態的時間上限 (預設為 20m0s)
databricks 叢集 get-permission-levels
取得叢集許可權等級。
databricks clusters get-permission-levels CLUSTER_ID [flags]
Arguments
CLUSTER_ID
要取得或管理許可權的叢集。
選項
databricks 叢集 權限取得
取得叢集許可權。 叢集可以從其根對象繼承許可權。
databricks clusters get-permissions CLUSTER_ID [flags]
Arguments
CLUSTER_ID
要取得或管理許可權的叢集。
選項
databricks 叢集 設定權限
設定叢集許可權,如果現有許可權存在,則會取代現有的許可權。 如果未指定任何許可權,則刪除所有直接許可權。 物件可以從其根對象繼承許可權。
databricks clusters set-permissions CLUSTER_ID [flags]
Arguments
CLUSTER_ID
要取得或管理許可權的叢集。
選項
--json JSON
內嵌 JSON 字串或 @path 具有要求本文的 JSON 檔案
databricks 叢集更新許可權
更新叢集的許可權。 叢集可以從其根對象繼承許可權。
databricks clusters update-permissions CLUSTER_ID [flags]
Arguments
CLUSTER_ID
要取得或管理許可權的叢集。
選項
--json JSON
內嵌 JSON 字串或 @path 具有要求本文的 JSON 檔案
全域旗標
--debug
是否要啟用偵錯記錄。
-h 或 --help
顯示 Databricks CLI、相關命令群組或相關命令的幫助說明。
--log-file 字串
字串,表示要寫入輸出記錄檔的檔案。 若未指定此旗標,則預設值是將輸出記錄寫入 stderr。
--log-format 格式
記錄格式類型或 textjson。 預設值是 text。
--log-level 字串
表示日誌格式層級的字串。 若未指定,則日誌的格式層級功能將被停用。
-o, --output 類型
指令輸出類型或 textjson。 預設值是 text。
-p, --profile 字串
要用來執行命令之檔案中的 ~/.databrickscfg 配置檔名稱。 如果未指定此旗標,則如果存在,則會使用名為 DEFAULT 的配置檔。
--progress-format 格式
顯示進度記錄的格式:default、、appendinplace、 或json
-t, --target 字串
如果適用,要使用的套件組合目標