什麼是 Databricks CLI?

注意

此資訊適用于處於公開預覽狀態 的 Databricks CLI 0.205 版和更新版本 。 若要尋找 Databricks CLI 的版本,請執行 databricks -v

Databricks 命令列介面(也稱為 Databricks CLI)提供工具,可從終端機、命令提示字元或自動化腳本自動化 Azure Databricks 平臺。

舊版 Databricks CLI 使用者的資訊

  • Databricks 計畫不支援或新功能適用于舊版 Databricks CLI。
  • 如需舊版 Databricks CLI 的詳細資訊,請參閱 Databricks CLI(舊版)。
  • 若要從 Databricks CLI 0.18 版或更新版本移轉至 Databricks CLI 0.205 版或更新版本,請參閱 Databricks CLI 移轉

Databricks CLI 如何運作?

CLI 會包裝 Databricks REST API,這是使用 REST 檢視方塊將 Azure Databricks 帳戶和資料與工作區資源和資料自動化的應用程式程式設計介面(API)。 請參閱 Azure Databricks REST API 參考

例如,若要列印工作區中個別叢集的相關資訊,請執行 CLI,如下所示:

databricks clusters get 1234-567890-a12bcde3

使用 curl 時,對等作業會更冗長地表示,而且較容易輸入錯誤,如下所示:

curl --request GET "https://${DATABRICKS_HOST}/api/2.0/clusters/get" \
     --header "Authorization: Bearer ${DATABRICKS_TOKEN}" \
     --data '{ "cluster_id": "1234-567890-a12bcde3" }'

範例:建立 Azure Databricks 作業

下列範例會使用 CLI 來建立 Azure Databricks 作業。 此作業包含單一作業工作。 此工作會執行指定的 Azure Databricks 筆記本。 此筆記本相依于名為 wheel 的特定 PyPI 套件版本。 若要執行這項工作,作業會暫時建立作業叢集,以匯出名為 的 PYSPARK_PYTHON 環境變數。 作業執行之後,叢集就會終止。

databricks jobs create --json '{
  "name": "My hello notebook job",
  "tasks": [
    {
      "task_key": "my_hello_notebook_task",
      "notebook_task": {
        "notebook_path": "/Workspace/Users/someone@example.com/hello",
        "source": "WORKSPACE"
      },
      "libraries": [
        {
          "pypi": {
            "package": "wheel==0.41.2"
          }
        }
      ],
      "new_cluster": {
        "spark_version": "13.3.x-scala2.12",
        "node_type_id": "Standard_DS3_v2",
        "num_workers": 1,
        "spark_env_vars": {
          "PYSPARK_PYTHON": "/databricks/python3/bin/python3"
        }
      }
    }
  ]
}'

下一步