Databricks CLI とは

Note

この情報は、パブリック プレビュー段階である Databricks CLI バージョン 0.205 以降に当てはまる内容です。 お使いの Databricks CLI のバージョンを確認するには、databricks -v を実行してください。

Databricks コマンド ライン インターフェイス (Databricks CLI とも呼ばれます) は、ターミナル、コマンド プロンプト、または自動化スクリプトから Azure Databricks プラットフォームを自動化するためのツールを提供します。

レガシ Databricks CLI ユーザー向けの情報

  • Databricks でレガシ Databricks CLI のサポートや新機能は計画されていません。
  • レガシ Databricks CLI の詳細については、「Databricks CLI (レガシ)」を参照してください。
  • Databricks CLI バージョン 0.18 以前から Databricks CLI バージョン 0.205 以降に移行するには、「Databricks CLI の移行」を参照してください。

Databricks CLI のしくみ

CLI には、REST パースペクティブを使用して Azure Databricks アカウントと、ワークスペースのリソースおよびデータを自動化するアプリケーション プログラミング インターフェイス (API)、Databricks REST API がラップされています。 Azure Databricks REST API リファレンスを参照してください。

たとえば、ワークスペース内の個々のクラスターに関する情報を出力するには、次のように CLI を実行します。

databricks clusters get 1234-567890-a12bcde3

curl を使用すると、次のように、これと同等の操作の表現が長くなり、入力エラーが発生しやすくなります。

curl --request GET "https://${DATABRICKS_HOST}/api/2.0/clusters/get" \
     --header "Authorization: Bearer ${DATABRICKS_TOKEN}" \
     --data '{ "cluster_id": "1234-567890-a12bcde3" }'

例: Azure Databricks ジョブを作成する

次の例では、CLI を使用して Azure Databricks ジョブを作成します。 このジョブには、1 つのジョブ タスクが含まれています。 このタスクにより、指定した Azure Databricks ノートブックが実行されます。 このノートブックには、wheel という名前の PyPI パッケージの特定のバージョンへの依存関係があります。 このタスクを実行するために、ジョブによって、PYSPARK_PYTHON という名前の環境変数をエクスポートするジョブ クラスターが一時的に作成されます。 ジョブの実行後、クラスターは終了します。

databricks jobs create --json '{
  "name": "My hello notebook job",
  "tasks": [
    {
      "task_key": "my_hello_notebook_task",
      "notebook_task": {
        "notebook_path": "/Workspace/Users/someone@example.com/hello",
        "source": "WORKSPACE"
      },
      "libraries": [
        {
          "pypi": {
            "package": "wheel==0.41.2"
          }
        }
      ],
      "new_cluster": {
        "spark_version": "13.3.x-scala2.12",
        "node_type_id": "Standard_DS3_v2",
        "num_workers": 1,
        "spark_env_vars": {
          "PYSPARK_PYTHON": "/databricks/python3/bin/python3"
        }
      }
    }
  ]
}'

次のステップ