什么是 Databricks CLI?

注意

此信息适用于 Databricks CLI 0.205 及更高版本,这些版本为公共预览版。 若要查找你的 Databricks CLI 的版本,请运行 databricks -v

Databricks 命令行界面(也称 Databricks CLI)提供了一个工具,让用户通过终端、命令提示符或自动化脚本实现 Azure Databricks 平台的自动化。 还可以使用 Web 终端从 Databricks 工作区中运行 Databricks CLI 命令。 请参阅在 Azure Databricks Web 终端中运行 Shell 命令

旧版 Databricks CLI 用户的信息

  • Databricks 计划不对旧版 Databricks CLI 提供支持或新功能。
  • 有关旧版 Databricks CLI 的详细信息,请参阅 Databricks CLI(旧版)
  • 若要从 Databricks CLI 版本 0.18 或更低版本迁移到 Databricks CLI 版本 0.205 或更高版本,请参阅 Databricks CLI 迁移

Databricks CLI 的工作原理是什么?

CLI 包装 Databricks REST API,此 API 提供用于修改或请求有关 Azure Databricks 帐户和工作区对象的信息的终结点。 请参阅 Azure Databricks REST API 参考

例如,若要输出有关工作区中单个群集的信息,请按如下方式运行 CLI:

databricks clusters get 1234-567890-a12bcde3

对于 curl,等效的操作如下所示:

curl --request GET "https://${DATABRICKS_HOST}/api/2.0/clusters/get" \
     --header "Authorization: Bearer ${DATABRICKS_TOKEN}" \
     --data '{ "cluster_id": "1234-567890-a12bcde3" }'

示例:创建 Azure Databricks 作业

以下示例使用 CLI 创建 Azure Databricks 作业。 该作业包含单个作业任务。 此任务运行指定的 Azure Databricks 笔记本。 此笔记本依赖于名为 wheel 的特定版本的 PyPI 包。 为了运行此任务,作业会临时创建一个会导出名为 PYSPARK_PYTHON 的环境变量的作业集群。 作业运行后,群集会终止。

databricks jobs create --json '{
  "name": "My hello notebook job",
  "tasks": [
    {
      "task_key": "my_hello_notebook_task",
      "notebook_task": {
        "notebook_path": "/Workspace/Users/someone@example.com/hello",
        "source": "WORKSPACE"
      },
      "libraries": [
        {
          "pypi": {
            "package": "wheel==0.41.2"
          }
        }
      ],
      "new_cluster": {
        "spark_version": "13.3.x-scala2.12",
        "node_type_id": "Standard_DS3_v2",
        "num_workers": 1,
        "spark_env_vars": {
          "PYSPARK_PYTHON": "/databricks/python3/bin/python3"
        }
      }
    }
  ]
}'

后续步骤