Что такое Интерфейс командной строки Databricks?

Примечание.

Эта информация относится к Интерфейсу командной строки Databricks версии 0.205 и выше, которые находятся в общедоступной предварительной версии. Чтобы найти версию интерфейса командной строки Databricks, выполните команду databricks -v.

Интерфейс командной строки Databricks (также известный как Интерфейс командной строки Databricks) предоставляет средство автоматизации платформы Azure Databricks из терминала, командной строки или скриптов автоматизации.

Сведения о устаревших пользователях Интерфейса командной строки Databricks

  • Databricks не планирует поддержку или новую функцию для устаревшей интерфейса командной строки Databricks.
  • Дополнительные сведения о устаревшей интерфейсе командной строки Databricks см. в статье Databricks CLI (устаревшая версия).
  • Сведения о миграции из Databricks CLI версии 0.18 или ниже в Databricks CLI версии 0.205 или более поздней, см. в статье Databricks CLI.

Как работает интерфейс командной строки Databricks?

Интерфейс командной строки упаковывает REST API Databricks, интерфейс программирования приложений (API), который использует перспективу REST для автоматизации учетной записи Azure Databricks и ресурсов рабочей области и данных. См. справочник по REST API Azure Databricks.

Например, чтобы распечатать сведения о отдельном кластере в рабочей области, выполните интерфейс командной строки следующим образом:

databricks clusters get 1234-567890-a12bcde3

При этом curlэквивалентная операция является более длинной для выражения и более подвержена ошибкам ввода, как показано ниже.

curl --request GET "https://${DATABRICKS_HOST}/api/2.0/clusters/get" \
     --header "Authorization: Bearer ${DATABRICKS_TOKEN}" \
     --data '{ "cluster_id": "1234-567890-a12bcde3" }'

Пример. Создание задания Azure Databricks

В следующем примере интерфейс командной строки используется для создания задания Azure Databricks. Это задание содержит одну задачу задания. Эта задача выполняет указанную записную книжку Azure Databricks. Эта записная книжка зависит от определенной версии пакета PyPI с именем wheel. Для выполнения этой задачи задание временно создает кластер заданий, который экспортирует переменную среды с именем PYSPARK_PYTHON. После выполнения задания кластер завершается.

databricks jobs create --json '{
  "name": "My hello notebook job",
  "tasks": [
    {
      "task_key": "my_hello_notebook_task",
      "notebook_task": {
        "notebook_path": "/Workspace/Users/someone@example.com/hello",
        "source": "WORKSPACE"
      },
      "libraries": [
        {
          "pypi": {
            "package": "wheel==0.41.2"
          }
        }
      ],
      "new_cluster": {
        "spark_version": "13.3.x-scala2.12",
        "node_type_id": "Standard_DS3_v2",
        "num_workers": 1,
        "spark_env_vars": {
          "PYSPARK_PYTHON": "/databricks/python3/bin/python3"
        }
      }
    }
  ]
}'

Следующие шаги