Поделиться через


Запуск файла в кластере или файле или записной книжке в качестве задания в Azure Databricks с помощью расширения Databricks для Visual Studio Code

Расширение Databricks для Visual Studio Code позволяет запускать код Python в кластере или python, R, Scala или SQL-коде или записной книжке в качестве задания в Azure Databricks.

Эта информация предполагает, что вы уже установили и настроили расширение Databricks для Visual Studio Code. См . раздел "Установка расширения Databricks" для Visual Studio Code.

Примечание.

Для отладки кода или записных книжек из Visual Studio Code используйте Databricks Connect. См . код отладки с помощью Databricks Connect для расширения Databricks для Visual Studio Code и запуска и отладки ячеек записной книжки с Databricks Connect с помощью расширения Databricks для Visual Studio Code.

Запуск файла Python в кластере

Чтобы запустить файл Python в кластере Azure Databricks с помощью расширения Databricks для Visual Studio Code, с расширением и открытым проектом:

  1. Откройте файл Python, который требуется запустить в кластере.
  2. Выполните одно из следующих действий:
    • В строке заголовка редактора файлов щелкните значок "Запуск в Databricks ", а затем нажмите кнопку "Отправить и запустить файл".

      Отправка и запуск файла из значка

    • В представлении проводника (просмотр > обозревателя) щелкните правой кнопкой мыши файл и выберите команду "Запустить в Databricks>Upload and Run File" в контекстном меню.

      Отправка и запуск файла из контекстного меню

Файл выполняется в кластере и выходные данные доступны в консоли отладки (просмотр > консоли отладки).

Запуск файла Python в качестве задания

Чтобы запустить файл Python в качестве задания Azure Databricks с помощью расширения Databricks для Visual Studio Code, с расширением и открытым проектом:

  1. Откройте файл Python, который вы хотите запустить в качестве задания.
  2. Выполните одно из следующих действий:
    • В строке заголовка редактора файлов щелкните значок "Запуск в Databricks ", а затем нажмите кнопку "Запустить файл как рабочий процесс".

      Запуск файла в качестве рабочего процесса из значка

    • В представлении обозревателя (просмотр > обозревателя) щелкните правой кнопкой мыши файл и выберите команду "Выполнить в Databricks>Run File as Workflow" в контекстном меню.

      Запуск файла в качестве рабочего процесса из контекстного меню

Откроется новая вкладка редактора с названием Databricks Job Run. Файл выполняется как задание в рабочей области, и все выходные данные печатаются в новой области вывода вкладки редактора.

Чтобы просмотреть сведения о выполнении задания, щелкните ссылку идентификатора запуска задачи на новой вкладке редактора задания Databricks. Откроется рабочая область, а сведения о выполнении задания отображаются в рабочей области.

Запуск записной книжки Python, R, Scala или SQL в качестве задания

Чтобы запустить записную книжку в качестве задания Azure Databricks с помощью расширения Databricks для Visual Studio Code, с расширением и открытым проектом:

  1. Откройте записную книжку, которую вы хотите запустить в качестве задания.

    Совет

    Чтобы превратить python, R, Scala или SQL-файл в записную книжку Azure Databricks, добавьте комментарий # Databricks notebook source в начало файла и добавьте комментарий # COMMAND ---------- перед каждой ячейкой. Дополнительные сведения см. в статье "Импорт файла" и его преобразование в записную книжку.

    Файл кода Python, форматированный как записная книжка Databricks1

  2. Выполните одно из следующих действий:

    • В строке заголовка редактора записных книжек щелкните значок "Запуск в Databricks ", а затем нажмите кнопку "Запустить файл как рабочий процесс".

    Примечание.

    Если запуск в Databricks как рабочий процесс недоступен, см. статью "Создание настраиваемой конфигурации запуска".

    • В представлении проводника (просмотр > обозревателя) щелкните правой кнопкой мыши файл записной книжки и выберите команду "Выполнить в Databricks>Run File as Workflow" в контекстном меню.

Откроется новая вкладка редактора с названием Databricks Job Run. Записная книжка выполняется как задание в рабочей области. Записная книжка и ее выходные данные отображаются в области вывода новой вкладки редактора.

Чтобы просмотреть сведения о выполнении задания, щелкните ссылку идентификатора запуска задачи на вкладке редактора задания Databricks. Откроется рабочая область, а сведения о выполнении задания отображаются в рабочей области.

Создание настраиваемой конфигурации запуска

Настраиваемая конфигурация запуска для расширения Databricks для Visual Studio Code позволяет передавать пользовательские аргументы в задание или записную книжку или создавать различные параметры выполнения для разных файлов.

Чтобы создать настраиваемую конфигурацию запуска, нажмите кнопку "Выполнить > добавление конфигурации " в главном меню в Visual Studio Code. Затем выберите Databricks для конфигурации запуска на основе кластера или Databricks: рабочий процесс для конфигурации запуска на основе заданий.

Например, следующая настраиваемая конфигурация выполнения изменяет команду запуска файла запуска в качестве рабочего процесса , чтобы передать --prod аргумент в задание:

{
  "version": "0.2.0",
  "configurations": [
    {
      "type": "databricks-workflow",
      "request": "launch",
      "name": "Run on Databricks as Workflow",
      "program": "${file}",
      "parameters": {},
      "args": ["--prod"]
    }
  ]
}

Совет

"type": "python" Добавьте "databricks": true в конфигурацию, если вы хотите использовать конфигурацию Python, но воспользуйтесь проверкой подлинности Databricks Connect, которая входит в программу установки расширения.

С помощью пользовательских конфигураций запуска можно также передать аргументы командной строки и запустить код, просто нажав клавишу F5. Дополнительные сведения см. в разделе "Запуск конфигураций " в документации по Visual Studio Code.