Поделиться через


Руководство. Запуск Python в кластере и в качестве задания с помощью расширения Databricks для Visual Studio Code

В этом руководстве описано, как настроить расширение Databricks для Visual Studio Code, а затем запустить Python в кластере Azure Databricks и в качестве задания Azure Databricks в удаленной рабочей области. См. раздел "Что такое расширение Databricks для Visual Studio Code?".

Требования

В этом руководстве требуется следующее:

Шаг 1. Создание проекта Databricks

На этом шаге вы создадите проект Databricks и настройте подключение к удаленной рабочей области Azure Databricks.

  1. Запустите Visual Studio Code, а затем щелкните "Открыть папку" > и откройте пустую папку на локальном компьютере разработки.
  2. На боковой панели щелкните значок логотипа Databricks . Откроется расширение Databricks.
  3. В представлении конфигурации нажмите кнопку "Миграция в проект Databricks".
  4. Откроется палитра команд для настройки рабочей области Databricks. Для узла Databricks введите или выберите URL-адрес рабочей области, например https://adb-1234567890123456.7.azuredatabricks.net.
  5. Выберите профиль проверки подлинности для проекта. Сведения о настройке проверки подлинности для расширения Databricks для Visual Studio Code.

Шаг 2. Добавление сведений о кластере в расширение Databricks и запуск кластера

  1. Если представление конфигурации уже открыто, щелкните "Выбрать кластер" или щелкните значок шестеренки (Настройка кластера).

    Настройка кластера

  2. В палитре команд выберите имя созданного ранее кластера.

  3. Щелкните значок воспроизведения (запустить кластер), если он еще не запущен.

Шаг 3. Создание и запуск кода Python

  1. Создайте локальный файл кода Python: на боковой панели щелкните значок папки (обозреватель).

  2. В главном меню нажмите кнопку "Файл > нового файла". Присвойте файлу имя demo.py и сохраните его в корне проекта.

  3. Добавьте следующий код в файл и сохраните его. Этот код создает и отображает содержимое базового кадра данных PySpark:

    from pyspark.sql import SparkSession
    from pyspark.sql.types import *
    
    spark = SparkSession.builder.getOrCreate()
    
    schema = StructType([
       StructField('CustomerID', IntegerType(), False),
       StructField('FirstName',  StringType(),  False),
       StructField('LastName',   StringType(),  False)
    ])
    
    data = [
       [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
       [ 1001, 'Joost',   'van Brunswijk' ],
       [ 1002, 'Stan',    'Bokenkamp' ]
    ]
    
    customers = spark.createDataFrame(data, schema)
    customers.show()
    
    # Output:
    #
    # +----------+---------+-------------------+
    # |CustomerID|FirstName|           LastName|
    # +----------+---------+-------------------+
    # |      1000|  Mathijs|Oosterhout-Rijntjes|
    # |      1001|    Joost|      van Brunswijk|
    # |      1002|     Stan|          Bokenkamp|
    # +----------+---------+-------------------+
    
  4. Щелкните значок "Запуск в Databricks" рядом со списком вкладок редактора, а затем нажмите кнопку "Отправить и запустить файл". Выходные данные отображаются в представлении консоли отладки.

    Отправка и запуск файла из значка

    Кроме того, в представлении обозревателя щелкните правой кнопкой мыши demo.py файл и нажмите кнопку "Запустить" в Databricks>Upload and Run File.

    Отправка и запуск файла из контекстного меню

Шаг 4. Запуск кода в качестве задания

Чтобы запустить demo.py как задание, щелкните значок "Запуск в Databricks" рядом со списком вкладок редактора и нажмите кнопку "Запустить файл в качестве рабочего процесса". Выходные данные отображаются на отдельной вкладке редактора рядом с редактором demo.py файлов.

Запуск файла в качестве рабочего процесса из значка

Кроме того, щелкните правой кнопкой мыши demo.py файл на панели обозревателя, а затем выберите "Выполнить в Databricks>Run File as Workflow".

Запуск файла в качестве рабочего процесса из контекстного меню

Следующие шаги

Теперь, когда вы успешно использовали расширение Databricks для Visual Studio Code для отправки локального файла Python и его удаленного запуска, вы также можете: