Поделиться через


Создание определений заданий Apache Spark и управление ими в Visual Studio Code

Расширение Кода Visual Studio (VS) для Synapse полностью поддерживает операции определения заданий Spark в Fabric (создание, обновление, чтение и удаление). После создания определения задания Spark можно отправить дополнительные ссылки на библиотеки, отправить запрос на выполнение определения задания Spark и проверить журнал выполнения.

Создание определения задания Spark

Чтобы создать новое определение задания Spark, выполните приведенные далее действия.

  1. В обозревателе VS Code выберите параметр "Создать определение задания Spark".

    Снимок экрана: обозреватель VS Code, показывающий, где выбрать параметр

  2. Введите начальные обязательные поля: имя, ссылка на lakehouse и lakehouse по умолчанию.

  3. Процессы запроса и имя только что созданного определения задания Spark отображается в корневом узле определения задания Spark в обозревателе VS Code. В узле имени задания Spark вы увидите три поднода:

    • Файлы: список основного файла определения и других ссылочных библиотек. Вы можете отправить новые файлы из этого списка.
    • Lakehouse: список всех озерных домов, на которые ссылается это определение задания Spark. Озеро по умолчанию помечается в списке, и вы можете получить к нему доступ через относительный путь Files/…, Tables/….
    • Запуск: список журналов выполнения этого определения задания Spark и состояния задания каждого запуска.

Отправка файла основного определения в ссылаемую библиотеку

Чтобы отправить или перезаписать файл основного определения, выберите параметр "Добавить основной файл ".

Снимок экрана: обозреватель VS Code, показывающий, где выбрать параметр

Чтобы отправить файл библиотеки, на который ссылается основной файл определения, выберите параметр "Добавить lib file ".

Снимок экрана: кнопка

После отправки файла его можно переопределить, щелкнув параметр "Обновить файл" и отправив новый файл, или удалить его с помощью параметра "Удалить ".

Снимок экрана: обозреватель VS Code, на котором показано, где найти параметры

Отправка запроса на выполнение

Чтобы отправить запрос на выполнение определения задания Spark из VS Code:

  1. В параметрах справа от имени определения задания Spark, которое вы хотите запустить, выберите параметр "Выполнить задание Spark".

    Снимок экрана: обозреватель VS Code, на котором показано, где выбрать задание Spark.

  2. После отправки запроса новое приложение Apache Spark появится в узле "Запуски " в списке обозревателя. Вы можете отменить выполняемую работу, выбрав параметр "Отменить задание Spark".

    Снимок экрана: обозреватель VS Code с новым приложением Spark, перечисленным в узле

Открытие определения задания Spark на портале Fabric

Вы можете открыть страницу разработки определения задания Spark на портале Fabric, выбрав параметр "Открыть в браузере ".

Вы также можете выбрать "Открыть в браузере " рядом с завершенным запуском, чтобы просмотреть страницу мониторинга сведений этого запуска.

Снимок экрана: обозреватель VS Code, показывающий, где выбрать параметр

Отладка исходного кода определения задания Spark (Python)

Если определение задания Spark создано с помощью PySpark (Python), можно скачать сценарий .py файла основного определения и файла, на который ссылается ссылка, и выполнить отладку исходного скрипта в VS Code.

  1. Чтобы скачать исходный код, выберите параметр "Определение задания Spark отладки" справа от определения задания Spark.

    Снимок экрана: кнопка скачивания источника.

  2. После завершения скачивания папка исходного кода автоматически открывается.

  3. При появлении запроса выберите параметр "Доверять авторам". (Этот параметр отображается только при первом открытии папки. Если этот параметр не выбран, вы не сможете выполнить отладку или запустить исходный скрипт. Дополнительные сведения см. в разделе "Безопасность доверия рабочей области Visual Studio Code".)

  4. Если вы скачали исходный код раньше, вам будет предложено подтвердить, что вы хотите перезаписать локальную версию с новой загрузкой.

    Примечание.

    В корневой папке исходного скрипта система создает вложенную папку conf. В этой папке файл с именем lighter-config.json содержит некоторые системные метаданные, необходимые для удаленного запуска. Не вносите в него какие-либо изменения.

  5. Файл с именем sparkconf.py содержит фрагмент кода, который необходимо добавить для настройки объекта SparkConf . Чтобы включить удаленную отладку, убедитесь, что объект SparkConf настроен правильно. На следующем рисунке показана исходная версия исходного кода.

    Снимок экрана: пример кода, показывающий исходный код перед изменением.

    Следующий образ — обновленный исходный код после копирования и вставки фрагмента кода.

    Снимок экрана: пример кода, показывающий исходный код после изменения.

  6. После обновления исходного кода с необходимым conf необходимо выбрать правильный интерпретатор Python. Убедитесь, что он установлен в среде conda synapse-spark-kernel .

Изменение свойств определения задания Spark

Вы можете изменить подробные свойства определений заданий Spark, например аргументы командной строки.

  1. Выберите параметр "Обновить конфигурацию SJD", чтобы открыть файл settings.yml. Существующие свойства заполняют содержимое этого файла.

    Снимок экрана: выбор параметра

  2. Обновите и сохраните файл .yml.

  3. Выберите параметр "Опубликовать свойство SJD" в правом верхнем углу, чтобы синхронизировать изменение обратно с удаленной рабочей областью.

    Снимок экрана: выбор параметра