Бөлісу құралы:


Краткое руководство. Преобразование данных с использованием определения задания Apache Spark

В этом кратком руководстве вам предстоит использовать Azure Synapse Analytics для создания конвейера с помощью определения задания Apache Spark.

Предварительные требования

После создания рабочей области Azure Synapse можно открыть Synapse Studio двумя способами:

  • Откройте рабочую область Synapse на портале Azure. Выберите Открыть в Synapse Studio карта Открыть в разделе Приступая к работе.
  • Откройте Azure Synapse Analytics и войдите в рабочую область.

Для целей этого краткого руководства в качестве примера мы используем рабочую область с именем sampletest. При этом вы автоматически перейдете на домашнюю страницу Synapse Studio.

Домашняя страница Synapse Studio

Создание конвейера с использованием определения задания Apache Spark

Конвейер содержит логический поток для выполнения набора действий. В этом разделе вам предстоит создать конвейер, содержащий действие определения задания Apache Spark.

  1. Перейдите на вкладку Интеграция. Щелкните значок плюса рядом с заголовком конвейеров и выберите Конвейер.

    Создание конвейера

  2. На странице параметров Свойства конвейера введите в поле Имя значение demo.

  3. В разделе Synapse на панели Действия перетащите определение задания Spark на холст конвейера.

    Определение задания Spark

Установка холста определения заданий Apache Spark

После создания определения задания Apache Spark автоматически откроется холст определения заданий Spark.

Общие параметры

  1. Выберите на холсте модуль определения заданий Spark.

  2. На вкладке Общие укажите sample в качестве значения поля Имя.

  3. (Дополнительно.) Можно также ввести описание.

  4. Время ожидания: максимальный период времени, в течение которого может выполняться действие. Значение по умолчанию — семь дней. Это также максимально допустимое количество времени. Формат — Д:ЧЧ:ММ:СС.

  5. Повторные попытки: максимальное число повторных попыток.

  6. Интервал повторных попыток: число секунд между повторными попытками.

  7. Безопасные выходные данные: если этот флажок установлен, выходные данные из действия не будут регистрироваться в журнале.

  8. Безопасные входные данные: если этот флажок установлен, входные данные из действия не будут регистрироваться в журнале.

    Общее определение задания Spark

Вкладка "Параметры"

На этой панели можно ссылаться на определение задания Spark для выполнения.

  • Разверните список определений заданий Spark. Можно выбрать существующее определение задания Apache Spark. Можно также создать новое определение задания Apache Spark. Для этого нажмите кнопку Создать, чтобы сослаться на определение задания Spark, которое нужно запустить.

  • (Необязательно) Введите сведения об определении задания Apache Spark. Если следующие параметры не указаны, для выполнения будут использоваться параметры определения задания Spark. Если следующие параметры заданы, они заменят параметры определения задания Spark.

    Свойство Описание
    Основной файл определения Основной файл, используемый для задания. Выберите файл PY, JAR или ZIP в хранилище. Для отправки файла в учетную запись хранения можно выбрать Отправить файл.
    Образец. abfss://…/path/to/wordcount.jar
    Ссылки из вложенных папок При сканировании вложенных папок из корневой папки файла определения main эти файлы будут добавлены в качестве ссылочных файлов. Папки с именами "jars", "pyFiles", "files" или "archives" будут проверяться, а имя папок учитывает регистр.
    Имя главного класса Полный идентификатор или основной класс, который находится в основном файле определения.
    Образец. WordCount
    Аргументы командной строки Можно добавить аргументы командной строки. Для этого нажмите кнопку Создать. Следует отметить, что добавление аргументов командной строки приведет к переопределению аргументов командной строки, заданных в определении задания Spark.
    Пример: abfss://…/path/to/shakespeare.txtabfss://…/path/to/result
    Пул Apache Spark В списке можно выбрать пул Apache Spark.
    Справочник по коду Python Дополнительные файлы кода Python, используемые для справки в файле определения main.
    Он поддерживает передачу файлов (.py, .py3, .zip) в свойство pyFiles. Он переопределит свойство pyFiles, определенное в определении задания Spark.
    Файлы ссылок Дополнительные файлы, используемые для ссылки в основном файле определения.
    Динамическое выделение исполнителей Этот параметр сопоставляется с динамическим свойством выделения в конфигурации Spark для выделения исполнителей приложения Spark.
    Минимальное число исполнителей Минимальное число исполнителей, которые будут выделены в указанном пуле Spark для этого задания.
    Максимальное число исполнителей Максимальное число исполнителей, которые будут выделены в указанном пуле Spark для этого задания.
    Размер драйвера Количество ядер и объем памяти, которые будут использоваться для драйвера, предоставленного для задания в указанном пуле Apache Spark.
    Конфигурация Spark Укажите значения для свойств конфигурации Spark, перечисленных в разделе Конфигурация Spark — свойства приложения. Пользователи могут использовать конфигурацию по умолчанию и настроенную конфигурацию.

    Параметры конвейера для определения задания Spark

  • Чтобы добавить динамическое содержимое, нажмите кнопку Добавить динамическое содержимое или сочетание клавиш Alt+Shift+D. На странице Добавить динамическое содержимое можно добавить в динамическое содержимое любое сочетание выражений, функций и системных переменных.

    Добавление динамического содержимого

Вкладка "Свойства пользователя"

На этой панели можно добавлять свойства для действия определения задания Apache Spark.

Свойства пользователя

Дальнейшие действия

Ознакомьтесь со следующими статьями, чтобы узнать о поддержке Azure Synapse Analytics: