Создание определения задания Apache Spark в Fabric

В этом руководстве описано, как создать определение задания Spark в Microsoft Fabric.

Необходимые компоненты

Перед началом работы вам потребуются:

Совет

Чтобы запустить элемент определения задания Spark, необходимо иметь основной файл определения и контекст lakehouse по умолчанию. Если у вас нет озера, вы можете создать его, выполнив действия, описанные в разделе "Создание озера".

Создание определения задания Spark

Процесс создания определения задания Spark является быстрым и простым; Существует несколько способов приступить к работе.

Параметры создания определения задания Spark

Вы можете приступить к созданию нескольких способов:

  • Домашняя страница проектирования данных. Вы можете легко создать определение задания Spark с помощью карта определения задания Spark в разделе "Создать" на домашней странице.

    Screenshot showing where to select the Spark job definition card.

  • Представление рабочей области. Вы также можете создать определение задания Spark с помощью представления рабочей области при работе с Инжиниринг данных с помощью раскрывающегося меню "Создать".

    Screenshot showing where to select Spark job definition in the New menu.

  • Создание представления: другая точка входа для создания определения задания Spark — страница создания в Инжиниринг данных.

    Screenshot showing where to select Spark job definition on the Create Hub.

При создании задания Spark необходимо указать имя задания Spark. Имя должно быть уникальным в текущей рабочей области. Новое определение задания Spark создается в текущей рабочей области.

Создание определения задания Spark для PySpark (Python)

Чтобы создать определение задания Spark для PySpark:

  1. Создайте новое определение задания Spark.

  2. Выберите PySpark (Python) в раскрывающемся списке "Язык ".

  3. Отправьте файл основного определения в виде PY-файла . Файл основного определения (задание). Main) — это файл, содержащий логику приложения и обязательный для запуска задания Spark. Для каждого определения задания Spark можно отправить только один файл основного определения.

    Файл можно отправить с локального рабочего стола или отправить из существующего служба хранилища Azure Data Lake (ADLS) 2-го поколения, предоставив полный путь ABFSS файла. Например, abfss://your-storage-account-name.dfs.core.windows.net/your-file-path.

  4. Отправьте ссылки на файлы как PY-файлы . Ссылочные файлы — это модули Python, импортируемые основным файлом определения. Как и файл основного определения, вы можете отправить из рабочего стола или существующего ADLS 2-го поколения. Поддерживаются несколько ссылочных файлов.

    Совет

    Если вы используете путь ADLS 2-го поколения, чтобы убедиться, что файл доступен, необходимо предоставить учетную запись пользователя, которая запускает задание соответствующим разрешением для учетной записи хранения. Мы рекомендуем сделать это двумя способами:

    • Назначьте учетную запись пользователя роль участника для учетной записи хранения.
    • Предоставьте разрешение на чтение и выполнение учетной записи пользователя для файла с помощью списка контроль доступа ADLS 2-го поколения (ACL).

    Для выполнения вручную учетная запись текущего пользователя входа используется для выполнения задания.

  5. При необходимости укажите аргументы командной строки для задания. Используйте пробел в качестве разбиения для разделения аргументов.

  6. Добавьте ссылку lakehouse на задание. Необходимо добавить в задание по крайней мере одну ссылку lakehouse. Это lakehouse — это контекст озера по умолчанию для задания.

    Поддерживаются несколько ссылок lakehouse. Найдите имя озера по умолчанию и полный URL-адрес OneLake на странице Параметры Spark.

    Screenshot showing an example of a populated main definition file screen.

Создание определения задания Spark для Scala/Java

Чтобы создать определение задания Spark для Scala/Java:

  1. Создайте новое определение задания Spark.

  2. Выберите Spark(Scala/Java) в раскрывающемся списке "Язык ".

  3. Отправьте файл основного определения в виде JAR-файла . Основной файл определения — это файл, содержащий логику приложения этого задания и обязательный для запуска задания Spark. Для каждого определения задания Spark можно отправить только один файл основного определения. Укажите имя класса Main.

  4. Отправка ссылочных файлов в виде JAR-файлов . Ссылочные файлы — это файлы, на которые ссылается или импортируется основной файл определения.

  5. При необходимости укажите аргументы командной строки для задания.

  6. Добавьте ссылку lakehouse на задание. Необходимо добавить в задание по крайней мере одну ссылку lakehouse. Это lakehouse — это контекст озера по умолчанию для задания.

Создание определения задания Spark для R

Создание определения задания Spark для SparkR(R):

  1. Создайте новое определение задания Spark.

  2. Выберите SparkR(R) в раскрывающемся списке "Язык ".

  3. Отправьте файл основного определения в виде файла. R-файл . Основной файл определения — это файл, содержащий логику приложения этого задания и обязательный для запуска задания Spark. Для каждого определения задания Spark можно отправить только один файл основного определения.

  4. Отправка ссылочных файлов как . R-файлы . Ссылочные файлы — это файлы, на которые ссылается или импортируется основной файл определения.

  5. При необходимости укажите аргументы командной строки для задания.

  6. Добавьте ссылку lakehouse на задание. Необходимо добавить в задание по крайней мере одну ссылку lakehouse. Это lakehouse — это контекст озера по умолчанию для задания.

Примечание.

Определение задания Spark будет создано в текущей рабочей области.

Параметры настройки определений заданий Spark

Существует несколько вариантов для дальнейшей настройки выполнения определений заданий Spark.

  • Вычислительная среда Spark. На вкладке "Вычисления Spark" можно увидеть версию среды выполнения, которая будет использоваться для выполнения задания. Вы также можете просмотреть параметры конфигурации Spark, которые будут использоваться для выполнения задания. Параметры конфигурации Spark можно настроить, нажав кнопку "Добавить ".
  • Оптимизация. На вкладке "Оптимизация" можно включить и настроить политику повторных попыток для задания. Если этот параметр включен, задание выполняется повторно, если он завершается ошибкой. Можно также задать максимальное количество повторных попыток и интервал между повторными попытками. Для каждой попытки повтора задание перезапускается. Убедитесь, что задание идемпотентно.

    Screenshot showing where to set up retry policy.