Создание определения задания Apache Spark в Fabric

Из этого руководства вы узнаете, как создать определение задания Spark в Microsoft Fabric.

Важно!

Microsoft Fabric находится в предварительной версии.

Предварительные требования

Чтобы приступить к работе, вам потребуется выполнить следующие предварительные требования.

Совет

Для запуска элемента определения задания Spark требуется main файла определения и контекста lakehouse по умолчанию. Если у вас нет lakehouse, его можно создать, выполнив действия, описанные в разделе Создание lakehouse.

Создание определения задания Spark

Процесс создания определения задания Spark выполняется быстро и просто, и существует несколько способов начать работу.

Параметры для создания определения задания Spark

Приступить к созданию можно несколькими способами.

  • Домашняя страница проектирования данных. Определение задания Spark можно легко создать с помощью определения задания Spark карта в разделе Создать на домашней странице.

Снимок экрана: выбор карта определения задания Spark.

  • Представление рабочей области. Вы также можете создать определение задания Spark в представлении "Рабочая область" в Инжиниринг данных с помощью раскрывающегося списка Создать.

Снимок экрана, на котором показано, где выбрать определение задания Spark в меню Создать.

  • Создание концентратора. Еще одна точка входа для создания определения задания Spark находится на странице Создание концентраторав Инжиниринг данных.

Снимок экрана: выбор определения задания Spark в центре создания.

Для создания определения задания Spark потребуется имя. Имя должно быть уникальным в пределах текущей рабочей области. Созданное определение задания Spark будет создано в текущей рабочей области, в которую вы находитесь.

Создание определения задания Spark для PySpark (Python)

Чтобы создать определение задания Spark для PySpark, выполните следующие действия.

  1. Создайте новое определение задания Spark.

  2. Выберите PySpark (Python) в раскрывающемся списке Язык .

  3. Отправьте файл определения main как PY-файл. Файл определения main — это файл, содержащий логику приложения этого задания. Основной файл определения является обязательным для запуска задания Spark. Для каждого определения задания Spark можно отправить только один файл определения main.

    Помимо отправки с локального рабочего стола, вы также можете отправлять данные из существующих Azure Data Lake Storage 2-го поколения, указав полный путь abfss к файлу. Например, abfss://your-storage-account-name.dfs.core.windows.net/your-file- путь.

  4. Отправьте ссылочные файлы в виде PY-файла . Файлы ссылок — это модули Python, импортированные файлом определения main. Как и при отправке файла определения main, вы также можете отправить данные из существующих Azure Data Lake Storage 2-го поколения, указав полный путь abfss к файлу. Поддерживается несколько ссылочных файлов.

Совет

Если используется путь ADLS-2-го поколения, чтобы обеспечить доступ к файлу, необходимо назначить учетной записи пользователя, которая используется для запуска задания, с соответствующим разрешением для учетной записи хранения. Это можно сделать двумя способами:

  • Назначьте учетной записи пользователя роль участника учетной записи хранения.
  • Предоставление разрешения на чтение и выполнение учетной записи пользователя в файле с помощью списка Azure Data Lake Storage 2-го поколения контроль доступа (ACL)

Для запуска вручную для запуска задания будет использоваться учетная запись текущего пользователя для входа.

  1. При необходимости укажите аргументы командной строки для задания. используйте пробел как разделитель для разделения аргументов.

  2. Добавьте ссылку lakehouse в задание. В задание должна быть добавлена хотя бы одна ссылка lakehouse. Это lakehouse является контекстом lakehouse по умолчанию для задания. Поддерживается несколько ссылок на Lakehouse. Для Lakehouse, отличного от используемого по умолчанию, можно найти его имя и полный URL-адрес OneLake на странице параметров Spark.

    Снимок экрана: пример заполненного экрана файла определения main.

В этом примере мы сделали следующее:

  • Создание определения задания Spark с именем CSVToDelta для PySpark
  • Отправлен файл createTablefromCSV.py в качестве файла определения main.
  • Добавлены ссылки lakehouse LH001 и LH002 в задание.
  • LH001 является контекстом lakehouse по умолчанию

Создание определения задания Spark для Scala/Java

Чтобы создать определение задания Spark для Scala/Java, выполните следующие действия.

  1. Выберите Spark(Scala/Java) в раскрывающемся списке Язык .

  2. Отправьте файл определения main как JAR-файл. Файл определения main — это файл, содержащий логику приложения этого задания. Файл определения main является обязательным для запуска задания Spark. Укажите имя класса Main.

  3. Отправьте ссылочные файлы в виде JAR-файла. Файлы ссылок — это файлы, на которые ссылается или импортируется файл определения main.

  4. При необходимости предоставляет аргументы командной строки для задания.

  5. Добавьте ссылку lakehouse в задание. В задание должна быть добавлена хотя бы одна ссылка lakehouse. Это lakehouse является контекстом lakehouse по умолчанию для задания.

Создание определения задания Spark для R

Чтобы создать определение задания Spark для SparkR(R), выполните следующие действия.

  1. Выберите SparkR(R) в раскрывающемся списке Язык .

  2. Отправьте файл определения main как . R-файл. Файл определения main — это файл, содержащий логику приложения этого задания. Файл определения main является обязательным для запуска задания Spark.

  3. Отправьте файлы ссылок в виде . R-файл. Файлы ссылок — это файлы, на которые ссылается или импортируется файл определения main.

  4. При необходимости предоставляет аргументы командной строки для задания.

  5. Добавьте ссылку lakehouse в задание. В задание должна быть добавлена хотя бы одна ссылка lakehouse. Это lakehouse является контекстом lakehouse по умолчанию для задания.

Примечание

Определение задания Spark будет создано в текущей рабочей области, в которую вы находитесь.

Параметры для настройки определения задания Spark

Существует несколько параметров для дальнейшей настройки выполнения определения задания Spark.

  • Вычисление Spark. На вкладке Вычисление Spark вы увидите версию среды выполнения, которая является версией Spark, которая будет использоваться для запуска задания. Вы также можете просмотреть параметры конфигурации Spark, которые будут использоваться для запуска задания. Параметры конфигурации Spark можно настроить, нажав кнопку Добавить .

Снимок экрана: место для изменения конфигурации Spark.

  • Оптимизация. На вкладке Оптимизация можно включить и настроить политику повторных попыток для задания. Если этот параметр включен, задание будет повторно выполняться в случае сбоя. Можно также задать максимальное количество повторных попыток и интервал между повторными попытками. При каждой попытке повтора задание будет перезапущено. Убедитесь, что задание идемпотентно.

Снимок экрана: настройка политики повторных попыток.

Дальнейшие действия