Поделиться через


Интеграция с определением заданий Spark Git

В этой статье объясняется, как работает интеграция Git для определений заданий Spark (SJD) в Microsoft Fabric. Узнайте, как настроить подключение репозитория, управлять изменениями определения задания Spark с помощью системы управления версиями и развертывать их в различных рабочих областях.

Включение интеграции Git для определений заданий Spark в Azure DevOps позволяет отслеживать изменения с помощью полной истории git. Если выбран PySpark или SparkR, основной файл определения и ссылочный файл включены в состав фиксации. Изменения исходного кода в этих файлах также отслеживаются.

Внимание

Эта функция доступна в предварительной версии.

Настройка подключения

В параметрах рабочей области можно легко настроить подключение к репозиторию для фиксации и синхронизации изменений. Сведения о настройке подключения см . в статье об интеграции с Git. После подключения элементы, такие как определения заданий Spark, будут отображаться на панели управления версиями .

Снимок экрана: панель управления версиями рабочей области.

После фиксации определения задания Spark в репозитории Git структура папок определения задания появится в репозитории.

Представление определения задания Spark в Git

Ниже приведен пример структуры файлов каждого элемента определения задания Spark в репозитории:

Снимок экрана: структура файла репозитория Git sjd.

При фиксации элемента определения задания Spark в репозитории создается папка git для каждого элемента и называется в соответствии с этой схемой: <имя> элемента + SparkJobDefinition. Не переименуйте папку, так как она используется для отслеживания элемента в рабочей области. Например, если имя элемента — sjd1, имя папки git будет "sjd1SparkJobDefinition".

В папке Git есть две вложенные папки. Они являются основными и эталонами. Основная папка содержит файл основного определения, а эталонная папка содержит ссылочный файл.

Помимо основных и ссылочных файлов, также есть файл SparkJobDefinitionV1.json . Он содержит метаданные для элемента определения задания Spark, поэтому не изменяйте его. Файл платформы содержит сведения о платформе , связанные с настройкой> Git, не следует также изменять.

Примечание.

  • Если вы выбираете Java или Scala в качестве языка, основные и справочные файлы не будут зафиксированы при отправке в виде файла .jar.
  • Присоединенная среда сохраняется в определении задания Spark после синхронизации из репозитория с рабочей областью Fabric. В настоящее время справочные среды между рабочими областями не поддерживаются. Необходимо вручную подключиться к новой среде или использовать параметры рабочей области по умолчанию для выполнения определения задания.
  • Определение задания Spark сохраняет идентификатор lakehouse по умолчанию при синхронизации из репозитория с рабочей областью Fabric. Если зафиксировать записную книжку с помощью lakehouse по умолчанию, вам потребуется вручную ссылаться на только что созданный элемент Lakehouse. Дополнительные сведения см. в статье об интеграции с Lakehouse Git.