Поделиться через


Создание конвейера, управляемого источником

Это важно

Редактор конвейеров данных Lakeflow находится в pежиме общедоступного предварительного просмотра.

В Azure Databricks можно управлять конвейером и всеми связанными с ним кодом. Управляя всеми файлами, связанными с конвейером, изменения в коде преобразования, коде исследования и конфигурации конвейера подвергаются контролю версий в Git. Они могут быть проверены в процессе разработки и уверенно развернуты в рабочей среде.

Управляемый источником конвейер предлагает следующие преимущества:

  • Возможность трассировки. Запись каждого изменения в журнале Git.
  • Тестирование. Проверка изменений конвейера в рабочей области разработки перед продвижением в общую рабочую рабочую область. Каждый разработчик имеет собственный конвейер разработки в собственной ветви кода в папке Git и в собственной схеме.
  • Совместная работа. По завершении разработки и тестирования изменения кода отправляются в основной рабочий конвейер.
  • Управление. Соответствие стандартам корпоративной CI/CD и развертывания.

Azure Databricks позволяет конвейерам и их исходным файлам управлять источником вместе с помощью пакетов ресурсов Databricks. При использовании пакетов конфигурация конвейера управляется источником в виде файлов конфигурации YAML вместе с исходными файлами Python или SQL конвейера. Один набор может включать в себя один или несколько конвейеров, а также другие типы ресурсов, например, задания.

На этой странице показано, как настроить управляемый источником конвейер с помощью пакетов ресурсов Databricks. Дополнительные сведения о пакетах см. в разделе "Что такое пакеты ресурсов Databricks?".

Требования

Чтобы создать управляемый источником конвейер, необходимо иметь следующее:

Создайте новый конвейер в пакете

Замечание

Databricks рекомендует создать конвейер, управляемый источником с самого начала. Кроме того, можно добавить существующий конвейер в пакет, который уже управляется источником. См. статью "Перенос существующих ресурсов в пакет".

Чтобы создать конвейер, управляемый источником, выполните приведенные далее действия.

  1. В рабочей области перейдите к значку Новый>Значок конвейера.Конвейер ETL.

  2. Щелкните значок куба файла.Настройка в качестве управляемого источником проекта:

    Новый управляемый источником конвейер

  3. Нажмите кнопку "Создать проект", а затем выберите папку Git, в которую нужно поместить код и конфигурацию:

    Новый проект

  4. Нажмите кнопку Далее.

  5. Введите следующее в диалоговом окне создания пакета ресурсов :

    • Имя пакета: название пакета.
    • Начальный каталог: имя каталога, содержащего используемую схему.
    • Используйте личную схему: оставьте этот флажок, если вы хотите изолировать изменения в личной схеме, чтобы при совместной работе пользователей в рамках одного проекта вы не перезаписывали изменения друг друга в разработке.
    • Начальный язык: исходный язык, используемый для примеров файлов конвейера проекта, python или SQL.

    Новый пакет

  6. Нажмите кнопку "Создать" и развернуть. Пакет с конвейером создается в папке Git.

Изучение пакета конвейера

Затем изучите созданный пакет конвейера.

Пакет, который находится в папке Git, содержит системные файлы пакета и databricks.yml файл, который определяет переменные, URL-адреса целевой рабочей области и разрешения, а также другие параметры для пакета. Каталог пакета resources — это место, где содержатся определения для ресурсов, таких как пайплайны.

Бандл в папке Git

resources Откройте папку, а затем нажмите кнопку редактора конвейера, чтобы просмотреть управляемый источником конвейер:

Открытие редактора конвейера

Пакет с деревом конвейера

Пример пакета конвейеров включает следующие файлы:

  • Пример записной книжки для исследования

  • Два примера файлов кода, которые выполняют преобразования в таблицах

  • Пример файла кода, содержащего служебную функцию

  • Файл конфигурации задания в формате YAML, который определяет задание в пакете данных, на котором выполняется конвейер.

  • ФАЙЛ конфигурации конвейера YAML, определяющий конвейер

    Это важно

    Этот файл необходимо изменить, чтобы постоянно сохранять любые изменения конфигурации в конвейере, включая изменения, внесенные через пользовательский интерфейс, в противном случае изменения пользовательского интерфейса переопределяются при повторном развертывании пакета. Например, чтобы задать другой каталог по умолчанию для конвейера, измените catalog поле в этом файле конфигурации.

  • ФАЙЛ README с дополнительными сведениями о пробном пакете конвейера и инструкциями по его запуску.

Сведения о файлах конвейера см. в браузере ресурсов конвейера.

Дополнительные сведения о создании и развертывании изменений в пакете конвейера см. в статье "Создание пакетов" в рабочей области и развертывание пакетов и запуск рабочих процессов из рабочей области.

Запуск конвейера

Можно выполнять отдельные преобразования или весь управляемый источником конвейер:

  • Чтобы запустить и просмотреть одно преобразование в конвейере, выберите файл преобразования в дереве браузера рабочей области, чтобы открыть его в редакторе файлов. В верхней части файла в редакторе нажмите кнопку "Запустить воспроизведение файлов ".
  • Чтобы выполнить все преобразования в конвейере, нажмите кнопку "Запустить конвейер " в правом верхнем углу рабочей области Databricks.

Дополнительные сведения о выполнении конвейеров см. в разделе "Запуск кода конвейера".

Обновление конвейера

Вы можете обновить артефакты в конвейере или добавить дополнительные аналитические исследования и преобразования, но при этом необходимо внести эти изменения в GitHub. Щелкните значок форка.Значок Git, связанный с пакетом конвейера, или кликните по папке, затем Git... чтобы выбрать, какие изменения необходимо отправить. См. Зафиксируйте и отправьте изменения в удалённый репозиторий Git.

Отправка изменений в Git

Кроме того, при обновлении файлов конфигурации конвейера или добавлении или удалении файлов из пакета эти изменения не распространяются в целевую рабочую область, пока не будет явно развернут пакет. См. статью "Развертывание пакетов" и запуск рабочих процессов из рабочей области.

Замечание

Databricks рекомендует сохранить настройку по умолчанию для управляемых источником конвейеров. Настройка по умолчанию настроена таким образом, чтобы не нужно изменять конфигурацию пакета конвейера YAML при добавлении дополнительных файлов через пользовательский интерфейс.

Обновление конвейера

Добавление существующего конвейера в пакет

Чтобы добавить существующий конвейер в пакет, сначала создайте пакет в рабочей области, а затем добавьте определение YAML конвейера в пакет, как описано на следующих страницах:

Сведения о переносе ресурсов в пакет с помощью интерфейса командной строки Databricks см. в статье "Перенос существующих ресурсов в пакет".

Дополнительные ресурсы

Дополнительные учебные пособия и справочные материалы по конвейерам см. Декларативные конвейеры Spark Lakeflow.