Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Это важно
Редактор конвейеров данных Lakeflow находится в pежиме общедоступного предварительного просмотра.
В Azure Databricks можно управлять конвейером и всеми связанными с ним кодом. Управляя всеми файлами, связанными с конвейером, изменения в коде преобразования, коде исследования и конфигурации конвейера подвергаются контролю версий в Git. Они могут быть проверены в процессе разработки и уверенно развернуты в рабочей среде.
Управляемый источником конвейер предлагает следующие преимущества:
- Возможность трассировки. Запись каждого изменения в журнале Git.
- Тестирование. Проверка изменений конвейера в рабочей области разработки перед продвижением в общую рабочую рабочую область. Каждый разработчик имеет собственный конвейер разработки в собственной ветви кода в папке Git и в собственной схеме.
- Совместная работа. По завершении разработки и тестирования изменения кода отправляются в основной рабочий конвейер.
- Управление. Соответствие стандартам корпоративной CI/CD и развертывания.
Azure Databricks позволяет конвейерам и их исходным файлам управлять источником вместе с помощью пакетов ресурсов Databricks. При использовании пакетов конфигурация конвейера управляется источником в виде файлов конфигурации YAML вместе с исходными файлами Python или SQL конвейера. Один набор может включать в себя один или несколько конвейеров, а также другие типы ресурсов, например, задания.
На этой странице показано, как настроить управляемый источником конвейер с помощью пакетов ресурсов Databricks. Дополнительные сведения о пакетах см. в разделе "Что такое пакеты ресурсов Databricks?".
Требования
Чтобы создать управляемый источником конвейер, необходимо иметь следующее:
- Папка Git, созданная в рабочей области и настроенная. Папка Git позволяет отдельным пользователям создавать и тестировать изменения перед фиксацией их в репозиторий Git. Ознакомьтесь с папками Azure Databricks Git.
- Редактор конвейеров Lakeflow включен. Пользовательский интерфейс, описанный в этом руководстве, доступен только в этом редакторе. См. статью "Разработка и отладка конвейеров ETL" с помощью редактора конвейеров Lakeflow.
Создайте новый конвейер в пакете
Замечание
Databricks рекомендует создать конвейер, управляемый источником с самого начала. Кроме того, можно добавить существующий конвейер в пакет, который уже управляется источником. См. статью "Перенос существующих ресурсов в пакет".
Чтобы создать конвейер, управляемый источником, выполните приведенные далее действия.
В рабочей области перейдите к
Новый>
Конвейер ETL.
Щелкните
Настройка в качестве управляемого источником проекта:
Нажмите кнопку "Создать проект", а затем выберите папку Git, в которую нужно поместить код и конфигурацию:
Нажмите кнопку Далее.
Введите следующее в диалоговом окне создания пакета ресурсов :
- Имя пакета: название пакета.
- Начальный каталог: имя каталога, содержащего используемую схему.
- Используйте личную схему: оставьте этот флажок, если вы хотите изолировать изменения в личной схеме, чтобы при совместной работе пользователей в рамках одного проекта вы не перезаписывали изменения друг друга в разработке.
- Начальный язык: исходный язык, используемый для примеров файлов конвейера проекта, python или SQL.
Нажмите кнопку "Создать" и развернуть. Пакет с конвейером создается в папке Git.
Изучение пакета конвейера
Затем изучите созданный пакет конвейера.
Пакет, который находится в папке Git, содержит системные файлы пакета и databricks.yml файл, который определяет переменные, URL-адреса целевой рабочей области и разрешения, а также другие параметры для пакета. Каталог пакета resources — это место, где содержатся определения для ресурсов, таких как пайплайны.
resources Откройте папку, а затем нажмите кнопку редактора конвейера, чтобы просмотреть управляемый источником конвейер:
Пример пакета конвейеров включает следующие файлы:
Пример записной книжки для исследования
Два примера файлов кода, которые выполняют преобразования в таблицах
Пример файла кода, содержащего служебную функцию
Файл конфигурации задания в формате YAML, который определяет задание в пакете данных, на котором выполняется конвейер.
ФАЙЛ конфигурации конвейера YAML, определяющий конвейер
Это важно
Этот файл необходимо изменить, чтобы постоянно сохранять любые изменения конфигурации в конвейере, включая изменения, внесенные через пользовательский интерфейс, в противном случае изменения пользовательского интерфейса переопределяются при повторном развертывании пакета. Например, чтобы задать другой каталог по умолчанию для конвейера, измените
catalogполе в этом файле конфигурации.ФАЙЛ README с дополнительными сведениями о пробном пакете конвейера и инструкциями по его запуску.
Сведения о файлах конвейера см. в браузере ресурсов конвейера.
Дополнительные сведения о создании и развертывании изменений в пакете конвейера см. в статье "Создание пакетов" в рабочей области и развертывание пакетов и запуск рабочих процессов из рабочей области.
Запуск конвейера
Можно выполнять отдельные преобразования или весь управляемый источником конвейер:
- Чтобы запустить и просмотреть одно преобразование в конвейере, выберите файл преобразования в дереве браузера рабочей области, чтобы открыть его в редакторе файлов. В верхней части файла в редакторе нажмите кнопку "Запустить воспроизведение файлов ".
- Чтобы выполнить все преобразования в конвейере, нажмите кнопку "Запустить конвейер " в правом верхнем углу рабочей области Databricks.
Дополнительные сведения о выполнении конвейеров см. в разделе "Запуск кода конвейера".
Обновление конвейера
Вы можете обновить артефакты в конвейере или добавить дополнительные аналитические исследования и преобразования, но при этом необходимо внести эти изменения в GitHub. Щелкните Значок Git, связанный с пакетом конвейера, или кликните по папке, затем Git... чтобы выбрать, какие изменения необходимо отправить. См. Зафиксируйте и отправьте изменения в удалённый репозиторий Git.
Кроме того, при обновлении файлов конфигурации конвейера или добавлении или удалении файлов из пакета эти изменения не распространяются в целевую рабочую область, пока не будет явно развернут пакет. См. статью "Развертывание пакетов" и запуск рабочих процессов из рабочей области.
Замечание
Databricks рекомендует сохранить настройку по умолчанию для управляемых источником конвейеров. Настройка по умолчанию настроена таким образом, чтобы не нужно изменять конфигурацию пакета конвейера YAML при добавлении дополнительных файлов через пользовательский интерфейс.
Добавление существующего конвейера в пакет
Чтобы добавить существующий конвейер в пакет, сначала создайте пакет в рабочей области, а затем добавьте определение YAML конвейера в пакет, как описано на следующих страницах:
- Руководство. Создание и развертывание пакета в рабочей области
- Добавление существующего ресурса в пакет
Сведения о переносе ресурсов в пакет с помощью интерфейса командной строки Databricks см. в статье "Перенос существующих ресурсов в пакет".
Дополнительные ресурсы
Дополнительные учебные пособия и справочные материалы по конвейерам см. Декларативные конвейеры Spark Lakeflow.