отлаживать конвейеры фабрики данных;

Завершено

Требования и ожидания клиентов в отношении интеграции данных меняются. Все большую необходимость приобретают возможности итеративной разработки и отладки рабочих процессов извлечения, преобразования и загрузки (ETL) или извлечения, загрузки и преобразования (ELT).

Фабрика данных Azure помогает проектировать и разрабатывать конвейеры фабрики данных с итеративной отладкой при разработке решения для интеграции данных. Создав конвейер с помощью холста, вы можете тестировать его действия и конвейер в целом с помощью функции отладки.

В Фабрике данных Azure нет необходимости публиковать изменения в конвейере или действиях перед отладкой. Это полезно в случае, когда необходимо протестировать изменения и проверить, правильно ли они работают, прежде чем сохранять и публиковать их.

Иногда требуется отладить не весь конвейер, а только его часть. Запуск отладки служит именно для этого. Вы можете протестировать конвейер полностью или установить точку останова. Это позволяет интерактивно отслеживать результаты каждого шага во время сборки и отладки конвейера.

Отладка и публикация конвейера

При создании нового конвейера или изменении уже запущенного результат каждого действия можно видеть на вкладке "Выходные данные" холста конвейера.

Если после выполнения тестового запуска вы удовлетворены результатами, можно добавить в конвейер дополнительные действия и продолжить отладку в итеративном режиме. Если результаты вас не устраивают или вы хотите остановить отладку конвейера, можно отменить выполняющийся тестовый запуск. Имейте в виду, что при выборе ползунка отладки происходит запуск конвейера. Поэтому если конвейер содержит, например, действие копирования, в результате тестового запуска данные будут скопированы из источника в место назначения.

По этой причине во время отладки конвейера рекомендуется использовать тестовые папки для действий копирования и других действий, а после получения нужных результатов и завершения отладки переключиться на рабочие папки.

Чтобы выполнить отладку конвейера, на панели инструментов щелкните Отладка. Состояние выполнения конвейера вы можете найти на вкладке Выходные данные в нижней части окна.

Debug slider Azure Data Factory

Output tab Azure Data Factory Debug

После успешного запуска конвейера в верхней панели инструментов выберите Опубликовать все. Это действие опубликует созданные сущности (наборы данных и конвейеры) в фабрике данных.

Publish all changes and entities in Azure Data Factory

Дождитесь сообщения Successfully published (Публикация выполнена). Чтобы отобразить уведомления, щелкните Показать уведомления (значок колокольчика) в правом верхнем углу портала (кнопка в виде колокольчика).

Bell button for notifications in Azure Data Factory

Отладка потока данных для сопоставления

Во время создания потоков данных для сопоставления можно интерактивно следить за тем, как формируются и преобразовываются данные, в целях отладки. Чтобы использовать эту возможность, сначала необходимо включить функцию "Отладка потока данных".

Сеанс отладки можно использовать как во время разработки потока данных, так и во время выполнения потоков данных для отладки конвейера. Когда режим отладки включен, вы фактически создаете поток данных с помощью активного кластера Spark. После завершения отладки кластер Spark будет закрыт. Вы можете выбрать используемые вычислительные ресурсы. При использовании существующего отладочного кластера время запуска сокращается. Однако для сложных или параллельных рабочих нагрузок может потребоваться запустить собственный JIT-кластер.

При отладке потоков данных рекомендуется не отключать режим отладки, пока вы проверяете их бизнес-логику. Визуальное представление того, как преобразовываются и формируются данные, помогает отслеживать изменения.

Если вы хотите протестировать поток данных в созданном конвейере, лучше использовать кнопку Отладка на панели конвейера. В режиме предварительного просмотра данные не записываются, но при отладочном запуске потока данных, как и при отладке конвейера, данные будут записаны в место назначения.

Параметры отладки

Как уже упоминалось, каждый сеанс отладки, запускаемый из пользовательского интерфейса Фабрики данных Azure, считается новым сеансом с собственным кластером Spark. Чтобы отслеживать сеансы, можно использовать представление мониторинга для сеанса отладки. Оно позволяет управлять сеансами отладки для отдельной настроенной фабрики данных.

Чтобы узнать, готов ли кластер Spark к отладке, можно проверить индикатор состояния кластера в верхней части области конструктора. Если он зеленый, кластер готов. Если кластер не был запущен на момент перехода в режим отладки, может потребоваться подождать примерно 5–7 минут.

После завершения отладки рекомендуется отключить режим отладки, чтобы завершить работу кластера Spark.

Во время отладки нельзя изменить данные, отображаемые в режиме предварительного просмотра в потоке данных, нажав кнопку Параметр отладки. Примером изменения данных в режиме предварительного просмотра может служить задание предельного числа строк или источника файлов в случае использования преобразований источника. При выборе промежуточной связанной службы источником может быть Azure Synapse Analytics.

Если в потоке данных или связанных с ним наборах данных есть параметры, вы можете указать значения, которые должны использоваться во время отладки, на вкладке Параметры. Во время отладки приемники не нужны и игнорируются в потоке данных. Если вы хотите, чтобы при тестировании преобразованные данные записывались в приемник, можно запустить отладочное выполнение потока данных из конвейера.

Как уже упоминалось, в Фабрике данных Azure можно выполнять отладку до определенного момента или действия. Для этого можно установить точку останова в нужном действии, а затем выбрать команду Отладка. Параметр Отладка до момента появляется в виде пустого красного круга в правом верхнем углу элемента. Когда вы выберете параметр Отладка до момента, он изменится на красный круг с заливкой, указывая на включение точки останова. После этого тестирование в Фабрике данных Azure будет выполняться только до этого действия с точкой останова в конвейере. Эта возможность полезна, если нужно протестировать только подмножество действий в конвейере.

В большинстве случаев функций отладки, имеющихся в Фабрике данных Azure, достаточно. Однако иногда необходимо протестировать изменения в конвейере в клонированной среде песочницы. Например, это может потребоваться, если вы хотите проверить поведение параметризованных конвейеров извлечения, преобразования и загрузки при срабатывании триггера прибытия файла и периодического триггера. В таком случае может быть удобнее клонировать среду песочницы.

Выгодной особенностью Фабрики данных Azure может быть то, что, поскольку оплата взимается в основном только за количество запусков, добавление еще одной фабрики данных необязательно приводит к дополнительным затратам.

Мониторинг выполнений отладки

Отслеживать отладочные запуски можно на вкладке выходных данных, однако на ней приводятся данные только последнего запуска в рамках сеанса просмотра. Историю запусков здесь просмотреть нельзя. Если вы хотите просмотреть предыдущие или все активные отладочные запуски, перейдите на вкладку мониторинга.

Помните также, что в службе Фабрики данных Azure хранится история отладочных запусков только за последние 15 дней. Для отслеживания сеансов отладки потока данных также можно перейти на вкладку мониторинга.

Monitoring debug run Azure Data Factory