Режим отладки функции потоков данных для сопоставления

Область применения:Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

Обзор

Режим отладки потока данных для сопоставления Фабрики данных Azure и Synapse Analytics позволяет наблюдать в интерактивном режиме за преобразованием формы данных в ходе создания и отладки потоков данных. Сеанс отладки можно использовать как в Поток данных сеансах проектирования, так и во время отладки конвейера потоков данных. Чтобы включить режим отладки, нажмите кнопку Отладка потока данных на верхней панели холста потока данных или холста конвейера, когда выполняются действия с потоком данных.

Screenshot that shows where is the Debug slider 1

Screenshot that shows where is the Debug slider 2

После включения ползунка вам будет предложено выбрать конфигурацию среды выполнения интеграции, которую вы хотите использовать. Если выбран параметр AutoResolveIntegrationRuntime, то появится кластер с восемью ядрами общих вычислений с 60-минутным временем существования (TTL) по умолчанию. Чтобы разрешить более продолжительное время простоя группы до окончания сеанса, можете выбрать более высокое значение параметра TTL. Дополнительные сведения о средах выполнения интеграции потока данных см. в разделе Производительность Microsoft Integration Runtime.

Debug IR selection

Когда включен режим отладки, поток данных формируется в интерактивном режиме с помощью активного кластера Spark. Сеанс закрывается после отключения отладки. Следует помнить о почасовой оплате, которая взимается в Фабрике данных за время, когда сеанс отладки был включен.

В большинстве случаев рекомендуется создавать потоки данных в режиме отладки, чтобы можно было проверить бизнес-логику и просматривать преобразования данных перед публикацией результатов вашей работы. Используйте кнопку "Отладка" на панели конвейера для проверки потока данных в конвейере.

Примечание.

Каждый сеанс отладки, запускаемый пользователем из пользовательского интерфейса своего браузера, представляет собой новый сеанс с собственным кластером Spark. Вы можете использовать представление мониторинга для сеансов отладки, отображаемых на предыдущих изображениях, для просмотра сеансов отладки и управления ими. Плата взимается за каждый час выполнения каждого сеанса отладки, включая время TTL.

В этом видеоролике рассматриваются советы, рекомендации и рекомендации по отладке потока данных.

Состояние кластера

Индикатор состояния кластера в верхней части области конструктора становится зеленым, когда кластер готов к отладке. Если кластер уже теплый, зеленый индикатор отображается почти мгновенно. Если кластер еще не запущен при вводе режима отладки, кластер Spark выполняет холодную загрузку. Индикатор запускается до тех пор, пока среда не будет готова к интерактивной отладке.

Завершив отладку, отключите отладочный переключатель, чтобы кластер Spark смог завершить работу, и вы больше не будете выставлять счета за отладочное действие.

Параметры отладки

После включения режима отладки можно изменить способ предварительного просмотра данных в потоке данных. Параметры отладки можно изменить, нажав кнопку "Параметры отладки" на панели инструментов холста Потока данных. Можно выбрать ограничения строк или источник файлов для каждого преобразования источника. Ограничения строк в этом параметре относятся только к текущему сеансу отладки. Можно также выбрать промежуточную связанную службу, которая будет использоваться для источника Azure Synapse Analytics.

Debug settings

При наличии параметров в Потоке данных или любом из связанных с ним наборов данных можно указать, какие значения использовать во время отладки, выбрав вкладку Параметры.

Используйте параметры выборки здесь, чтобы указать на примеры файлов или примеры таблиц данных, чтобы не изменять исходные наборы данных. Используя образец файла или таблицы, можно сохранить в потоке данных те же параметры логики и свойств, что и при тестировании подмножества данных.

Debug settings parameters

Среда выполнения интеграции по умолчанию, используемая для режима отладки в потоках данных, представляет собой небольшой 4-ядерный рабочий узел с 4-ядерным узлом драйвера. Она прекрасно подходит для небольших выборок данных при тестировании логики потока данных. Если вы расширяете ограничения строк в параметрах отладки во время предварительного просмотра данных или задаете более большое количество примеров строк в источнике во время отладки конвейера, вам может потребоваться задать более крупную среду вычислений в новой среде выполнения интеграции Azure. Затем можно перезапустить сеанс отладки с помощью более крупной среды вычислений.

Предварительный просмотр данных

При отладке вкладка "Предварительный просмотр данных" загорается на нижней панели. Без режима отладки Поток данных отображает только текущие метаданные в каждом из преобразований на вкладке "Проверка". Предварительный просмотр данных запрашивает только количество строк, заданных в качестве ограничения в параметрах отладки. Выберите "Обновить" , чтобы обновить предварительный просмотр данных на основе текущих преобразований. Если исходные данные изменились, выберите "Обновить > Refetch" из источника.

Data preview

Столбцы можно сортировать в предварительном просмотре и переупорядочении столбцов с помощью перетаскивания. Кроме того, в верхней части панели предварительного просмотра данных есть кнопка экспорта, которую можно использовать для экспорта данных предварительного просмотра в CSV-файл для автономного просмотра данных. Эту функцию можно использовать для экспорта до 1000 строк предварительных данных.

Примечание.

Источники файлов ограничивают только отображаемые строки, но не считываемые строки. Для очень больших наборов данных рекомендуется взять небольшую часть этого файла и использовать его для тестирования. Можно выбрать временный файл в параметрах отладки для каждого источника, который является типом файлового набора данных.

При выполнении в режиме отладки в Поток данных данные не записываются в преобразование приемника. Сеанс отладки предназначен для использования в качестве окружения теста для преобразований. Приемники не требуются во время отладки и игнорируются в потоке данных. Чтобы протестировать процесс записи данных в приемник, выполните Поток данных из конвейера и примените отладку из конвейера.

Предварительный просмотр данных — это моментальный снимок преобразованных данных, использующий ограничения строк и выборку данных из кадров данных в памяти Spark. Поэтому драйверы приемника не используются или тестируются в этом сценарии.

Тестирование условий соединения

При выполнении модульного тестирования преобразований соединения, существования или поиска проследите, чтобы для теста использовался небольшой набор известных данных. Параметр отладки Параметры, описанный ранее, можно использовать для задания временного файла, используемого для тестирования. Это необходимо, так как при ограничении или выборке строк из большого набора данных невозможно предсказать, какие строки и какие ключи считываются в поток для тестирования. Результат недетерминирован, что означает, что условия соединения могут завершиться ошибкой.

Быстрые действия

После просмотра данных можно создать быстрое преобразование для приведения, удаления или внесения изменений в столбец. Выберите заголовок столбца и выберите один из вариантов на панели инструментов предварительного просмотра данных.

Screenshot shows the data preview toolbar with options: Typecast, Modify, Statistics, and Remove.

После выбора изменения предварительный просмотр данных будет немедленно обновлен. Нажмите кнопку "Подтвердить" в правом верхнем углу, чтобы создать новое преобразование.

Screenshot shows the Confirm button.

Typecast и Modify создает преобразование "Производный столбец" и "Удалить" создает преобразование Select.

Screenshot shows Derived Column’s Settings.

Примечание.

При изменении Потока данных необходимо повторно получить предварительную версию данных перед добавлением быстрого преобразования.

Профилирование данных

Выбор столбца на вкладке предварительного просмотра данных и нажатие кнопки "Статистика " на панели инструментов предварительного просмотра данных появится диаграмма справа от сетки данных с подробными статистическими данными о каждом поле. Служба создает определение на основе выборки данных типа диаграммы для отображения. Поля высокой карта inality по умолчанию имеют диаграммы NULL/NOT NULL, а категориальные и числовые данные с низкой карта inality отображают линейчатые диаграммы с частотой значений данных. Кроме того, отображается максимальная длина строковых полей, минимальное или максимальное значение в числовых полях, стандартное dev, процентиль, счетчики и среднее значение.

Column statistics