Потоки данных в Azure Synapse Analytics
Что такое потоки данных?
Потоки данных — это визуально спроектированные преобразования данных в Azure Synapse Analytics. Потоки данных позволяют инженерам по обработке данных разрабатывать логику преобразования данных без написания кода. Результирующие потоки данных выполняются в качестве действий в конвейерах Azure Synapse Analytics, использующих кластеры Apache Spark с горизонтальным увеличением масштаба. Действия потока данных можно применять через уже существующие средства планирования, управления, потока и мониторинга в Azure Synapse Analytics.
Потоки данных обеспечивают полностью визуальный интерфейс без необходимости написания кода. Потоки данных выполняются в кластерах выполнения, управляемых Synapse, для обработки данных с горизонтальным масштабированием. Azure Synapse Analytics обрабатывает любое преобразование кода, оптимизацию пути и выполнение заданий потока данных.
Начало работы
Потоки данных создаются на панели "Разработка" в студии Synapse. Чтобы создать поток данных, щелкните знак "плюс" рядом с параметром Разработка, а затем выберите Поток данных.
Это действие выполняет переход к холсту потока данных, где можно создать логику преобразования. Выберите Добавить источник, чтобы начать настройку преобразования источника. Дополнительные сведения см. в статье Преобразование источника.
Создание потоков данных
У потока данных есть уникальный холст, упрощающий создание логики преобразования. Холст потока данных разделен на три части: верхняя панель, диаграмма и панель конфигурации.
График
Диаграмма отображает поток преобразования. Здесь показан журнал преобразований источника данных по мере их передачи в один или несколько приемников. Чтобы добавить новый источник, выберите Добавить источник. Чтобы добавить новое преобразование, щелкните знак "плюс" в правом нижнем углу существующего преобразования. Узнайте больше о том, как управлять диаграммой потока данных.
Панель конфигурации
На панели конфигурации отображаются параметры, относящиеся к текущему выбранному преобразованию. Если преобразование не выбрано, то отображается поток данных. В общей конфигурации потока данных можно добавить параметры с помощью вкладки Параметры. Дополнительные сведения см. в статье Параметры потока данных.
Каждое преобразование содержит по крайней мере четыре вкладки конфигурации.
Параметры преобразования
Первая вкладка в области конфигурации каждого преобразования содержит параметры, относящиеся к этому преобразованию. Дополнительные сведения см. на странице документации по преобразованию.
Оптимизация
Вкладка Оптимизация содержит параметры для настройки схем секционирования. Чтобы узнать больше о том, как оптимизировать потоки данных, см. руководство по повышению производительности потока данных для сопоставления.
Изучение
Вкладка Проверка содержит метаданные потока данных, который вы преобразуете. Можно просмотреть количество столбцов, изменить столбцы, добавить столбцы, типы данных, порядок столбцов и ссылки на столбцы. Проверка — это представление метаданных только для чтения. Для просмотра метаданных в области Проверка не нужно включать режим отладки.
Во время изменения формы ваших данных путем преобразований вы увидите, как метаданные изменяют поток, с помощью области Проверка. Метаданные не будут отображаться в области Проверка, если в преобразовании источника не определена схема. Отсутствие метаданных часто встречается в сценариях смещения схемы.
Предварительный просмотр данных
Если включен режим отладки, на вкладке Предварительный просмотр данных отображается интерактивный моментальный снимок данных при каждом преобразовании. Дополнительные сведения см. в статье Предварительный просмотр данных в режиме отладки.
Верхняя панель
Верхняя панель содержит действия, влияющие на весь поток данных, например параметры проверки и отладки. Можно также просмотреть базовый код JSON и скрипт потока данных для логики преобразования.
Доступные преобразования
Просмотрите Общие сведения о преобразовании потока данных для сопоставления, чтобы получить список доступных преобразований.
Действие потока данных
Потоки данных выполняются в конвейерах Azure Synapse Analytics с помощью действия потока данных. Все, что пользователь должен сделать, — это указать, какую среду выполнения интеграции использовать, и передать значения параметров. Дополнительные сведения см. в статье о среде выполнения интеграции Azure.
Режим отладки
Режим отладки позволяет интерактивно просматривать результаты каждого шага преобразования во время сборки и отладки потоков данных. Сеанс отладки можно использовать как при построении логики потока данных, так и при выполнении отладки конвейера с действиями потока данных. Чтобы узнать больше, см. документацию по режиму отладки.
Мониторинг потоков данных
Поток данных интегрируется с имеющимися возможностями мониторинга Azure Synapse Analytics. Сведения о том, как интерпретировать выходные данные мониторинга потока данных, см. в статье Мониторинг потоков данных для сопоставления.
Группа Azure Synapse Analytics создала рекомендации по настройке производительности, которые помогут вам оптимизировать время выполнения потоков данных после создания бизнес-логики.
Дальнейшие шаги
- Узнайте, как создать преобразование источника.
- Узнайте, как создавать потоки данных в режиме отладки.