Работа с конвейерами фабрики данных

Завершено

Для работы с конвейерами в Фабрике данных Azure необходимо понимать, что они собой представляют.

Конвейер в Фабрике данных Azure представляет логическую группу действий, которые вместе выполняют определенную задачу.

Примером набора действий в одном конвейере может быть прием и очистка данных журнала в сочетании с потоком данных для сопоставления, который анализирует очищенные данные журнала.

Конвейер позволяет управлять всеми действиями как единым целым, а не по отдельности. Он дает возможность эффективно развертывать и планировать действия, не настраивая каждое отдельное действие.

Действия в конвейере — это определенные операции с данными. У каждого действия может быть несколько входных наборов данных или же ни одного, и каждое действие может производить один или несколько выходных наборов данных.

Примером может служить действие копирования, которое копирует данные из Базы данных SQL Azure в Azure Data Lake Storage 2-го поколения. Продолжая этот пример, вы можете использовать действие потока данных или записной книжки Azure Databricks для обработки и преобразования данных, скопированных в учетную запись Azure Data Lake Storage 2-го поколения, с целью подготовить их для решений бизнес-аналитики, таких как Azure Synapse Analytics.

Так как в конвейере Фабрики данных Azure можно реализовать множество действий, мы сгруппировали их в три категории.

  • Действия перемещения данных. Действие копирования в фабрике данных копирует данные из хранилища-источника в хранилище-приемник.
  • Действия преобразования данных. Фабрика данных Azure поддерживает такие действия преобразования, как поток данных, функция Azure, Spark и другие. Их можно добавлять в конвейеры по отдельности или связывать с другими действиями.
  • Действия управления. Примеры действий потока управления — "Получение метаданных", For Each и Execute Pipeline.

Действия могут зависеть друг от друга. Под этим понимается то, как последующие действия зависят от предыдущих. Сама зависимость может основываться на условии, которое определяет, следует ли продолжать выполнение в зависимости от результата предыдущих действий. Действие может зависеть от одного или нескольких предыдущих действий с разными условиями зависимости.

Четыре условия зависимости:

  • Выполнено успешно
  • Неудачно
  • Пропущено
  • Завершен

Например, если в конвейере есть действие А, за которым следует действие Б, и действие Б зависит от действия А с условием "Выполнено", действие Б будет выполнено только в том случае, если действие A имеет состояние "Выполнено".

Действия могут выполняться параллельно при наличии нескольких действий в конвейере и последующих действий, которые не зависят от предыдущих.