Общие сведения о компонентах Фабрики данных Azure

Завершено

В подписке Azure может быть один экземпляр Фабрики данных Azure или несколько. Фабрика данных Azure состоит из четырех основных компонентов. Они образуют платформу, на которой можно создавать управляемые данными рабочие процессы, предусматривающие перемещение и преобразование данных.

Фабрика данных поддерживает широкий спектр источников данных, к которым можно подключаться путем создания объекта, известного как связанная служба. Это позволяет принимать данные из источника данных в виде, удобном для подготовки к преобразованию и (или) анализу. Кроме того, связанные службы позволяют запускать вычислительные службы по требованию. Например, вам может потребоваться запустить кластер HDInsight просто для обработки данных с помощью запроса Hive. Таким образом, связанные службы позволяют определять источники данных или вычислительные ресурсы, необходимые для приема и подготовки данных.

Когда определена связанная служба, Фабрике данных Azure известно о том, какие наборы данных необходимо использовать при создании объекта DataSets. Наборы данных представляют структуры данных в хранилище данных, на которые ссылается объект связанной службы. Наборы данных также могут использоваться объектом Фабрики данных Azure, который называется действием.

Действия, как правило, содержат логику преобразования или команды для анализа работы Фабрики данных Azure. К действиям относится действие копирования, которое можно использовать для приема данных из различных источников. Также они могут включать поток данных сопоставления для выполнения преобразований данных без кода. Кроме того, существуют действия, позволяющие выполнять хранимые процедуры, запросы Hive или скрипты Pig для преобразования данных. Вы можете отправить данные в модель машинного обучения для выполнения анализа. Часто выполняется сразу несколько действий, например преобразование данных с помощью хранимой процедуры SQL с их последующим анализом в Databricks. В этом случае несколько действий можно логически сгруппировать с помощью объекта, который называется конвейером. Также можно запланировать их выполнение или определить триггер, по которому инициируется выполнение конвейера. Существует несколько типов триггеров для разных событий.

Data Factory Components

Поток управления — это оркестрация действий в конвейере, которая включает связывание действий в последовательности, ветвление, определение параметров на уровне конвейера и передачу аргументов во время вызова конвейера по запросу или из триггера. Кроме того, сюда входят передача пользовательского состояния, контейнеры циклов и итераторы For-each.

Параметры представляют собой пары "ключ — значение" в конфигурации только для чтения.  Параметры определяются в конвейере, а аргументы для них передаются во время выполнения из контекста запуска, созданного триггером, или из конвейера, который выполняется вручную. Действия в конвейере используют значения параметров.

Фабрика данных Azure имеет среду выполнения интеграции, которая обеспечивает связь между объектами действий и связанных служб. Связанные службы ссылаются на эту среду, которая предоставляет вычислительную среду для выполнения или диспетчеризации действий. Таким образом, действие может выполняться в ближайшем регионе. Существует три типа среды выполнения интеграции, включая Azure, локально размещенную среду и Azure-SSIS.

После завершения работы вы можете использовать Фабрику данных для публикации последнего набора данных в другой связанной службе, которая затем может использоваться такими технологиями, как Power BI или Машинное обучение.