Общие сведения о Фабрике данных Azure

Завершено

Для большинства аналитических решений обязательно наличие возможности инициировать пакетное перемещение данных или настраивать регулярное расписание. Для этих целей можно использовать службу "Фабрика данных Azure" (ADF). Фабрика данных Azure предоставляет облачную службу интеграции данных, которая оркестрирует перемещение и преобразование данных между различными хранилищами данных и вычислительными ресурсами.

Фабрика данных Azure — это облачная служба извлечения, преобразования, загрузки (ETL) и интеграции данных, которая позволяет создавать на их основе рабочие процессы для оркестрации их перемещения и преобразования в большом масштабе. С помощью Фабрики данных Azure можно создавать и включать в расписание управляемые данными рабочие процессы (конвейеры), поддерживающие прием данных из разнородных хранилищ данных, Вы можете визуально создавать сложные процессы извлечения, преобразования и загрузки для преобразования данных с помощью потоков данных или вычислительных служб, таких как Azure HDInsight Hadoop, Azure Databricks и Azure Synapse Analytics.

Большая часть возможностей Фабрики данных Azure реализуется в Azure Synapse Analytics в составе функции Pipelines, которая позволяет интегрировать конвейеры данных между пулами SQL, пулами Spark и бессерверными пулами SQL, предоставляя единую службу для всех ваших аналитических потребностей.

Что такое оркестрация

В качестве аналогии рассмотрим симфонический оркестр. Главным его участником, безусловно, является дирижер. Дирижер не играет на инструментах, но осуществляет руководство оркестром на протяжении всего музыкального произведения. При этом музыкантам достаточно знать только свои партии и исполнять их в нужный момент. Дирижер же отвечает за исполнение произведения в целом и, соответственно, знает всю его партитуру. Кроме того, используя специальные движения руками, дирижер указывает музыкантам, как именно следует исполнять ту или иную часть произведения.

Аналогичный подход использует Фабрика данных Azure. Несмотря на наличие собственных функций для приема и преобразования данных, в нужных случаях она поручает фактическое выполнение работы от своего имени другой службе, например выполнение запроса на преобразование может быть поручено Databricks. В таком случае фактически выполнять работу будет Databricks, а не Фабрика данных Azure. В таких сценариях Фабрика данных Azure просто оркестрирует выполнение запроса, а затем предоставляет конвейеры для перемещения данных на следующий этап или следующему адресату.

Служба также предоставляет широкие возможности визуализации для отображения журнала преобразований данных и зависимостей между конвейерами данных, а также для мониторинга всех конвейеров данных в едином представлении с целью оперативного выявления проблем и настройки оповещений.

Data Factory platform