Выбор технологии для оркестрации конвейеров данных в Azure

Большинство решений для работы с большими данными представляют собой повторяющиеся операции обработки данных, инкапсулированные в рабочие процессы. Оркестратор конвейеров — это средство автоматизации таких рабочих процессов. Оркестратор позволяет планировать задания, выполнять рабочие процессы и координировать зависимости между задачами.

Варианты при выборе технологии для оркестрации конвейеров данных

Ниже перечислены службы и средства в Azure, которые соответствуют основным требованиям к оркестрации конвейеров, управлению потоками и перемещению данных:

Эти службы и средства можно использовать отдельно или в сочетании, что позволяет создавать гибридные решения. Например, среда Integration Runtime (IR) в службе "Фабрика данных Azure" версии 2 изначально позволяет запускать пакеты служб SSIS в управляемой вычислительной среде Azure. Некоторые функции этих служб совпадают, но есть несколько основных отличий.

Основные критерии выбора

Чтобы ограничить количество вариантов, сначала ответьте на следующие вопросы:

  • Требуются ли возможности для перемещения и преобразования больших данных? Как правило, подразумевается использование от нескольких гигабайт до терабайт данных. Если да, выберите варианты, которые более всего подходят для больших данных.

  • Требуется ли управляемая служба, которая может работать в нужном масштабе? Если да, выберите одну из облачных служб, которые не ограничиваются вычислительной мощностью локального компьютера.

  • Размещены ли некоторые источники данных локально? Если да, выберите варианты, которые могут работать с облачными и локальными источниками данных или назначениями.

  • Исходные данные размещены в хранилище BLOB-объектов в файловой системе HDFS? Если да, выберите вариант с поддержкой запросов Hive.

Матрица возможностей

В следующих таблицах перечислены основные различия в возможностях.

Общие возможности

Функция Фабрика данных Azure Службы SQL Server Integration Services (SSIS) Oozie в HDInsight
управляемость. Да Нет Да
Облачные Да Нет (локальные) Да
Предварительное требование Подписка Azure SQL Server Подписка Azure, кластер HDInsight
Средства управления Портал Azure, PowerShell, CLI, пакет SDK для .NET SSMS, PowerShell Оболочка Bash, REST API Oozie, пользовательский веб-интерфейс Oozie
Цены Оплата за использование Лицензирование и плата за использование функций Без дополнительной платы (сверх платы за использование кластера HDInsight)

Возможности конвейера

Функция Фабрика данных Azure Службы SQL Server Integration Services (SSIS) Oozie в HDInsight
Копирование данных Да Да Да
Пользовательские преобразования Да Да Да (задания MapReduce, Pig и Hive)
Оценка с помощью службы "Машинное обучение Azure" Да Да (с помощью скриптов) Нет
Создание кластеров по запросу в HDInsight Да Нет Нет
Пакетная служба Azure Да Нет Нет
Pig, Hive, MapReduce Да Нет Да
Spark Да Нет Нет
Выполнение пакетов служб SSIS Да Да Нет
Поток управления Да Да Да
Доступ к локальным данным Да Да Нет

Масштабируемость

Функция Фабрика данных Azure Службы SQL Server Integration Services (SSIS) Oozie в HDInsight
Увеличение масштаба Да Нет Нет
Горизонтальное увеличение масштаба Да Нет Да (путем добавления рабочих узлов в кластер)
Оптимизация для больших объемов данных Да Нет Да

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.

Автор субъекта: