Выбор технологии для оркестрации конвейеров данных в Azure

Большинство решений для работы с большими данными представляют собой повторяющиеся операции обработки данных, инкапсулированные в рабочие процессы. Оркестратор конвейеров — это средство автоматизации таких рабочих процессов. Оркестратор позволяет планировать задания, выполнять рабочие процессы и координировать зависимости между задачами.

Варианты при выборе технологии для оркестрации конвейеров данных

Ниже перечислены службы и средства в Azure, которые соответствуют основным требованиям к оркестрации конвейеров, управлению потоками и перемещению данных:

Эти службы и средства можно использовать отдельно или в сочетании, что позволяет создавать гибридные решения. Например, среда Integration Runtime (IR) в службе "Фабрика данных Azure" версии 2 изначально позволяет запускать пакеты служб SSIS в управляемой вычислительной среде Azure. Некоторые функции этих служб совпадают, но есть несколько основных отличий.

Основные критерии выбора

Чтобы ограничить количество вариантов, сначала ответьте на следующие вопросы:

  • Требуются ли возможности для перемещения и преобразования больших данных? Как правило, подразумевается использование от нескольких гигабайт до терабайт данных. Если да, выберите варианты, которые более всего подходят для больших данных.

  • Требуется ли управляемая служба, которая может работать в нужном масштабе? Если да, выберите одну из облачных служб, которые не ограничиваются вычислительной мощностью локального компьютера.

  • Размещены ли некоторые источники данных локально? Если да, выберите варианты, которые могут работать с облачными и локальными источниками данных или назначениями.

  • Исходные данные размещены в хранилище BLOB-объектов в файловой системе HDFS? Если да, выберите вариант с поддержкой запросов Hive.

Матрица возможностей

В следующих таблицах перечислены основные различия в возможностях.

Общие возможности

Возможность Azure Data Factory SQL Server Integration Services (SSIS); Oozie в HDInsight.
Управляется Да No Да
Облачные Да Нет (локальные) Да
Необходимые условия Подписка на Azure SQL Server Подписка Azure, кластер HDInsight
Средства управления Портал Azure, PowerShell, CLI, пакет SDK для .NET SSMS, PowerShell Оболочка Bash, REST API Oozie, пользовательский веб-интерфейс Oozie
Цены Оплата за использование Лицензирование и плата за использование функций Без дополнительной платы (сверх платы за использование кластера HDInsight)

Возможности конвейера

Возможность Azure Data Factory SQL Server Integration Services (SSIS); Oozie в HDInsight.
Копирование данных Да Да Да
Пользовательские преобразования Да Да Да (задания MapReduce, Pig и Hive)
Оценка с помощью службы "Машинное обучение Azure" Да Да (с помощью скриптов) No
Создание кластеров по запросу в HDInsight Да No No
Пакетная служба Azure Да No No
Pig, Hive, MapReduce Да No Да
Spark Да No No
Выполнение пакетов служб SSIS Да Да Нет
Поток управления Да Да Да
Доступ к локальным данным Да Да Нет

Масштабируемость

Возможность Azure Data Factory SQL Server Integration Services (SSIS); Oozie в HDInsight.
Увеличение масштаба Да No No
Горизонтальное увеличение масштаба Да Нет Да (путем добавления рабочих узлов в кластер)
Оптимизация для больших объемов данных Да No Да

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участник.

Автор субъекта:

Следующие шаги