Миграция локальных кластеров Apache Hadoop в Azure HDInsight — рекомендации по архитектуре

Статья
12/05/2023

В этой статье представлены рекомендации для архитектуры систем Azure HDInsight. Это часть цикла, где приведены лучшие методики, применимые при перемещении локальных систем Apache Hadoop в Azure HDInsight.

Использование кластеров, оптимизированных для нескольких рабочих нагрузок

Большое количество локальных развертываний Apache Hadoop состоит из одного большого кластера, который поддерживает многие рабочие нагрузки. Этот отдельный кластер может быть комплексным и требовать компромиссов для отдельных служб, чтобы обеспечить их совместную работу. При миграции локальных кластеров Hadoop в Azure HDInsight нужен измененный подход.

Кластеры Azure HDInsight предназначены для конкретного типа использований вычислений. Так как хранилище может совместно использоваться несколькими кластерами, можно создать вычислительные кластеры, оптимизированные для нескольких рабочих нагрузок, в соответствии с потребностями разных заданий. У каждого типа кластера есть оптимальная конфигурация для конкретной рабочей нагрузки. В следующей таблице перечислены поддерживаемые типы кластеров в HDInsight и соответствующие рабочие нагрузки.

Рабочая нагрузка	Тип кластера HDInsight
Пакетная обработка (ETL/ELT)	Hadoop, Spark
Хранение данных	Hadoop, Spark, Interactive Query
Центр Интернета вещей или потоковая передача	Kafka, Spark
Обработка транзакций NoSQL	HBase
Кэширование в памяти для обеспечения интерактивных и ускоренных запросов	Интерактивный запрос
Обработка и анализ данных	Spark

В приведенной ниже таблице представлены различные способы создания кластера HDInsight.

Средство	На основе браузера	Командная строка	REST API	SDK
Портал Azure	X
Фабрика данных Azure.	X	X	X	X
Azure CLI (версия 1.0)		X
Azure PowerShell		X
cURL		X	X
Пакет SDK для .NET				X
Пакет SDK для Python				X
пакет SDK для Java				X
Шаблоны диспетчера ресурсов Azure		X

Дополнительные сведения см. в статье Что такое Azure HDInsight и стек технологий Apache Hadoop.

Использование промежуточных кластеров по запросу

Кластеры HDInsight могут не использоваться в течение длительного периода времени. Для экономии расходов на ресурсы HDInsight поддерживает промежуточные кластеры по запросу, которые можно удалить после успешного выполнения рабочей нагрузки.

При удалении кластера связанная учетная запись хранения и внешние метаданные не удаляются. Кластер можно создавать повторно с использованием тех же учетных записей хранения и хранилищ метаданных.

Фабрику данных Azure можно использовать для планирования создания кластеров HDInsight по запросу. Дополнительные сведения см. в статье Руководство. Создание кластеров Apache Hadoop в HDInsight по запросу с помощью Фабрики данных Azure.

Отделение ресурсов хранилища от вычислительных ресурсов

Стандартное локальное развертывание Hadoop использует один набор компьютеров для хранения и обработки данных. Так как они размещаются совместно, вычислительные ресурсы и ресурсы хранения должны также масштабироваться вместе.

В кластерах HDInsight хранилища не нужно размещать совместно с вычислительными ресурсами. Для хранения может использоваться служба хранилища Azure, Azure Data Lake Storage или оба хранилища. Отделение хранилища от вычислительных ресурсов предоставляет следующие преимущества:

совместное использование данных кластерами;
использование промежуточных кластеров, так как данные не зависят от кластера;
снижение затрат на хранилище;
масштабирование хранилища и вычислительных ресурсов отдельно;
репликация данных между регионами.

Вычислительные кластеры создаются близко к ресурсам учетной записи хранения в регионе Azure, чтобы устранить ухудшения производительности при разделении вычислительных ресурсов и хранилища. Высокоскоростные сети позволяют вычислительным узлам получать эффективный доступ к данным в службе хранилища Azure.

Использование внешних хранилищ метаданных

Существует два основных хранилища метаданных, которые работают с кластерами HDInsight: Apache Hive и Apache Oozie. Хранилище метаданных Hive — это центральный репозиторий схемы, который могут использовать модули обработки данных, такие как Hadoop, Spark, LLAP, Presto и Apache Pig. Хранилище метаданных Oozie хранит сведения о планировании, состояние хода выполнения и выполненные задания Hadoop.

HDInsight использует Базу данных SQL Azure для хранилищ метаданных Hive и Oozie. Есть два способа настроить хранилище метаданных для кластеров HDInsight.

Хранилище метаданных по умолчанию
- Дополнительные затраты не требуются.
- Хранилище метаданных удаляется при удалении кластера.
- Хранилище метаданных не может совместно использоваться разными кластерами.
- Использует простую Базу данных SQL Azure с ограничением в пять единиц передачи данных.
Пользовательское внешнее хранилище метаданных
- В качестве хранилища метаданных указывается внешняя База данных SQL Azure.
- Кластеры могут создаваться и удаляться без потери метаданных, включая сведения о задании Oozie схемы Hive.
- Одна база данных хранилища метаданных может совместно использоваться различными типами кластеров.
- При необходимости можно увеличить масштаб хранилища метаданных.
- Дополнительную информацию см. в статье Использование внешних хранилищ метаданных в Azure HDInsight.

Дальнейшие действия

Прочитайте следующую статью в этом цикле:

Migrate on-premises Apache Hadoop clusters to Azure HDInsight - infrastructure best practices (Миграция локальных кластеров Apache Hadoop в Azure HDInsight. Рекомендации по инфраструктуре)

Поделиться через

Миграция локальных кластеров Apache Hadoop в Azure HDInsight — рекомендации по архитектуре

Использование кластеров, оптимизированных для нескольких рабочих нагрузок

Использование промежуточных кластеров по запросу

Отделение ресурсов хранилища от вычислительных ресурсов

Использование внешних хранилищ метаданных

Рекомендации по хранилищу метаданных Hive

Рекомендации для различных рабочих нагрузок

Дальнейшие действия

Обратная связь

Дополнительные ресурсы