Как работает Azure HDInsight

Завершено

Здесь вы узнаете, как работает Azure HDInsight. Вы узнаете о следующих компонентах и о том, как они взаимодействуют для управления и контроля данных.

  • Apache Hadoop
  • Хранилище HDInsight
  • Обработка HDInsight

Что такое Apache Hadoop?

Apache Hadoop — это облачная распределенная система обработки данных в основе HDInsight. Он содержит три компонента, которые описаны в следующей таблице:

Компонент Apache Hadoop Описание
HDFS (Hadoop распределённая файловая система) Распределенная файловая система Apache Hadoop (HDFS) предоставляет хранилище для системы Hadoop.
ПРЯЖА Компонент Переговорщика ресурсов Apache Hadoop (YARN) обеспечивает обработку системы.
MapReduce MapReduce — это модель программирования, которая позволяет обрабатывать и анализировать данные.

Как взаимодействуют компоненты?

На следующей схеме показаны компоненты хранения и обработки, взаимодействующие в типичном кластере HDInsight Hadoop. Он иллюстрирует следующие компоненты:

  • Головной узел и рабочие узлы, которые выполняют обработку.
  • Несколько хранилищ BLOB-объектов Windows Azure (WASB) внутри узлов. HDFS взаимодействует с этими контейнерами.
  • Несколько контейнеров хранилища: по умолчанию, связанных и несвязанных. Они доступны двум узлам.

Схема, на которой показаны головной и рабочий узлы в Hadoop, а затем несколько контейнеров хранилища, доступных узлам.

Теперь давайте рассмотрим, как работает хранилище и обработка.

Как работает хранилище?

Компонент хранилища кластера не создается автоматически при подготовке кластера HDInsight. Вместо этого она предоставляется системой, совместимой с HDFS, например службой хранилища Azure или Azure Data Lake.

Существуют преимущества разделения компонента хранилища кластера от компонента обработки. Например, можно безопасно удалить любые кластеры HDInsight, используемые только для вычислений, не беспокоясь о потере данных. При добавлении кластера HDInsight необходимо определить файловую систему по умолчанию.

Важный

Для службы хранилища Azure необходимо указать контейнер BLOB-объектов в качестве файловой системы по умолчанию.

Предоставление файловой системы по умолчанию гарантирует, что HDInsight может разрешать относительные ссылки на файлы при поиске файлов.

Совет

Если требуется увеличить доступное хранилище, можно связать и отменить связь с дополнительными файловыми системами по мере необходимости.

Схема, изображающая элемент хранилища из предыдущей схемы.

Как работает обработка?

При обработке данных вычислительный компонент кластера Hadoop в HDInsight разбивается на две логические области. В следующей таблице описаны две области:

Компонент Описание
Головной узел Головной узел принимает клиентские запросы и управляет и передает запросы рабочим узлам.
Рабочий узел Рабочие узлы обрабатывают данные.

Заметка

Головной узел иногда называется главным узлом.

Большинство кластеров содержат два головных узла, в том числе:

  • Активный головной узел, который управляет клиентскими подключениями.
  • Пассивный головной узел, который обеспечивает устойчивость, если активный узел переходит в автономный режим.

Схема, изображающая элемент обработки в типичном кластере Hadoop.

Головной и рабочий узлы могут подключаться непосредственно к локально подключенному HDFS или доступу к данным, хранящимся в BLOB-объекте Azure или Azure Data Lake. Управление данными зависит от двух факторов:

  • Как модель программирования MapReduce определила, как работать с данными
  • Как головной узел распределяет задания

Что делает YARN?

YARN выполняет управление ресурсами в кластере HDInsight. При обработке данных эта служба управляет ресурсами и планированием заданий.

YARN находится между HDFS и вычислительной системой кластера HDInsight. Он работает с головным узлом, чтобы помочь распределить задание по рабочим узлам кластера. Это помогает обеспечить параллельное выполнение заданий обработки данных.