Настройка объема хранилища и уровня масштабируемости для Apache Kafka в HDInsight

Узнайте, как настроить количество управляемых дисков, используемых Apache Kafka в HDInsight.

Kafka в HDInsight использует локальный диск для виртуальных машин в кластере HDInsight. Так как Kafka обрабатывает большое количество операций ввода-вывода, используются управляемые диски Azure, чтобы обеспечить высокую пропускную способность и предоставить дополнительное хранилище для каждого узла. Если для Kafka использовать стандартные виртуальные жесткие диски (VHD), на каждом узле будет доступен 1 ТБ памяти. Но благодаря управляемым дискам можно использовать несколько дисков и увеличить объем каждого узла кластера до 16 ТБ.

На схеме ниже сравниваются две версии Kafka в HDInsight: до использования управляемых дисков и с ними.

kafka with managed disks architecture.

Настройка управляемых дисков на портале Azure

  1. Следуйте указаниям в статье о создании кластеров HDInsight, чтобы ознакомиться с основными действиями для создания кластера с помощью портала. Не завершайте создание кластера на портале.

  2. В разделе Конфигурация и цены используйте поле Количество узлов, чтобы настроить количество дисков.

    Примечание.

    Управляемый диск может быть двух типов: Стандартный (HDD) или Премиум (SSD). Диски категории "Премиум" используются с виртуальными машинами серий DS и GS. Для всех остальных виртуальных машин используются стандартные управляемые диски.

    cluster size section with the disks per worker node highlighted.

Настройка управляемых дисков с использованием шаблона Resource Manager

Чтобы управлять количеством дисков, которое используется рабочими узлами в кластере Kafka, используйте следующий раздел шаблона:

"dataDisksGroups": [
    {
        "disksPerNode": "[variables('disksPerWorkerNode')]"
    }
    ],

Следующие шаги

Дополнительные сведения о работе с Apache Kafka HDInsight см. в следующих документах: