Сравнение вариантов хранения для использования с кластерами Azure HDInsight

При создании кластеров HDInsight доступны несколько различных вариантов хранения Azure:

В этой статье предоставлен обзор типов хранилища и их уникальных функций.

Типы и характеристики хранилищ

В таблице ниже перечислены службы хранилища Azure, которые поддерживаются в различных версиях HDInsight.

Служба хранилища Тип счета Тип пространства имен Поддерживаемые службы Поддерживаемые уровни производительности Поддерживаемые уровни доступа Версия HDInsight Тип кластера
Azure Data Lake Storage 2-го поколения Общего назначения версии 2 Иерархическая (файловая система) BLOB-объект Стандартные Горячий, холодный или архивный 3.6+ Все, кроме Spark 2.1 и 2.2
Хранилище Azure Общего назначения версии 2 Object BLOB-объект Стандартные Горячий, холодный или архивный 3.6+ Все
Хранилище Azure Общего назначения версии 1 Object BLOB-объект Стандартные Н/П Все Все
Хранилище Azure Хранилище BLOB-объектов** Object Блочный BLOB-объект Стандартные Горячий, холодный или архивный Все Все
Хранилище Azure Data Lake Storage 1-го поколения Н/П Иерархическая (файловая система) Неприменимо Н/Д Неприменимо Только в версии 3.6 Все, кроме HBase
Хранилище Azure Блочный BLOB-объект Object Блочный BLOB-объект Premium Н/П 3.6+ Только HBase с ускоренной записью
Azure Data Lake Storage 2-го поколения Блочный BLOB-объект Иерархическая (файловая система) Блочный BLOB-объект Premium Н/П 3.6+ Только HBase с ускоренной записью

** Для кластеров HDInsight тип BlobStorage могут иметь только вторичные учетные записи хранения; а страничные BLOB-объекты в качестве хранилища не поддерживаются.

Дополнительные сведения о типах учетных записей хранения Azure см. в статье Общие сведения об учетных записях хранения Azure.

Дополнительные сведения об уровнях доступности служб хранилища Azure см. в статье Хранилище BLOB-объектов Azure: горячий, холодный и архивный уровни.

Вы можете создавать кластеры, сочетая различные службы для основного и дополнительного хранилища. В таблице ниже перечислены конфигурации хранилища кластера, которые в настоящее время поддерживаются в HDInsight.

Версия HDInsight Основное хранилище Дополнительное хранилище Поддерживается
3.6 и 4.0 Общего назначения версии 1, и общего назначения версии 2 Общего назначения версии 1, и общего назначения версии 2, BlobStorage (блочные BLOB-объекты) Да
3.6 и 4.0 Общего назначения версии 1, и общего назначения версии 2 Data Lake Storage 2-го поколения No
3.6 и 4.0 Data Lake Storage 2-го поколения* Data Lake Storage 2-го поколения Да
3.6 и 4.0 Data Lake Storage 2-го поколения* Общего назначения версии 1, и общего назначения версии 2, BlobStorage (блочные BLOB-объекты) Да
3.6 и 4.0 Data Lake Storage 2-го поколения Azure Data Lake Storage 1-го поколения No
3,6 Azure Data Lake Storage 1-го поколения Azure Data Lake Storage 1-го поколения Да
3,6 Azure Data Lake Storage 1-го поколения Общего назначения версии 1, и общего назначения версии 2, BlobStorage (блочные BLOB-объекты) Да
3,6 Azure Data Lake Storage 1-го поколения Data Lake Storage 2-го поколения No
4.0 Azure Data Lake Storage 1-го поколения Любое No
4.0 Общего назначения версии 1, и общего назначения версии 2 Azure Data Lake Storage 1-го поколения No

* Это может быть одно или несколько хранилищ Data Lake Storage 2-го поколения, если все они настроены для использования одного управляемого удостоверения для доступа к кластеру.

Примечание.

Data Lake Storage 2-го поколения не поддерживается в качестве основного хранилища для кластеров Spark 2.1 и 2.2.

Репликация данных

Azure HDInsight не хранит данные клиента. Основным средством хранения для кластера являются связанные учетные записи хранения. Вы можете подключить кластер к существующей учетной записи хранения или создать новую в процессе его создания. Новая учетная запись создается как учетная запись локально избыточного хранилища (LRS) и отвечает требованиям хранения данных в регионе, включая указанные в Центре управления безопасностью.

Чтобы проверить, правильно ли настроена служба HDInsight для хранения данных в одном регионе, убедитесь, что связанная с HDInsight учетная запись хранения является LRS или другим вариантом хранилища, указанным в Центре управления безопасностью.

Примечание.

Обновление основной или вторичной учетной записи хранения запущенного кластера с помощью возможностей Azure Data Lake Storage 2-го поколения не поддерживается. Чтобы изменить тип хранилища существующего кластера HDInsight на Data Lake Storage 2-го поколения, необходимо повторно создать кластер и выбрать учетную запись хранения с поддержкой иерархического пространства имен.

Следующие шаги