Обзор Azure Data Lake Storage 2-го поколения в HDInsight

Azure Data Lake Storage 2-го поколения принимает основные возможности Azure Data Lake Storage 1-го поколения и интегрирует их в хранилище BLOB-объектов Azure. Эти функции включают файловую систему, совместимую с Hadoop, идентификатором Microsoft Entra ID и списками управления доступом на основе POSIX (ACL). Такое сочетание позволяет получить все преимущества производительности Azure Data Lake Storage 1-го поколения одновременно с возможностью управлять распределением по уровням и жизненным циклом данных в хранилище BLOB-объектов.

Дополнительные сведения об Azure Data Lake Storage 2-го поколения см. в этой статье.

Основные функциональные возможности Azure Data Lake Storage 2-го поколения

  • Доступ, совместимый с Hadoop. В Azure Data Lake Storage 2-го поколения вы можете обращаться к данным и управлять ими так же, как и в распределенной файловой системе Hadoop (HDFS). Во всех средах Apache Hadoop, в том числе Azure HDInsight и Azure Databricks, доступен драйвер файловой системы больших двоичных объектов Azure (ABFS). Используйте ABFS для получения доступа к данным, хранящимся в Data Lake Storage 2-го поколения.

  • Надмножество разрешений POSIX. Модель безопасности Data Lake Storage 2-го поколения поддерживает разрешения ACL и POSIX, а также некоторую дополнительную детализацию, разработанную специально для к Data Lake Storage 2-го поколения. Параметры можно настроить с помощью средств администрирования или платформ, таких как Apache Hive и Apache Spark.

  • Экономичность. В Data Lake Storage 2-го поколения предлагается низкая стоимость емкости хранилища и выполнения транзакций. Жизненные циклы данных в Хранилище BLOB-объектов Azure помогают снизить затраты, регулируя тарифные ставки при перемещении данных в течение жизненного цикла.

  • Совместимость со средствами, платформами и приложениями Хранилища BLOB-объектов. Data Lake Storage 2-го поколения поддерживает большое количество средств, платформ и приложений для Хранилища BLOB-объектов.

  • Оптимизированный драйвер. Драйвер ABFS оптимизирован специально для аналитики больших данных. Соответствующие интерфейсы REST API подключены через конечную точку распределенной файловой системы (DFS) — dfs.core.windows.net.

Новые возможности Azure Data Lake Storage 2-го поколения

Управляемые удостоверения для безопасного доступа к файлам

Azure HDInsight использует управляемые удостоверения, чтобы защитить доступ к кластеру файлов в Azure Data Lake Storage 2-го поколения. Управляемые удостоверения — это функция идентификатора Microsoft Entra, который предоставляет службам Azure набор автоматически управляемых учетных данных. Эти учетные данные можно использовать для аутентификации в любой службе, которая поддерживает аутентификацию Active Directory. Для управляемых удостоверений не требуется хранить учетные данные в коде или файлах конфигурации.

Дополнительные сведения см. в статье об управляемых удостоверениях для ресурсов Azure.

Драйвер файловой системы больших двоичных объектов Azure

Приложения Apache Hadoop изначально рассчитаны на чтение и запись данных из локального дискового хранилища. Драйвер файловой системы Hadoop, например ABFS, позволяет приложениям Hadoop использовать облачное хранилище. Он эмулирует обычные операции файловой системы Hadoop. Затем драйвер преобразует полученные из приложения команды в операции, чтобы их поддерживала фактическая платформа облачного хранения.

Ранее драйвер файловой системы Hadoop преобразовывал все операции файловой системы в вызовы REST API службы хранилища Azure на стороне клиента, а затем вызывал REST API. Это преобразование на стороне клиента привело к нескольким вызовам REST API на одну операцию файловой системы, например переименование файла. В ABFS логика файловой системы Hadoop была перемещена со стороны клиента на сторону сервера. API Azure Data Lake Storage 2-го поколения теперь выполняется параллельно с API больших двоичных объектов. Такая миграция повышает производительность, так как теперь общие операции файловой системы Hadoop выполняются с помощью одного вызова REST API.

Дополнительные сведения см. в статье Драйвер Azure Blob File System (ABFS): выделенный драйвер службы хранилища Azure для Hadoop.

Схема URI для Azure Data Lake Storage 2-го поколения

Azure Data Lake Storage 2-го поколения использует схему URI для доступа к файлам в службе хранилища Azure из HDInsight:

abfs://<FILE_SYSTEM_NAME>@<ACCOUNT_NAME>.dfs.core.windows.net/<PATH>

Схема URI обеспечивает доступ с шифрованием по протоколу SSL.

<FILE_SYSTEM_NAME> идентифицирует путь к файловой системе Data Lake Storage 2-го поколения.

<ACCOUNT_NAME> определяет имя учетной записи службы хранилища Azure. Обязательно использовать полное доменное имя (FQDN).

<PATH> — это имя пути к файлу или каталогу HDFS.

Если значения для <FILE_SYSTEM_NAME> и <ACCOUNT_NAME> не указаны, используется файловая система по умолчанию. Для файлов в файловой системе по умолчанию можно использовать относительный или абсолютный путь. Например, для ссылки на файл hadoop-mapreduce-examples.jar, который поставляется с кластерами HDInsight, можно использовать один из приведенных ниже вариантов:

abfs://myfilesystempath@myaccount.dfs.core.windows.net/example/jars/hadoop-mapreduce-examples.jar
abfs:///example/jars/hadoop-mapreduce-examples.jar /example/jars/hadoop-mapreduce-examples.jar

Примечание.

В кластерах HDInsight версий 2.1 и 1.6 файл называется hadoop-examples.jar. При работе с файлами вне HDInsight вы увидите, что большинство программ не распознают формат ABFS, но вместо этого ожидают формат базового пути, например example/jars/hadoop-mapreduce-examples.jar.

Дополнительные сведения см. в статье Use the Azure Data Lake Storage Gen2 URI (Использование универсального кода ресурса в Azure Data Lake Storage 2-го поколения).

Следующие шаги