Общие сведения о хранилище Azure Data Lake Storage 2-го поколения

Azure Data Lake Storage 2-го поколения — это набор возможностей аналитики больших данных, созданных на основе Хранилища BLOB-объектов Azure.

Data Lake Storage 2-го поколения объединяет возможности Azure Data Lake Storage 1-го поколения и Хранилища BLOB-объектов Azure. Например, Data Lake Storage 2-го поколения поддерживает семантику файловой системы, защиту на уровне файлов и масштабирование. Так как эти возможности основаны на хранилище BLOB-объектов, вы также получаете недорогое многоуровневое хранилище с возможностями высокого уровня доступности и аварийного восстановления.

Data Lake Storage 2-го поколения использует службу хранилища Azure в качестве основы для создания корпоративных хранилищ данных в Azure. Разработанное с целью обработки нескольких петабайт информации и с поддержкой сотен гигабит пропускной способности хранилище Data Lake Storage 2-го поколения позволяет с легкостью управлять огромным количеством данных.

Что такое Data Lake?

Озеро данных — это единый централизованный репозиторий, в котором можно хранить все ваши данные, как структурированные, так и неструктурированные. Озеро данных позволяет организации быстро и легко сохранять, использовать и анализировать разнообразные данные в одном месте. При использовании озера данных вам не нужно выполнять согласование данных в соответствии с существующей структурой. Вместо этого можно хранить данные в необработанном или собственном формате, обычно в виде файлов или больших двоичных объектов (BLOB-объектов).

Azure Data Lake Storage — это облачное корпоративное решение озера данных. Оно предназначено для хранения больших объемов данных в любом формате и упрощения выполнения аналитических рабочих нагрузок с большими данными. Оно позволяет сохранить данные любого типа и с любой скоростью приема в одном месте для простого доступа и анализа с помощью различных платформ.

Data Lake Storage 2-го поколения

Azure Data Lake Storage 2-го поколения относится к текущей реализации Data Lake Storage решения Azure. Предыдущая реализация Azure Data Lake Storage 1-го поколения будет прекращена 29 февраля 2024 г.

В отличие от Data Lake Storage 1-го поколения, Data Lake Storage 2-го поколения не является выделенным типом службы или учетной записи. Вместо этого он реализуется как набор возможностей, используемых со службой хранилища BLOB-объектов учетной записи хранения Azure. Эти возможности можно разблокировать, включив параметр иерархического пространства имен.

Data Lake Storage 2-го поколения включает следующие возможности.

✓ Доступ, совместимый с Hadoop

✓ Иерархическая структура каталогов

✓ Оптимизированные затраты и производительность

✓ Тонкая модель безопасности

✓ Масштабируемость

Доступ, совместимый с Hadoop

Azure Data Lake Storage 2-го поколения в основном предназначен для работы с Hadoop и всеми платформами, которые используют распределенную файловую систему Apache Hadoop (HDFS) в качестве уровня доступа к данным. Дистрибутивы Hadoop включают драйвер файловой системы BLOB-объектов Azure (ABFS), который позволяет многим приложениям и платформам напрямую получать доступ к Хранилище BLOB-объектов Azure данным. Драйвер ABFS оптимизирован специально для аналитики больших данных. Соответствующие интерфейсы REST API подключены через конечную точку dfs.core.windows.net.

Платформы анализа данных, использующие HDFS в качестве уровня доступа к данным, могут напрямую обращаться к Azure Data Lake Storage 2-го поколения данным через ABFS. Примерами таких платформ являются подсистема аналитики Apache Spark и обработчик SQL-запросов Presto.

Дополнительные сведения о поддерживаемых службах и платформах см. в разделах Службы Azure, поддерживающие Azure Data Lake Storage 2-го поколения и платформы с открытым кодом, поддерживающие Azure Data Lake Storage 2-го поколения.

Иерархическая структура каталогов

Иерархическое пространство имен — это ключевая функция, которая позволяет Azure Data Lake Storage 2-го поколения предоставлять высокопроизводительный доступ к данным в масштабе и цене хранилища объектов. Эту функцию можно использовать для упорядочения всех объектов и файлов в учетной записи хранения в иерархии каталогов и вложенных подкаталогов. Другими словами, данные Azure Data Lake Storage 2-го поколения организованы точно так же, как файлы на компьютере.

Задачи, такие как переименование или удаление каталога, стали атомарными операциями с метаданными в каталоге. Больше не нужно перечислять или обрабатывать все объекты с общим префиксом имени каталога.

Оптимизированные затраты и производительность

Azure Data Lake Storage 2-го поколения цены на уровне Хранилище BLOB-объектов Azure. Он основан на Хранилище BLOB-объектов Azure возможностях, таких как автоматическое управление политиками жизненного цикла и выравнивание по уровням объектов, для управления затратами на хранение больших данных.

Производительность оптимизирована, так как вам не нужно копировать или преобразовывать данные в качестве необходимого условия для анализа. Функция иерархического пространства имен Azure Data Lake Storage обеспечивает эффективный доступ и навигацию. Такая архитектура означает, что для обработки данных требуется меньше вычислительных ресурсов, что снижает скорость и стоимость доступа к данным.

Более тонкая модель безопасности

Модель управления доступом Azure Data Lake Storage 2-го поколения поддерживает как управление доступом на основе ролей Azure (Azure RBAC), так и списки управления доступом (ACL) переносимой операционной системы для UNIX (POSIX). Существует также несколько дополнительных параметров безопасности, относящихся к Azure Data Lake Storage 2-го поколения. Разрешения можно задать либо на уровне каталогов, либо на уровне файлов. Все хранимые данные, находящиеся в неактивном состоянии, шифруются с помощью ключей шифрования, управляемых Майкрософт или клиентом.

Масштабируемость

Azure Data Lake Storage 2-го поколения предлагает хранилище большого объема и принимает множество типов данных для аналитики. В нем нет никаких ограничений на размер учетной записи, размер файлов или объем данных, которые могут храниться в озере данных. Размеры отдельных файлов могут варьироваться от нескольких килобайт (КБ) до нескольких петабайт (ПБ). Обработка выполняется с практически постоянными задержками запроса, которые измеряются на уровне службы, учетной записи и файла.

Такая конструкция означает, что Azure Data Lake Storage 2-го поколения можно легко и быстро масштабировать в соответствии с самыми требовательными рабочими нагрузками. Кроме того, можно легко вертикально уменьшить масштаб при уменьшении спроса.

На основе Хранилище BLOB-объектов Azure

Данные, которые вы будете принимать, сохраняются в учетной записи хранения в виде больших двоичных объектов. Служба, управляющая BLOB-объектами, является службой Хранилище BLOB-объектов Azure. Data Lake Storage 2-го поколения описывает возможности или "усовершенствования" этой службы, которые удовлетворяют требованиям рабочих нагрузок аналитики больших данных.

Так как эти возможности основаны на хранилище BLOB-объектов, для вашей учетной записи доступны такие функции, как ведение журнала диагностики, уровни доступа и политики управления жизненным циклом. Большинство функций хранилища BLOB-объектов полностью поддерживаются, но некоторые функции могут поддерживаться только на уровне предварительной версии, а некоторые из них еще не поддерживаются. Полный список заявлений о поддержке см. в статье Поддержка функций хранилища BLOB-объектов в учетных записях хранения Azure. Состояние каждой из перечисленных функций будет меняться со временем по мере расширения поддержки.

Документация и терминология

Оглавление Хранилище BLOB-объектов Azure содержит два раздела содержимого. В разделе Data Lake Storage 2-го поколения содержатся рекомендации и рекомендации по использованию возможностей Data Lake Storage 2-го поколения. В разделе Содержимое хранилища BLOB-объектов содержатся рекомендации по функциям учетных записей, не относящихся к Data Lake Storage 2-го поколения.

При переходе между разделами вы можете заметить некоторые небольшие различия в терминологии. Например, содержимое, приведенное в документации по хранилищу BLOB-объектов, будет использовать термин BLOB-объект вместо файла. Технически файлы, которые вы принимаете в учетную запись хранения, становятся BLOB-объектами в вашей учетной записи. Так что это корректный термин. Однако термин blob может вызвать путаницу, если вы привыкли к файлу термина. Вы также увидите термин контейнер, обозначающий файловую систему. Эти термины можно считать синонимами.

См. также раздел