Общие сведения об Azure Data Lake Storage 2-го поколения
Data Lake — это репозиторий данных, хранящихся в естественном формате, обычно в виде BLOB-объектов или файлов. Azure Data Lake служба хранилища — это комплексное, масштабируемое, безопасное и экономичное решение озера данных для высокопроизводительной аналитики, встроенной в Azure.
Azure Data Lake Storage сочетает в себе файловую систему с платформой хранилища, позволяя быстро выявлять ценные сведения внутри данных. Data Lake служба хранилища основывается на возможностях хранилища BLOB-объектов Azure, чтобы оптимизировать их специально для рабочих нагрузок аналитики. Такая интеграция обеспечивает производительность аналитики, возможности распределения по уровням и управления жизненным циклом данных хранилища BLOB-объектов, а также высокую доступность, безопасность и устойчивость службы хранилища Azure.
Льготы
Data Lake служба хранилища предназначен для работы с этим разнообразием и объемом данных в масштабе exabyte при безопасной обработке сотен гигабайт пропускной способности. Это позволяет использовать решение Data Lake Storage 2-го поколения в качестве основы для пакетных решений и решений реального времени.
Доступ, совместимый с Hadoop
Преимущество Data Lake служба хранилища заключается в том, что данные можно рассматривать как будто они хранятся в распределенной файловой системе Hadoop (HDFS). Эта функция позволяет сохранять данные в одном месте и обращаться к ним через различные вычислительные технологии, включая Azure Databricks, Azure HDInsight и Azure Synapse Analytics, без перемещения данных между средами. Специалист по обработке данных также имеет возможность использовать механизмы хранения, такие как формат parquet, который очень сжимается и хорошо работает на нескольких платформах с помощью внутреннего хранилища столбцов.
Безопасность
Data Lake служба хранилища поддерживает списки управления доступом (ACL) и разрешения переносимого интерфейса операционной системы (POSIX), которые не наследуют разрешения родительского каталога. На самом деле можно задать разрешения на уровне каталога или на уровне файла для данных, хранящихся в озере данных, обеспечивая гораздо более безопасную систему хранения. Эта безопасность настраивается с помощью таких технологий, как Hive и Spark или служебные программы, такие как служба хранилища Azure Обозреватель, которая работает в Windows, macOS и Linux. Все хранимые данные, находящиеся в неактивном состоянии, шифруются с помощью ключей, управляемых Майкрософт или клиентом.
Производительность
Решение Azure Data Lake Storage упорядочивает хранимые данные внутри иерархии каталогов и подкаталогов, по аналогии с файловой системой, что упрощает навигацию. В результате обработка данных требует меньше вычислительных ресурсов, снижая затрачиваемое время и расходы.
Избыточность данных
Data Lake служба хранилища использует модели реплика создания BLOB-объектов Azure, обеспечивающие избыточность данных в одном центре обработки данных с локальным избыточным хранилищем (LRS) или в дополнительный регион с помощью параметра геоизбыточного хранилища (GRS). Эта функция обеспечивает постоянную доступность и защиту ваших данных в случае катастрофы.
Совет
При планировании озера данных инженер данных должен учитывать структуру, управление данными и безопасность. Это должно включать в себя рассмотрение факторов, которые могут повлиять на структуру озера и организацию, например:
- Типы данных для хранения
- Преобразование данных
- Кто должен получить доступ к данным
- Что такое типичные шаблоны доступа
Этот подход поможет определить, как спланировать управление доступом по всему озеру. Инженеры данных должны быть упреждающими в обеспечении того, чтобы озеро не стало пресловутым болотом данных, которое становится недоступным и не полезным для пользователей из-за отсутствия мер управления данными и качества данных. Создание базовых показателей и следующих рекомендаций для Azure Data Lake поможет обеспечить правильную и надежную реализацию, которая позволит организации расти и получать аналитические сведения для достижения большего.