Что такое озеро данных
Data Lake — это репозиторий для хранения, который может вмещать большой объем данных в собственном необработанном формате. Хранилища Data Lake оптимизированы для масштабирования до нескольких терабайт и даже петабайт данных. Данные обычно поступают из нескольких разнородных источников и могут быть структурированными, частично структурированными и неструктурированными. Идея, лежащая в основе Data Lake, — хранение всех данных в исходном состоянии без каких-либо преобразований. Такой подход отличает Data Lake от традиционного хранилища данных, в котором данные преобразуются и обрабатываются во время приема.
Ниже приведены ключевые варианты использования озера данных.
- Перемещение данных облака и Интернета вещей
- Обработка больших данных
- Аналитика
- Отчетность
- Перемещение локальных данных
Преимущества хранилища Data Lake:
- Данные никогда не отклоняются, так как хранятся в необработанном формате. Это особенно полезно в окружении с большими данными, если заранее неизвестно, какие именно сведения будут получены в результате анализа данных.
- Пользователи могут просматривать данные и создавать собственные запросы.
- Может работать быстрее, чем традиционные средства извлечения, преобразования и загрузки.
- Обладает большей гибкостью, чем хранилище данных, так как дает возможность хранить частично структурированные и неструктурированные данные.
Полное решение Data Lake состоит из компонентов хранения и обработки данных. Хранилище Data Lake создано для обеспечения отказоустойчивости, бесконечной масштабируемости и высокой пропускной способности при получении данных любых форм и размеров. Компонент обработки Data Lake включает в себя один или несколько модулей обработки, созданных для этих целей, и может работать с данными, хранящимися в Data Lake в нужном масштабе.
Когда следует использовать Data Lake
К наиболее распространенным сферам применения Data Lake относятся исследования данных, анализ данных и машинное обучение.
Data Lake также может служить источником данных для хранилища данных. При таком подходе необработанные данные поступают в Data Lake, а затем преобразуются в структурированный формат, поддерживающий запросы. Обычно для этого преобразования задействуется конвейер ELT (извлечение, загрузка и преобразование), в котором данные принимаются и преобразуются на месте. Исходные данные, которые уже являются реляционными, могут передаваться непосредственно в хранилище данных с помощью процесса извлечения, преобразования и загрузки, минуя Data Lake.
Хранилища Data Lake Store часто используются при потоковой передаче событий или в сценариях Интернета вещей, так как они могут хранить большие объемы реляционных и нереляционных данных без преобразования или определения схемы. Они предназначены для обработки больших объемов мелких записей с низкой задержкой и оптимизированы для высокой пропускной способности.
В следующей таблице сравниваются озера данных и хранилища данных:
Сложности
- Отсутствие схемы и описательных метаданных создает трудности при использовании данных и создании запросов.
- Отсутствие семантической согласованности между данными может затруднять анализ данных, если пользователи не обладают профессиональными навыками в этой области.
- Качество данных, поступающих в Data Lake, сложно гарантировать.
- Без надлежащего управления могут возникать проблемы с контролем доступа и конфиденциальностью. Какие данные поступают в Data Lake, кто может их использовать и с какой целью?
- Data Lake может оказаться не лучшим способом интеграции данных, которые уже являются реляционными.
- Само по себе хранилище Data Lake не поддерживает интегрированный или целостный просмотр данных для всей организации.
- Data Lake может превратиться в "свалку" данных, которые никогда не будут использоваться для изучения и анализа.
Выбор технологий
Создайте решения озера данных с помощью следующих служб, предлагаемых Azure:
- Azure HD Insights — это управляемая служба аналитики с открытым исходным кодом в облаке для предприятий.
- Azure Data Lake Store — это гипермасштабируемый репозиторий, совместимый с Hadoop.
- Azure Data Lake Analytics — это служба заданий аналитики по запросу для упрощения аналитики больших данных.
Соавторы
Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участник.
Автор субъекта:
- Avijit Prasad | Консультант по облачным технологиям
Следующие шаги
- Что такое Azure HDInsight?
- Общие сведения о хранилище Azure Data Lake Storage Gen2 (предварительная версия)
- Документация по Azure Data Lake Analytics
- Общие сведения о Azure Data Lake служба хранилища (обучающий модуль)
- Что такое Data Lake?
Связанные ресурсы
Обратная связь
https://aka.ms/ContentUserFeedback.
Ожидается в ближайшее время: в течение 2024 года мы постепенно откажемся от GitHub Issues как механизма обратной связи для контента и заменим его новой системой обратной связи. Дополнительные сведения см. в разделеОтправить и просмотреть отзыв по