Что такое озеро данных

Data Lake — это репозиторий для хранения, который может вмещать большой объем данных в собственном необработанном формате. Хранилища Data Lake оптимизированы для масштабирования до нескольких терабайт и даже петабайт данных. Данные обычно поступают из нескольких разнородных источников и могут быть структурированными, частично структурированными и неструктурированными. Идея, лежащая в основе Data Lake, — хранение всех данных в исходном состоянии без каких-либо преобразований. Такой подход отличает Data Lake от традиционного хранилища данных, в котором данные преобразуются и обрабатываются во время приема.

A diagram that shows the different data lake use cases.

Ниже приведены ключевые варианты использования озера данных.

  • Перемещение данных облака и Интернета вещей
  • Обработка больших данных
  • Аналитика
  • Отчетность
  • Перемещение локальных данных

Преимущества хранилища Data Lake:

  • Данные никогда не отклоняются, так как хранятся в необработанном формате. Это особенно полезно в окружении с большими данными, если заранее неизвестно, какие именно сведения будут получены в результате анализа данных.
  • Пользователи могут просматривать данные и создавать собственные запросы.
  • Может работать быстрее, чем традиционные средства извлечения, преобразования и загрузки.
  • Обладает большей гибкостью, чем хранилище данных, так как дает возможность хранить частично структурированные и неструктурированные данные.

Полное решение Data Lake состоит из компонентов хранения и обработки данных. Хранилище Data Lake создано для обеспечения отказоустойчивости, бесконечной масштабируемости и высокой пропускной способности при получении данных любых форм и размеров. Компонент обработки Data Lake включает в себя один или несколько модулей обработки, созданных для этих целей, и может работать с данными, хранящимися в Data Lake в нужном масштабе.

Когда следует использовать Data Lake

К наиболее распространенным сферам применения Data Lake относятся исследования данных, анализ данных и машинное обучение.

Data Lake также может служить источником данных для хранилища данных. При таком подходе необработанные данные поступают в Data Lake, а затем преобразуются в структурированный формат, поддерживающий запросы. Обычно для этого преобразования задействуется конвейер ELT (извлечение, загрузка и преобразование), в котором данные принимаются и преобразуются на месте. Исходные данные, которые уже являются реляционными, могут передаваться непосредственно в хранилище данных с помощью процесса извлечения, преобразования и загрузки, минуя Data Lake.

Хранилища Data Lake Store часто используются при потоковой передаче событий или в сценариях Интернета вещей, так как они могут хранить большие объемы реляционных и нереляционных данных без преобразования или определения схемы. Они предназначены для обработки больших объемов мелких записей с низкой задержкой и оптимизированы для высокой пропускной способности.

В следующей таблице сравниваются озера данных и хранилища данных:

A table that compares data lake features with data warehouse features.

Сложности

  • Отсутствие схемы и описательных метаданных создает трудности при использовании данных и создании запросов.
  • Отсутствие семантической согласованности между данными может затруднять анализ данных, если пользователи не обладают профессиональными навыками в этой области.
  • Качество данных, поступающих в Data Lake, сложно гарантировать.
  • Без надлежащего управления могут возникать проблемы с контролем доступа и конфиденциальностью. Какие данные поступают в Data Lake, кто может их использовать и с какой целью?
  • Data Lake может оказаться не лучшим способом интеграции данных, которые уже являются реляционными.
  • Само по себе хранилище Data Lake не поддерживает интегрированный или целостный просмотр данных для всей организации.
  • Data Lake может превратиться в "свалку" данных, которые никогда не будут использоваться для изучения и анализа.

Выбор технологий

Создайте решения озера данных с помощью следующих служб, предлагаемых Azure:

A diagram that shows the key data lake services.

  • Azure HD Insights — это управляемая служба аналитики с открытым исходным кодом в облаке для предприятий.
  • Azure Data Lake Store — это гипермасштабируемый репозиторий, совместимый с Hadoop.
  • Azure Data Lake Analytics — это служба заданий аналитики по запросу для упрощения аналитики больших данных.

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участник.

Автор субъекта:

  • Avijit Prasad | Консультант по облачным технологиям

Следующие шаги