Выбор технологии хранения больших данных в Azure

Статья
10/05/2024

В этой статье сравниваются варианты хранения данных для решений больших данных, в частности хранилище данных для приема массовых данных и пакетной обработки, а не для аналитических хранилищ данных или приема потоковой передачи в режиме реального времени.

Варианты при выборе хранилища данных в Azure

Существует несколько вариантов для приема данных в Azure, которые вы можете выбрать в зависимости от своих потребностей.

Единое логическое озеро данных:

OneLake в Microsoft Fabric

Хранилище файлов:

Базы данных NoSQL

Аналитические базы данных:

Обозреватель данных Azure

OneLake в Fabric

OneLake в Fabric — это единое и логическое озеро данных, адаптированное для всей организации. Он служит центральным центром для всех аналитических данных и включается в каждый клиент Microsoft Fabric. OneLake в Fabric построен на основе Data Lake Storage 2-го поколения.

OneLake в Fabric:

Поддерживает структурированные и неструктурированные типы файлов.
Хранит все табличные данные в формате Delta Parquet.
Предоставляет одно озеро данных в границах клиента, которое регулируется по умолчанию.
Поддерживает создание рабочих областей в клиенте, чтобы организация может распространять политики владения и доступа.
Поддерживает создание различных элементов данных, таких как lakehouses и хранилища, из которых можно получить доступ к данным.

OneLake в Fabric служит общим местом хранения для приема, преобразования, аналитики в режиме реального времени и визуализаций бизнес-аналитики. Она централизованно использует различные службы Fabric и сохраняет элементы данных, используемые всеми рабочими нагрузками в Fabric. Чтобы выбрать подходящее хранилище данных для рабочих нагрузок Fabric, см . руководство по принятию решений Fabric. Выберите хранилище данных.

Большие двоичные объекты службы хранилища Azure

Служба хранилища Azure — управляемая облачная служба с высоким уровнем доступности, безопасности, надежности, масштабируемости и избыточности. Корпорация Майкрософт отвечает за обслуживание и решает критические проблемы, не требуя вашего участия. Служба хранилища Azure является самым универсальным решением для хранения данных в Azure, так как с ней можно сочетать множество служб и средств.

Существует несколько служб хранилища Azure, которые можно использовать для хранения данных. Наиболее гибким вариантом хранения BLOB-объектов из многих источников данных является хранилище BLOB-объектов. Большие двоичные объекты по сути являются файлами. Они хранят изображения, документы, HTML-файлы, виртуальные жесткие диски (виртуальные жесткие диски), большие данные, такие как журналы, резервные копии баз данных— почти все. BLOB-объекты хранятся в контейнерах, которые по принципу использования похожи на папки. Контейнер обеспечивает группирование набора больших двоичных объектов. Учетная запись хранения может содержать неограниченное количество контейнеров. В каждом контейнере может храниться неограниченное количество больших двоичных объектов.

Хранилище Azure хорошо подходит для больших данных и аналитики благодаря гибкости, высокому уровню доступности и низкой цене. Оно предоставляет уровни "горячего", "холодного" и архивного доступа для вариантов использования. Дополнительные сведения см. в разделе Хранилище BLOB-объектов Azure: "горячий", "холодный" и архивный уровни.

Хранилище BLOB-объектов Azure доступно из Hadoop (через HDInsight). HDInsight может использовать контейнер больших двоичных объектов в службе хранилища Azure в качестве файловой системы по умолчанию для кластера. Через интерфейс распределенной файловой системы Hadoop (HDFS), предоставляемый драйвером WASB, полный набор компонентов в HDInsight может работать непосредственно с структурированными или неструктурированными данными, хранящимися в виде BLOB-объектов. К хранилищу BLOB-объектов Azure можно также обращаться через Azure Synapse Analytics с помощью PolyBase.

Вот еще несколько полезных возможностей службы хранилища Azure:

несколько стратегий параллелизма;
Аварийное восстановление и высокий уровень доступности.
шифрование при хранении;
Управление доступом на основе ролей Azure (RBAC) для управления доступом с помощью пользователей и групп Microsoft Entra.

Data Lake Storage 2-го поколения

Data Lake Storage 2-го поколения — это единый централизованный репозиторий, в котором можно хранить все данные, структурированные и неструктурированные. Озеро данных позволяет организации быстро и легко сохранять, использовать и анализировать разнообразные данные в одном месте. При использовании озера данных вам не нужно выполнять согласование данных в соответствии с существующей структурой. Вместо этого можно хранить данные в необработанном или собственном формате, обычно в виде файлов или больших двоичных объектов (BLOB-объектов).

Data Lake Storage 2-го поколения объединяет возможности Azure Data Lake Storage 1-го поколения и Хранилища BLOB-объектов Azure. Например, Data Lake Storage 2-го поколения поддерживает семантику файловой системы, защиту на уровне файлов и масштабирование. Так как эти возможности основаны на хранилище BLOB-объектов, вы также получаете низкое затратное, многоуровневые хранилища с высоким уровнем доступности и аварийного восстановления.

Data Lake Storage 2-го поколения использует службу хранилища Azure в качестве основы для создания корпоративных хранилищ данных в Azure. Разработанное с целью обработки нескольких петабайт информации и с поддержкой сотен гигабит пропускной способности хранилище Data Lake Storage 2-го поколения позволяет с легкостью управлять огромным количеством данных.

Azure Cosmos DB

Azure Cosmos DB — это глобально распределенная многомодельная база данных Майкрософт. Azure Cosmos DB гарантирует задержку с однозначными миллисекундами в 99-м процентилье в любом месте мира, предоставляет несколько четко определенных моделей согласованности для точной настройки производительности и гарантирует высокий уровень доступности с разными возможностями хоминга.

Azure Cosmos DB является полностью бессхемной службой. Она автоматически индексирует все данные, избавляя вас от необходимости управлять схемой и индексами. В ней есть встроенная поддержка множества моделей данных, включая документы, пары "ключ-значение", графы и модели данных столбцов.

Функциональные возможности Azure Cosmos DB:

HBase в HDInsight

Apache HBase — это база данных NoSQL с открытым кодом, созданная на основе Hadoop по типу Google BigTable. HBase обеспечивает прямой доступ и строгую согласованность для больших объемов неструктурированных и слабоструктурированных данных в бессхемной базе данных, упорядоченных в семейства столбцов.

Данные хранятся в строках таблицы, данные в строке группируются по семейству столбцов. HBase не имеет схемы в том смысле, что столбцы и типы хранимых в них данных не нужно определять до использования. Открытый код линейно масштабируется, чтобы обрабатывать петабайты данных на тысячах узлов. Он может полагаться на избыточность данных, пакетную обработку и другие особенности, которые предусмотрены распределенными приложениями в экосистеме Hadoop.

Реализация HDInsight использует масштабируемую архитектуру HBase для автоматического сегментирования таблиц, строгой согласованности для операций чтения и записи и автоматической отработки отказа. Производительность повышается за счет кэширования операций чтения в памяти и потоковой записи с высокой пропускной способностью Также для HDInsight HBase доступна подготовка виртуальных сетей. В большинстве случаев необходимо создать кластер HBase в виртуальной сети, чтобы другие кластеры и приложения HDInsight могли напрямую обращаться к таблицам.

Azure Data Explorer

Azure Data Explorer — это быстрая и высокомасштабируемая служба для изучения данных журналов и телеметрии. Она позволяет обрабатывать множество потоков данных, создаваемых современным программным обеспечением, позволяя собирать, хранить и анализировать данные. Обозреватель данных Azure идеально подходит для анализа больших объемов разнообразных данных, поступающих из любых источников данных, таких как веб-сайты, приложения, устройства Интернета вещей и др. Эти данные используются для диагностики, мониторинга, формирования отчетов, машинного обучения и дополнительного анализа. Azure Data Explorer упрощает прием этих данных и позволяет выполнять сложные незапланированные запросы на данные в секундах.

Масштаб Azure Data Explorer можно линейно горизонтально увеличить, чтобы увеличить пропускную способность приема и обработки запросов. Кластер Azure Data Explorer можно развернуть в виртуальной сети для включения частных сетей.

Основные критерии выбора

Чтобы ограничить количество вариантов, сначала ответьте на следующие вопросы:

Требуется ли унифицированное озеро данных с поддержкой нескольких облаков, надежной системой управления и простой интеграцией с аналитическими инструментами? Если да, выберите OneLake в Fabric для упрощенного управления данными и расширенной совместной работы.
Нужны ли вам управляемые, высокоскоростные или облачные хранилища для текстовых или двоичных данных любого типа? Если да, выберите один из вариантов хранилища файлов или аналитики.
Нужно ли вам хранилище файлов, оптимизированное для параллельного выполнения аналитических рабочих нагрузок с высокой пропускной способностью и большим числом операций ввода-вывода в секунду? Если да, то выберите вариант, который нацелен на производительность аналитических рабочих нагрузок.
Нужно ли вам хранить неструктурированные или частично структурированные данные в бессхемной базе данных? Если да, выберите один из нереляционных или аналитических параметров. Сравните варианты индексирования и моделей баз данных. В зависимости от типа данных, которые необходимо хранить, модели базы данных-источника могут быть самым большим фактором.
Можно ли использовать эту службу в вашем регионе? Проверьте региональную доступность для каждой службы Azure. Дополнительные сведения см. в статье Доступность продуктов по регионам.

Матрица возможностей

В следующих таблицах перечислены основные различия в возможностях.

OneLake в возможностях Fabric

Возможность	OneLake в Fabric
Унифицированное озеро данных	Предоставляет единое унифицированное озеро данных для всей организации, которое устраняет возможности обработки данных.
Поддержка multicloud	Поддерживает интеграцию и совместимость с различными облачными платформами.
Управление данными	Включает такие функции, как происхождение данных, защита данных, сертификация и интеграция каталога.
Централизованный концентратор данных	Выступает в качестве централизованного центра для обнаружения и управления данными.
Поддержка аналитического модуля	Совместим с несколькими аналитическими подсистемами. Эта совместимость позволяет различным средствам и технологиям работать с теми же данными.
Безопасность и соответствие требованиям	Гарантирует, что конфиденциальные данные остаются безопасными и доступ ограничен только авторизованными пользователями.
Простота использования	Предоставляет пользовательский дизайн, который автоматически доступен для каждого клиента Fabric и не требует настройки.
Масштабируемость	Способен обрабатывать большие объемы данных из различных источников.

Возможности для хранения файлов

Возможность	Data Lake Storage 2-го поколения	Контейнеры хранилища BLOB-объектов
Характер использования	Оптимизированное хранилище для рабочих нагрузок, относящихся к аналитике больших данных	Универсальное хранилище объектов для разнообразных сценариев хранения
Случаи использования	Данные пакетной и потоковой аналитики или машинного обучения, например файлы журналов, данные Интернета вещей, истории посещений сайтов и большие наборы данных.	Любой тип текстовых или двоичных данных, таких как данные серверной части приложений, архивируемые данные, мультимедийные хранилища для потоковой передачи и данные общего назначения.
Структура	Иерархическая файловая система	Хранилище объектов с одноуровневым пространством имен
Проверка подлинности	На основе удостоверений Microsoft Entra	Основана на общих секретах — ключи доступа к учетным записям, ключи подписанных URL-адресов и управление доступом на основе ролей Azure (Azure RBAC)
Протокол аутентификации	Откройте авторизацию (OAuth) 2.0. Вызовы должны содержать допустимый JWT (веб-токен JSON), выданный идентификатором Microsoft Entra	Код аутентификации сообщения на основе хэша (HMAC). Вызовы должны содержать хэш SHA-256 с кодировкой Base64 для части HTTP-запроса.
Авторизация	Списки управления доступом (ACL) переносимого интерфейса операционной системы (POSIX). Списки управления доступом на основе удостоверений Microsoft Entra можно задать уровень файлов и папок.	Для авторизации на уровне учетной записи используйте ключи доступа к учетным записям, а для авторизации в учетной записи, контейнере или большом двоичном объекте — ключи подписанных URL-адресов.
Аудит	Доступно.	На месте
Шифрование при хранении	Прозрачное шифрование данных на стороне сервера.	Прозрачное шифрование на стороне сервера; шифрование на стороне клиента.
Пакеты SDK для разработчиков	.NET, Java, Python, Node.js	.NET, Java, Python, Node.js, C++, Ruby
Производительность рабочих нагрузок аналитики	Оптимизированная производительность для параллельных рабочих нагрузок аналитики, высокой пропускной способности и операций ввода-вывода.	Не оптимизирована для рабочих нагрузок аналитики
Ограничения размера	Нет ограничений на размер учетных записей, размер и количество файлов	Определенные ограничения описаны здесь
Геоизбыточность	Локально избыточное (локально избыточное хранилище (LRS)), глобально избыточное (геоизбыточное хранилище (GRS)), глобально избыточное для чтения (геоизбыточное хранилище (RA-GRS)), избыточное между зонами (хранилище, избыточное между зонами (ZRS)).	Локальная избыточность (LRS), глобальная избыточность (GRS), геоизбыточность с доступом на чтение (RA-GRS), избыточность в пределах зоны (ZRS). Дополнительные сведения см. в разделе служба хранилища Azure избыточности

Возможности баз данных NoSQL

Возможность	Azure Cosmos DB	HBase в HDInsight
Модель базы данных-источника	Хранилище документов, граф, хранилище пар "ключ-значение", хранилище широких столбцов	Хранилище широких столбцов
Вторичные индексы	Да	Нет
Поддержка языка SQL	Да	Да (с помощью драйвера Phoenix JDBC)
Согласованность	Строгая согласованность, согласованность с ограниченным устареванием, согласованность уровня сеанса, согласованность префиксов или согласованность в конечном счете.	Строгие
Встроенная интеграция с решением "Функции Azure"	Да	Нет
Автоматическое глобальное распределение	Да	Репликациякластера HBase не может быть настроена в разных регионах с конечной согласованности
Модель ценообразования	Гибко масштабируемые единицы запроса (ЕЗ) с посекундной оплатой по мере использования, гибко масштабируемое хранилище	Поминутная оплата кластера HDInsight (с горизонтальным масштабированием узлов), хранилище

Возможности аналитических баз данных

Возможность	Azure Data Explorer
Модель базы данных-источника	Реляционное хранилище (хранилище столбцов) данных телеметрии и временных рядов
Поддержка языка SQL	Да
Модель ценообразования	Эластично масштабируемые экземпляры кластера
Проверка подлинности	На основе удостоверений Microsoft Entra
Шифрование при хранении	Поддерживаемые ключи, управляемые клиентом
Производительность рабочих нагрузок аналитики	Оптимизированная производительность для параллельных рабочих нагрузок аналитики
Ограничения размера	Линейная масштабируемость

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.

Автор субъекта:

Зойнер Теджада | Генеральный директор и архитектор

Поделиться через

Выбор технологии хранения больших данных в Azure

Варианты при выборе хранилища данных в Azure

OneLake в Fabric

Большие двоичные объекты службы хранилища Azure

Data Lake Storage 2-го поколения

Azure Cosmos DB

HBase в HDInsight

Azure Data Explorer

Основные критерии выбора

Матрица возможностей

OneLake в возможностях Fabric

Возможности для хранения файлов

Возможности баз данных NoSQL

Возможности аналитических баз данных

Соавторы

Следующие шаги

Обратная связь

Дополнительные ресурсы

Поделиться через

Выбор технологии хранения больших данных в Azure

Варианты при выборе хранилища данных в Azure

OneLake в Fabric

Большие двоичные объекты службы хранилища Azure

Data Lake Storage 2-го поколения

Azure Cosmos DB

HBase в HDInsight

Azure Data Explorer

Основные критерии выбора

Матрица возможностей

OneLake в возможностях Fabric

Возможности для хранения файлов

Возможности баз данных NoSQL

Возможности аналитических баз данных

Соавторы

Следующие шаги

Связанные ресурсы

Обратная связь

Дополнительные ресурсы