Использование Data Lake Storage Gen1 для обеспечения соответствия требованиям больших данных

Статья
08/05/2022

Примечание.

Azure Data Lake Storage 1-го поколения теперь прекращена. Ознакомьтесь с объявлением о выходе на пенсию здесь.Data Lake Storage 1-го поколения ресурсы больше не доступны.

Процесс обработки больших данных состоит из указанных далее четырех ключевых этапов.

Прием больших объемов данных в хранилище данных в режиме реального времени или в пакетах
Обработка данных
Загрузка данных
Визуализация данных

В этой статье мы рассмотрим эти этапы применительно к Azure Data Lake Storage 1-го поколения, чтобы понять параметры и средства, доступные для удовлетворения потребностей в обработке больших объемов данных.

Прием данных в Azure Data Lake Storage 1-го поколения

В этом разделе описываются различные источники данных и способы поступления этих данных в учетную запись Azure Data Lake Storage 1-го поколения.

Прием данных в Azure Data Lake Storage 1-го поколения

Специализированное исследование

Это небольшие наборы данных, которые используются для создания прототипов приложений для работы с большими данными. В зависимости от источника данных применяются разные способы приема специальных данных.

Источник данных	Средство для приема
Локальный компьютер	Портал Azure Azure PowerShell Azure CLI Data Lake Tools для Visual Studio
Azure Storage Blob.	Фабрика данных Azure инструмента AdlCopy DistCp, запущенный на кластере HDInsight

Потоковые данные

Представляют данные, которые могут быть созданы разными источниками, например приложениями, устройствами, датчиками и т. д. Такие данные можно передавать в Data Lake Storage 1-го поколения с помощью различных инструментов. Как правило, эти средства собирают и обрабатывают данные на основе событий в режиме реального времени, а затем записывают события в пакетном режиме в Data Lake Storage 1-го поколения для последующей обработки.

Ниже перечислены средства, которые можно использовать:

Azure Stream Analytics. События, принятые в Центры событий, могут записываться в Azure Data Lake Storage 1-го поколения с помощью выходных данных Azure Data Lake Storage 1-го поколения.
EventProcessorHost. Вы можете получать события из Центров событий, а затем записывать их в Data Lake Storage 1-го поколения с помощью пакета SDK Data Lake Storage 1-го поколения для .NET.

Реляционные данные

Можно также извлекать данные из реляционных баз данных. В течение определенного периода времени реляционные базы данных собирают огромные объемы данных, которые после обработки с помощью конвейера больших данных могут предоставлять ценные сведения. Для перемещения таких данных в Data Lake Storage 1-го поколения можно использовать следующие средства.

Данные журналов веб-сервера (отправка с помощью настраиваемых приложений)

Этот тип набора данных вызывается специально, так как анализ данных журналов веб-сервера часто используется в приложениях по работе с большими данными, и для его выполнения требуется отправка больших объемов файлов журналов в Data Lake Storage 1-го поколения. Для отправки таких данных воспользуйтесь следующими средствами или напишите собственные сценарии или приложения.

Отличным способом отправки данных журналов веб-сервера и других типов данных (например данных общественных мнений) является использование собственных написанных сценариев или приложений, поскольку вы можете включить компонент отправки данных в состав более масштабного приложения по работе с большими объемами данных. В одних случаях этот код может иметь форму сценария или простой программы командной строки. В других случаях код может использоваться для интеграции обработки больших данных в бизнес-приложение или решение.

Данные, связанные с кластерами HDInsight Azure

Большинство типов кластера HDInsight (Hadoop, HBase, Storm) поддерживают Data Lake Storage 1-го поколения в качестве репозитория хранения данных. Кластеры HDInsight обращаются к данным из BLOB-объектов хранилища Azure (WASB). Для повышения производительности можно скопировать данные из WASB в учетную запись Data Lake Storage 1-го поколения, связанную с кластером. Для копирования данных можно использовать указанные далее средства.

Данные, хранящиеся в локальных кластерах Hadoop или кластерах Hadoop в IaaS

Большие объемы данных могут храниться в кластерах Hadoop, размещенных локально на компьютерах, использующих HDFS. Кластеры Hadoop могут быть развернуты локально или работать в кластере IaaS в Azure. К копированию таких данных в Azure Data Lake Storage 1-го поколения могут предъявляться требования, в зависимости от того, является ли эта операция одноразовой или повторяющейся. Существуют различные возможности выполнить их. Ниже приведен список альтернативных вариантов и связанные с ними компромиссы.

Подход	Сведения	Достоинства	Рекомендации
Использование Фабрики данных Azure (ADF) для копирования данных напрямую из кластеров Hadoop в Azure Data Lake Storage 1-го поколения	ADF поддерживает HDFS в качестве источника данных.	ADF реализована готовая поддержка HDFS, а также первоклассные инструменты комплексного управления и мониторинга.	Требуется развернуть шлюз управления данными в локальном кластере или кластере IaaS.
Экспорт данных из Hadoop в виде файлов. Затем — копирование этих файлов в Azure Data Lake Storage 1-го поколения с помощью соответствующего механизма.	Файлы можно скопировать в Azure Data Lake Storage 1-го поколения с помощью: Azure PowerShell только для Windows Azure CLI Пользовательское приложение, использующее любой пакет SDK для Azure Data Lake Storage 1-го поколения	Можно быстро приступить к работе. Возможны настраиваемые передачи данных.	Многоэтапный процесс с использованием нескольких технологий. Учитывая настраиваемый характер инструментов, со временем будет все сложнее осуществлять управление и мониторинг.
Использование Distcp для копирования данных из Hadoop в службу хранилища Azure. Затем — копирование данных из службы хранилища Azure в Data Lake Storage 1-го поколения с помощью соответствующего механизма.	Вы можете скопировать данные из служба хранилища Azure в Data Lake Storage 1-го поколения с помощью: Фабрика данных Azure инструмента AdlCopy Apache DistCp, запущенный в кластерах HDInsight	Можно использовать инструменты с открытым кодом.	Многоэтапный процесс с использованием нескольких технологий.

Очень большие наборы данных

Для отправки наборов данных размером в несколько терабайт использование описанных выше методов иногда может быть медленным и затратным процессом. В таких ситуациях будут уместны следующие варианты.

Использование Azure ExpressRoute. Azure ExpressRoute позволяет создавать закрытые соединения между ЦОД Azure и вашей локальной инфраструктурой. Это надежный вариант для передачи больших объемов данных. Дополнительные сведения см. в техническом обзоре ExpressRoute.
Автономная передача данных. Если по какой-то причине использовать Azure ExpressRoute нельзя, используйте службу импорта и экспорта Azure для доставки жестких дисков с данными в центр обработки данных Azure. Данные сначала будут отправлены в хранилище BLOB-объектов Azure. Затем с помощью Фабрики данных Azure или инструмента AdlCopy можно скопировать данные из больших двоичных объектов службы хранилища Azure в Data Lake Storage 1-го поколения.

Примечание.

При использовании службы импорта и экспорта размеры файлов на дисках, отправляемых в центр обработки данных Azure, не должны превышать 195 ГБ.

Обработка данных, хранящихся в Data Lake Storage 1-го поколения

Данные, доступные в Data Lake Storage 1-го поколения, можно проанализировать с помощью поддерживаемых приложений для работы с большими данными. Сейчас для запуска заданий анализа для данных, хранящихся в Data Lake Storage 1-го поколения, можно использовать Azure HDInsight и Azure Data Lake Analytics.

Анализ данных в Data Lake Storage 1-го поколения

Рассмотрите следующие примеры.

Копирование из Data Lake Storage 1-го поколения

Возможно, вам потребуется загрузить или переместить данные из Azure Data Lake Storage 1-го поколения в случаях, аналогичных указанным далее.

Перемещение данных в другие репозитории для взаимодействия с существующими конвейерами обработки данных. Например, можно переместить данные из Data Lake Storage 1-го поколения в Базу данных SQL Azure или на SQL Server.
Загрузка данных на локальный компьютер для обработки в средах IDE при создании прототипов приложений.

Исходящие данные из Data Lake Storage 1-го поколения

В таких ситуациях можно использовать любой из следующих вариантов:

Для написания сценария или приложения для загрузки данных из Data Lake Storage 1-го поколения можно воспользоваться следующими средствами.

Визуализация данных в Data Lake Storage 1-го поколения

Для создания визуальных представлений данных, хранящихся в Data Lake Storage 1-го поколения, можно использовать сочетание служб.

Визуализация данных в Data Lake Storage 1-го поколения

Сначала с помощью Фабрики данных Azure переместите данные из Data Lake Storage 1-го поколения в Azure Synapse Analytics.
После этого вы можете интегрировать Power BI с Azure Synapse Analytics для создания визуального представления данных.

Поделиться через

Использование Data Lake Storage Gen1 для обеспечения соответствия требованиям больших данных

Прием данных в Azure Data Lake Storage 1-го поколения

Специализированное исследование

Потоковые данные

Реляционные данные

Данные журналов веб-сервера (отправка с помощью настраиваемых приложений)

Данные, связанные с кластерами HDInsight Azure

Данные, хранящиеся в локальных кластерах Hadoop или кластерах Hadoop в IaaS

Очень большие наборы данных

Обработка данных, хранящихся в Data Lake Storage 1-го поколения

Копирование из Data Lake Storage 1-го поколения

Визуализация данных в Data Lake Storage 1-го поколения

Дополнительные ресурсы