Что такое Azure HDInsight?

Статья
05/09/2024

Azure HDInsight — это управляемая комплексная облачная служба аналитики с открытым кодом, предназначенная для предприятий. С помощью HDInsight можно использовать платформы с открытым кодом, такие как Apache Spark, Apache Hive, LLAP, Apache Kafka, Hadoop и т. д. в среде Azure.

Что такое HDInsight и технологическая платформа Hadoop?

Azure HDInsight — это управляемая платформа кластера, которая упрощает запуск платформ больших данных, таких как Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Hadoop и других платформ в среде Azure. Он предназначен для обработки больших объемов данных с высокой скоростью и эффективностью.

Почему следует использовать Azure HDInsight

Возможность	Description
Полностью облачное решение	Azure HDInsight позволяет создавать оптимизированные кластеры для Spark, интерактивного запроса (LLAP), Kafka, HBase и Hadoop в Azure. HDInsight также предоставляет полное соглашение об уровне обслуживания для всех рабочих нагрузок.
Экономия и масштабируемость	HDInsight позволяет увеличивать и уменьшать масштаб рабочих нагрузок. Чтобы сократить затраты, создавайте кластеры по требованию и платите только за те ресурсы, которые используете. Вы также можете создавать конвейеры данных, чтобы реализовать задания. Разделение сред вычисления и хранения повышает производительность и гибкость.
Безопасность и соответствие нормативам	HDInsight позволяет защитить корпоративные ресурсы данных с помощью Azure виртуальная сеть, шифрования и интеграции с идентификатором Microsoft Entra. HDInsight также соответствует наиболее распространенным отраслевым и государственным стандартам.
Наблюдение	Azure HDInsight интегрируется с журналами Azure Monitor и предоставляет единый интерфейс для мониторинга всех кластеров.
Глобальная доступность	Служба HDInsight доступна в большем числе регионов, чем любое другое предложение аналитики больших данных. Служба Azure HDInsight также доступна в Azure для государственных организаций, Китая и Германии, что позволяет обеспечить соответствие требованиям организации в основных независимых регионах.
Продуктивность	Azure HDInsight предоставляет многофункциональные наборы инструментов, которые повышают эффективность работы, для Hadoop и Spark в предпочитаемой среде разработки. К этим средам разработки относятся Visual Studio, VS Code, Eclipse и IntelliJ для Scala, Python, Java и .NET.
Расширяемость	Чтобы расширить кластеры HDInsight, вы можете устанавливать компоненты (Hue, Presto и т. д.) с помощью действий скриптов, добавлять граничные узлы или выполнять интеграцию с другими сертифицированными приложениями для обработки больших данных. HDInsight обеспечивает прозрачную интеграцию с наиболее распространенными решениями для больших данных с помощью развертывания одним щелчком.

Что такое большие данные?

Большие данные в различных форматах объединяются в крупные тома с большей скоростью обработки, чем когда-либо. Такие данные могут быть историческими (хранимыми) или в реальном времени (потоковая передача из источника). Наиболее распространенные варианты использования больших данных см. в разделе о Сценарии использования HDInsight.

Типы кластеров в HDInsight

HDInsight включает определенные типы кластеров и возможности их настройки, такие как добавление компонентов, служебных программ и языков. HDInsight предлагает следующие типы кластеров.

Тип кластера	Description	Начать
Apache Hadoop	Платформа, в которой используется управление ресурсами HDFS и YARN, а также простая модель программирования MapReduce для параллельной обработки и анализа пакетных данных.	Создание кластера Apache Hadoop
Apache Spark	Платформа параллельной обработки с открытым кодом, которая поддерживает обработку в памяти, чтобы повысить производительность приложений для анализа больших данных. Дополнительные сведения см. в обзоре по Apache Spark в HDInsight.	Создание кластера Apache Spark
Apache HBase	База данных NoSQL, созданная на основе Hadoop и обеспечивающая прямой доступ и строгую согласованность для больших объемов неструктурированных и частично структурированных данных (с потенциальным размером таблиц в миллиарды строк и миллионы столбцов). Дополнительные сведения см. в статье Что такое HBase в HDInsight: база данных NoSQL, которая предоставляет возможности, схожие BigTable, для Hadoop.	Создание кластера Apache HBase
Apache Interactive Query	Кэширование в памяти для обеспечения интерактивных и ускоренных запросов Hive. См. инструкции по использованию Interactive Query в HDInsight.	Создание кластера интерактивных запросов
Apache Kafka	Платформа с открытым исходным кодом используется для создания конвейеров и приложений потоковой передачи данных. Kafka также предоставляет функциональные возможности очереди сообщений, с помощью которых можно публиковать потоки данных и подписываться на них. См. статью Введение в Apache Kafka в HDInsight (предварительная версия).	Создание кластера Apache Kafka

Сценарии использования HDInsight

Azure HDInsight можно применять в различных сценариях обработки больших данных. Это могут быть исторические данные (данные, которые уже собираются и хранятся) или данные в режиме реального времени (данные, которые передаются непосредственно из источника). Сценарии обработки таких данных можно представить в указанных ниже категориях.

Пакетная обработка (ETL)

Извлечение, преобразование и загрузка — это процесс, при котором неструктурированные или структурированные данные извлекаются из разнородных источников данных. Затем они структурируются и загружаются в хранилище данных. Преобразованные данные могут применяться для обработки и анализа или в хранилище данных.

Хранение данных

При помощи HDInsight вы можете выполнять интерактивные запросы структурированных и неструктурированных данных в любом формате и объемом в несколько петабайт. Также можно создавать модели и подключать их к средствам бизнес-аналитики.

HDInsight architecture: Data warehousing.

Интернет вещей (IoT)

HDInsight можно использовать для обработки потоковых данных, полученных в режиме реального времени от различных типов устройств. Чтобы узнать больше, прочтите эту запись блога Azure, представляющую собой объявление о выходе общедоступной предварительной версии Apache Kafka в HDInsight с управляемыми дисками Azure.

Screenshot of the HDInsight architecture: Internet of Things.

Гибридный трафик

С помощью HDInsight вы можете расширить локальную инфраструктуру для работы с большими данными в Azure и применять возможности расширенной аналитики, доступные в облаке.

HDInsight architecture: Hybrid.

Компоненты HDInsight с открытым кодом

Azure HDInsight позволяет создавать кластеры с платформами с открытым кодом, такими как Spark, Hive, LLAP, Kafka, Hadoop и HBase. По умолчанию эти кластеры включают различные компоненты с открытым кодом, такие как Apache Ambari, Avro, Apache Hive 3, HCatalog, Apache Hadoop MapReduce, Apache Hadoop YARN, Apache Phoenix, Apache Pig, Apache Sqoop, Apache Tez, Apache Oozie и Apache ZooKeeper.

Языки программирования, поддерживаемые в HDInsight

Кластеры HDInsight, в том числе Spark, HBase, Kafka, Hadoop и другие, поддерживают несколько языков программирования. Не все языки программирования устанавливаются по умолчанию. Для установки библиотек, модулей или пакетов, которые не установлены по умолчанию, используйте действие скрипта.

Язык программирования	Информация
Поддержка языков программирования по умолчанию	По умолчанию кластеры HDInsight поддерживают следующие языки: Java Python .NET GO
Языки виртуальных машин Java	На виртуальной машине Java могут работать многие другие языки. Однако при запуске некоторых из этих языков вам может потребоваться установить дополнительные компоненты в кластере. В кластерах HDInsight поддерживаются следующие языки на основе JVM: Clojure Jython (Python для Java) Scala
Языки для Hadoop	Кластеры HDInsight поддерживают следующие языки, относящиеся к стеку технологий Hadoop: Pig Latin для заданий Pig HiveQL для заданий Hive и SparkSQL

Средства разработки для HDInsight

Вы можете создавать и отправлять запросы данных HDInsight и задания с помощью таких средств разработки HDInsight, как IntelliJ, Eclipse, Visual Studio Code и Visual Studio, просто интегрировав их с Azure.

Набор средств Azure для IntelliJ 10
Набор средств Azure для Eclipse 6
Средства Azure HDInsight для VS Code 13
Средства озера данных Azure для Visual Studio 9

Бизнес-аналитика в HDInsight

Знакомые инструменты бизнес-аналитики позволяют получать и анализировать данные, а также составлять на их основе отчеты в тесной интеграции с HDInsight с помощью надстройки Power Query или драйвера Microsoft Hive ODBC.

Использование средств визуализации данных с помощью Apache Spark BI в Azure HDInsight.
Визуализация данных Apache Hive с Microsoft Power BI с использованием ODBC в Azure HDInsight
Visualize Interactive Query Hive data with Microsoft Power BI using DirectQuery in Azure HDInsight (Визуализация данных Hive из кластера Interactive Query с помощью Microsoft Power BI и DirectQuery в Azure HDInsight)
Подключение Excel к Apache Hadoop с помощью Power Query (требуется Windows)
Подключение Excel к Apache Hadoop с помощью Microsoft Hive ODBC Driver (требуется Windows)

Место расположения данных в регионе

Spark, Hadoop и LLAP не хранят данные клиентов, поэтому эти службы автоматически удовлетворяют требованиям к месту расположения данных в регионе, указанным в Центре управления безопасностью.

В Kafka и HBase хранятся данные клиентов. Эти данные автоматически хранятся в Kafka и HBase в одном регионе, поэтому эта служба удовлетворяет требованиям к месту расположения данных в регионе, указанным в Центре управления безопасностью.

Привычные инструменты бизнес-аналитики позволяют получать и анализировать данные, а также составлять на их основе отчеты в тесной интеграции с HDInsight с помощью надстройки Power Query или Microsoft Hive ODBC Driver.

Поделиться через