Поделиться через


Что такое Azure HDInsight?

Azure HDInsight — это управляемая, полнотекстовая служба аналитики с открытым кодом в облаке для предприятий. С помощью HDInsight можно использовать платформы с открытым кодом, такие как Apache Spark, Apache Hive, LLAP, Apache Kafka, Hadoop и т. д. в среде Azure.

Что такое HDInsight и стек технологий Hadoop?

Azure HDInsight — это управляемая платформа кластера, которая упрощает запуск платформ больших данных, таких как Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Hadoop и других платформ в среде Azure. Он предназначен для обработки больших объемов данных с высокой скоростью и эффективностью.

Почему следует использовать Azure HDInsight?

Возможность Описание
Облачная среда Azure HDInsight позволяет создавать оптимизированные кластеры для Spark, интерактивного запроса (LLAP), Kafka, HBase и Hadoop в Azure. HDInsight также предоставляет сквозное соглашение об уровне обслуживания для всех производственных рабочих нагрузок.
Низкая стоимость и масштабируемость HDInsight позволяет масштабировать рабочие нагрузки вверх или вниз. Вы можете сократить затраты, создав кластеры по запросу и заплатив только за то, что вы используете. Вы также можете создавать конвейеры данных для операционализации заданий. Несоединяемые вычислительные ресурсы и хранилище обеспечивают более высокую производительность и гибкость.
Безопасный и совместимый HDInsight позволяет защитить корпоративные ресурсы данных с помощью виртуальной сети Azure, шифрования и интеграции с идентификатором Microsoft Entra. HDInsight также соответствует самым популярным отраслевым и государственным стандартам соответствия.
Мониторинг Azure HDInsight интегрируется с журналами Azure Monitor, чтобы обеспечить единый интерфейс, с помощью которого можно отслеживать все кластеры.
Глобальная доступность HDInsight доступен в нескольких регионах, чем в других предложениях аналитики больших данных . Azure HDInsight также доступна в Azure для государственных организаций, Китая и Германии, что позволяет удовлетворить потребности предприятия в ключевых национальных областях.
Производительность Azure HDInsight позволяет использовать эффективные средства для Hadoop и Spark с предпочитаемыми средами разработки. К этим средам разработки относятся Visual Studio, VS Code, Eclipse и IntelliJ для Scala, Python, Java и .NET.
Расширяемость Кластеры HDInsight можно расширить с установленными компонентами (Hue, Presto и т. д.) с помощью действий скрипта, добавления пограничных узлов или интеграции с другими сертифицированными приложениями больших данных . HDInsight обеспечивает простую интеграцию с наиболее популярными решениями больших данных с развертыванием одним щелчком мыши.

Что такое большие данные?

Большие данные собираются в увеличивающихся объемах, с большей скоростью и в более разнообразных форматах, чем когда-либо прежде. Это могут быть исторические данные (то есть сохраненные) или данные в режиме реального времени (то есть поступающие из источника). Сведения о наиболее распространенных вариантах использования больших данных см. в сценариях использования HDInsight .

Типы кластеров в HDInsight

HDInsight включает определенные типы кластеров и возможности настройки кластера, такие как возможность добавления компонентов, служебных программ и языков. HDInsight предлагает следующие типы кластеров:

Тип кластера Описание Get Started
Apache Hadoop Платформа, использующая HDFS, управление ресурсами YARN и простую модель программирования MapReduce для параллельного обработки и анализа пакетных данных. Создание кластера Apache Hadoop
Apache Spark Платформа параллельной обработки с открытым кодом, которая поддерживает обработку в памяти для повышения производительности приложений анализа больших данных. Узнайте , что такое Apache Spark в HDInsight? Создание кластера Apache Spark
Apache HBase База данных NoSQL, основанная на Hadoop, которая обеспечивает случайный доступ и надежную согласованность для больших объемов неструктурированных и полуструктурированных данных, потенциально сотни миллиардов строк и миллионы столбцов. Смотрите , что такое HBase в HDInsight? Создание кластера Apache HBase
Интерактивный запрос Apache Кэширование в памяти для интерактивных и быстрых запросов Hive. См. Использование Интерактивного Запроса в HDInsight. Создание кластера интерактивных запросов
Apache Kafka Платформа с открытым исходным кодом используется для создания конвейеров и приложений потоковой передачи данных. Kafka также предоставляет функции очереди сообщений, которые позволяют публиковать и подписываться на потоки данных. Общие сведения об Apache Kafka в HDInsight. Создание кластера Apache Kafka

Сценарии использования HDInsight

Azure HDInsight можно использовать для различных сценариев обработки больших данных . Это могут быть исторические данные (данные, которые уже собираются и хранятся) или данные в режиме реального времени (данные, которые передаются непосредственно из источника). Сценарии обработки таких данных можно суммировать в следующих категориях:

Пакетная обработка (ETL)

Извлечение, преобразование и загрузка (ETL) — это процесс, в котором неструктурированные или структурированные данные извлекаются из разнородных источников данных. Затем он преобразуется в структурированный формат и загружается в хранилище данных. Вы можете использовать преобразованные данные для обработки и анализа данных или хранения данных.

Хранение данных

HDInsight можно использовать для выполнения интерактивных запросов в масштабе петабайт по структурированным или неструктурированным данным в любом формате. Вы также можете создавать модели, подключающие их к средствам бизнес-аналитики.

Архитектура HDInsight: хранение данных.

Интернет вещей (IoT)

HDInsight можно использовать для обработки потоковых данных, полученных в режиме реального времени от различных типов устройств. Дополнительные сведения см. в этой записи блога из Azure, в котором объявляется общедоступная предварительная версия Apache Kafka в HDInsight с управляемыми дисками Azure.

Снимок экрана: архитектура HDInsight: Интернет вещей.

Гибрид

HdInsight можно использовать для расширения существующей локальной инфраструктуры больших данных в Azure для применения расширенных возможностей аналитики облака.

Архитектура HDInsight: гибридная.

Компоненты с открытым кодом в HDInsight

Azure HDInsight позволяет создавать кластеры с платформами с открытым кодом, такими как Spark, Hive, LLAP, Kafka, Hadoop и HBase. По умолчанию эти кластеры включают различные компоненты с открытым кодом, такие как Apache Ambari, Avro, Apache Hive 3, HCatalog, Apache Hadoop MapReduce, Apache Hadoop YARN, Apache Phoenix, Apache Pig, Apache Sqoop, Apache Tez, Apache Oozie и Apache ZooKeeper.

Языки программирования в HDInsight

Кластеры HDInsight, включая Spark, HBase, Kafka, Hadoop и другие, поддерживают множество языков программирования. Некоторые языки программирования по умолчанию не устанавливаются. Для библиотек, модулей или пакетов, которые не установлены по умолчанию, используйте действие скрипта для установки компонента.

Язык программирования Информация
Поддержка языка программирования по умолчанию Кластеры HDInsight по умолчанию поддерживают:
  • Java
  • Python
  • .NET
  • Вперёд
Языки виртуальной машины Java (JVM) Многие языки, отличные от Java, могут работать на виртуальной машине Java (JVM). Однако при запуске некоторых из этих языков может потребоваться установить дополнительные компоненты в кластере. В кластерах HDInsight поддерживаются следующие языки на основе JVM:
  • Clojure
  • Jython (Python для Java)
  • Scala
Языки, относящиеся к Hadoop Кластеры HDInsight поддерживают следующие языки, относящиеся к стеку технологий Hadoop:
  • Pig Latin для заданий на Pig
  • HiveQL для заданий Hive и SparkSQL

Средства разработки для HDInsight

Вы можете использовать средства разработки HDInsight, включая IntelliJ, Eclipse, Visual Studio Code и Visual Studio, для создания и отправки запросов данных HDInsight и задания с простой интеграцией с Azure.

  • Набор средств Azure для IntelliJ 10
  • Набор средств Azure для Eclipse 6
  • Средства Azure HDInsight для VS Code 13
  • Инструменты Azure Data Lake для Visual Studio 9

Бизнес-аналитика в HDInsight

Знакомые средства бизнес-аналитики (BI) извлекают, анализируют и сообщают данные, интегрированные с HDInsight с помощью надстройки Power Query или драйвера ODBC Microsoft Hive:

Местонахождение данных в регионе

Spark, Hadoop и LLAP не хранят данные клиентов, поэтому эти службы автоматически удовлетворяют требованиям к месту расположения данных в регионе, указанным на сайте глобальной инфраструктуры Azure.

Kafka и HBase хранят данные клиента. Эти данные автоматически хранятся Kafka и HBase в одном регионе, поэтому эта служба удовлетворяет требованиям к месту расположения данных в регионе, указанным на сайте глобальной инфраструктуры Azure.

Знакомые средства бизнес-аналитики (BI) извлекают, анализируют и сообщают данные, интегрированные с HDInsight с помощью надстройки Power Query или драйвера ODBC Microsoft Hive.

Дальнейшие шаги