Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Azure HDInsight — это управляемая, полнотекстовая служба аналитики с открытым кодом в облаке для предприятий. С помощью HDInsight можно использовать платформы с открытым кодом, такие как Apache Spark, Apache Hive, LLAP, Apache Kafka, Hadoop и т. д. в среде Azure.
Что такое HDInsight и стек технологий Hadoop?
Azure HDInsight — это управляемая платформа кластера, которая упрощает запуск платформ больших данных, таких как Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Hadoop и других платформ в среде Azure. Он предназначен для обработки больших объемов данных с высокой скоростью и эффективностью.
Почему следует использовать Azure HDInsight?
| Возможность | Описание |
|---|---|
| Облачная среда | Azure HDInsight позволяет создавать оптимизированные кластеры для Spark, интерактивного запроса (LLAP), Kafka, HBase и Hadoop в Azure. HDInsight также предоставляет сквозное соглашение об уровне обслуживания для всех производственных рабочих нагрузок. |
| Низкая стоимость и масштабируемость | HDInsight позволяет масштабировать рабочие нагрузки вверх или вниз. Вы можете сократить затраты, создав кластеры по запросу и заплатив только за то, что вы используете. Вы также можете создавать конвейеры данных для операционализации заданий. Несоединяемые вычислительные ресурсы и хранилище обеспечивают более высокую производительность и гибкость. |
| Безопасный и совместимый | HDInsight позволяет защитить корпоративные ресурсы данных с помощью виртуальной сети Azure, шифрования и интеграции с идентификатором Microsoft Entra. HDInsight также соответствует самым популярным отраслевым и государственным стандартам соответствия. |
| Мониторинг | Azure HDInsight интегрируется с журналами Azure Monitor, чтобы обеспечить единый интерфейс, с помощью которого можно отслеживать все кластеры. |
| Глобальная доступность | HDInsight доступен в нескольких регионах, чем в других предложениях аналитики больших данных . Azure HDInsight также доступна в Azure для государственных организаций, Китая и Германии, что позволяет удовлетворить потребности предприятия в ключевых национальных областях. |
| Производительность | Azure HDInsight позволяет использовать эффективные средства для Hadoop и Spark с предпочитаемыми средами разработки. К этим средам разработки относятся Visual Studio, VS Code, Eclipse и IntelliJ для Scala, Python, Java и .NET. |
| Расширяемость | Кластеры HDInsight можно расширить с установленными компонентами (Hue, Presto и т. д.) с помощью действий скрипта, добавления пограничных узлов или интеграции с другими сертифицированными приложениями больших данных . HDInsight обеспечивает простую интеграцию с наиболее популярными решениями больших данных с развертыванием одним щелчком мыши. |
Что такое большие данные?
Большие данные собираются в увеличивающихся объемах, с большей скоростью и в более разнообразных форматах, чем когда-либо прежде. Это могут быть исторические данные (то есть сохраненные) или данные в режиме реального времени (то есть поступающие из источника). Сведения о наиболее распространенных вариантах использования больших данных см. в сценариях использования HDInsight .
Типы кластеров в HDInsight
HDInsight включает определенные типы кластеров и возможности настройки кластера, такие как возможность добавления компонентов, служебных программ и языков. HDInsight предлагает следующие типы кластеров:
| Тип кластера | Описание | Get Started |
|---|---|---|
| Apache Hadoop | Платформа, использующая HDFS, управление ресурсами YARN и простую модель программирования MapReduce для параллельного обработки и анализа пакетных данных. | Создание кластера Apache Hadoop |
| Apache Spark | Платформа параллельной обработки с открытым кодом, которая поддерживает обработку в памяти для повышения производительности приложений анализа больших данных. Узнайте , что такое Apache Spark в HDInsight? | Создание кластера Apache Spark |
| Apache HBase | База данных NoSQL, основанная на Hadoop, которая обеспечивает случайный доступ и надежную согласованность для больших объемов неструктурированных и полуструктурированных данных, потенциально сотни миллиардов строк и миллионы столбцов. Смотрите , что такое HBase в HDInsight? | Создание кластера Apache HBase |
| Интерактивный запрос Apache | Кэширование в памяти для интерактивных и быстрых запросов Hive. См. Использование Интерактивного Запроса в HDInsight. | Создание кластера интерактивных запросов |
| Apache Kafka | Платформа с открытым исходным кодом используется для создания конвейеров и приложений потоковой передачи данных. Kafka также предоставляет функции очереди сообщений, которые позволяют публиковать и подписываться на потоки данных. Общие сведения об Apache Kafka в HDInsight. | Создание кластера Apache Kafka |
Сценарии использования HDInsight
Azure HDInsight можно использовать для различных сценариев обработки больших данных . Это могут быть исторические данные (данные, которые уже собираются и хранятся) или данные в режиме реального времени (данные, которые передаются непосредственно из источника). Сценарии обработки таких данных можно суммировать в следующих категориях:
Пакетная обработка (ETL)
Извлечение, преобразование и загрузка (ETL) — это процесс, в котором неструктурированные или структурированные данные извлекаются из разнородных источников данных. Затем он преобразуется в структурированный формат и загружается в хранилище данных. Вы можете использовать преобразованные данные для обработки и анализа данных или хранения данных.
Хранение данных
HDInsight можно использовать для выполнения интерактивных запросов в масштабе петабайт по структурированным или неструктурированным данным в любом формате. Вы также можете создавать модели, подключающие их к средствам бизнес-аналитики.
Интернет вещей (IoT)
HDInsight можно использовать для обработки потоковых данных, полученных в режиме реального времени от различных типов устройств. Дополнительные сведения см. в этой записи блога из Azure, в котором объявляется общедоступная предварительная версия Apache Kafka в HDInsight с управляемыми дисками Azure.
Гибрид
HdInsight можно использовать для расширения существующей локальной инфраструктуры больших данных в Azure для применения расширенных возможностей аналитики облака.
Компоненты с открытым кодом в HDInsight
Azure HDInsight позволяет создавать кластеры с платформами с открытым кодом, такими как Spark, Hive, LLAP, Kafka, Hadoop и HBase. По умолчанию эти кластеры включают различные компоненты с открытым кодом, такие как Apache Ambari, Avro, Apache Hive 3, HCatalog, Apache Hadoop MapReduce, Apache Hadoop YARN, Apache Phoenix, Apache Pig, Apache Sqoop, Apache Tez, Apache Oozie и Apache ZooKeeper.
Языки программирования в HDInsight
Кластеры HDInsight, включая Spark, HBase, Kafka, Hadoop и другие, поддерживают множество языков программирования. Некоторые языки программирования по умолчанию не устанавливаются. Для библиотек, модулей или пакетов, которые не установлены по умолчанию, используйте действие скрипта для установки компонента.
| Язык программирования | Информация |
|---|---|
| Поддержка языка программирования по умолчанию | Кластеры HDInsight по умолчанию поддерживают:
|
| Языки виртуальной машины Java (JVM) | Многие языки, отличные от Java, могут работать на виртуальной машине Java (JVM). Однако при запуске некоторых из этих языков может потребоваться установить дополнительные компоненты в кластере. В кластерах HDInsight поддерживаются следующие языки на основе JVM:
|
| Языки, относящиеся к Hadoop | Кластеры HDInsight поддерживают следующие языки, относящиеся к стеку технологий Hadoop:
|
Средства разработки для HDInsight
Вы можете использовать средства разработки HDInsight, включая IntelliJ, Eclipse, Visual Studio Code и Visual Studio, для создания и отправки запросов данных HDInsight и задания с простой интеграцией с Azure.
- Набор средств Azure для IntelliJ 10
- Набор средств Azure для Eclipse 6
- Средства Azure HDInsight для VS Code 13
- Инструменты Azure Data Lake для Visual Studio 9
Бизнес-аналитика в HDInsight
Знакомые средства бизнес-аналитики (BI) извлекают, анализируют и сообщают данные, интегрированные с HDInsight с помощью надстройки Power Query или драйвера ODBC Microsoft Hive:
Apache Spark BI с помощью средств визуализации данных с Azure HDInsight
Визуализация данных Apache Hive с помощью Microsoft Power BI в Azure HDInsight
Визуализация интерактивных запросов данных Hive с помощью Power BI в Azure HDInsight
Подключение Excel к Apache Hadoop с помощью Power Query (требуется Windows)
Подключение Excel к Apache Hadoop с помощью драйвера MICROSOFT Hive ODBC (требуется Windows)
Местонахождение данных в регионе
Spark, Hadoop и LLAP не хранят данные клиентов, поэтому эти службы автоматически удовлетворяют требованиям к месту расположения данных в регионе, указанным на сайте глобальной инфраструктуры Azure.
Kafka и HBase хранят данные клиента. Эти данные автоматически хранятся Kafka и HBase в одном регионе, поэтому эта служба удовлетворяет требованиям к месту расположения данных в регионе, указанным на сайте глобальной инфраструктуры Azure.
Знакомые средства бизнес-аналитики (BI) извлекают, анализируют и сообщают данные, интегрированные с HDInsight с помощью надстройки Power Query или драйвера ODBC Microsoft Hive.