Установка сторонних приложений Apache Hadoop в Azure HDInsight

Узнайте, как установить стороннее приложение Apache Hadoop в Azure HDInsight. Инструкции по установке собственного приложения см. в статье Установка пользовательских приложений HDInsight.

Пользователи могут устанавливать приложения HDInsight в кластере HDInsight. Разработчиками этих приложений могут быть корпорация Майкрософт, независимые поставщики программного обеспечения или вы сами.

Опубликованные приложения представлены в следующем списке:

Приложение Типы кластеров Description
Платформа AtScale Intelligence Hadoop AtScale превращает ваш кластер HDInsight в OLAP-сервер с возможностью горизонтального увеличения масштаба, позволяя запрашивать миллиарды строк данных в интерактивном режиме с помощью уже знакомых и полюбившихся инструментов бизнес-аналитики, которые уже имеются, — от Microsoft Excel, Power BI, Tableau Software до QlikView.
Datameer Hadoop Datameer — это масштабируемая платформа самообслуживания для подготовки, изучения и управления данными для аналитики, которая ускоряет превращение сложных данных из нескольких источников в ценные сведения, готовые к использованию, быстрее и эффективнее предоставляя аналитические данные на корпоративном уровне.
Dataiku DSS в HDInsight Hadoop, Spark Dataiku DSS представляет собой корпоративную платформу для обработки и анализа данных, которая позволяет специалистам по обработке и анализу данных совместно создавать и запускать новые продукты и службы данных, преобразуя необработанные данные в информативные прогнозы.
Приложение WANdisco Fusion HDI Hadoop, Spark, HBase, Kafka Обеспечение согласованности данных в распределенной среде — задача по выполнению массовых операций с данными. WANdisco Fusion, программная платформа корпоративного класса, решает эту проблему, обеспечивая согласованность неструктурированных данных в любой среде.
H2O SparklingWater для HDInsight Spark H2O Sparkling Water поддерживает следующие распределенные алгоритмы: GLM, Naïve Bayes, распределенное случайное лес, градиентный бустный компьютер, глубокие нейронные сети, глубокое обучение, K-средний, PCA, обобщенные модели низкого ранга, обнаружение аномалий, автокодировщики.
Striim для интеграции данных с HDInsight в режиме реального времени Hadoop, HBase, Spark, Kafka Striim — это комплексная платформа для интеграции и аналитики потоковой передачи данных, обеспечивающая непрерывный прием, обработку и анализ разрозненных потоков данных.
Jumbune Enterprise-Accelerating BigData Analytics Hadoop, Spark Jumbune помогает предприятиям в следующем. 1. Повышение производительности рабочей нагрузки Hive, Java, Scala на основе ядра Tez, MapReduce и Spark. 2. Упреждающий мониторинг кластера Hadoop. 3. Организация управления качеством данных в распределенной файловой системе.
Kyligence Enterprise Hadoop, HBase, Spark На базе Apache Kylin, Kyligence Enterprise включает бизнес-аналитику в больших данных. Являясь подсистемой OLAP корпоративного уровня в Hadoop, Kyligence Enterprise позволяет выполнять бизнес-аналитику в Hadoop с использованием методологии бизнес-аналитики и хранилища данных, соответствующих отраслевым стандартам.
StreamSets Data Collector для облака HDInsight Hadoop, HBase, Spark, Kafka StreamSets Data Collector — это облегченная и в то же время эффективная подсистема, которая осуществляет потоковую передачу данных в режиме реального времени. Используйте Data Collector для маршрутизации и обработки данных в потоках данных. Предлагается 30-дневная пробная версия продукта.
Trifacta Wrangler Enterprise Hadoop, Spark, HBase Trifacta Wrangler Enterprise для HDInsight поддерживает первичную обработку данных уровня предприятия для любого масштаба данных. Стоимость запуска Trifacta в Azure представляет собой сочетание затрат на подписку Trifacta и затрат на инфраструктуру Azure для виртуальных машин.
Unifi Data Platform Hadoop, HBase, Spark Это Unifi Data Platform просто интегрированный набор средств самообслуживания для обработки данных, предназначенных для решения проблем с данными, которые управляют добавочным доходом, сокращают затраты или операционную сложность.

В этой статье используется портал Azure. Вы можете экспортировать шаблон Azure Resource Manager с портала или получить его копию у поставщиков, а затем развернуть его с помощью Azure PowerShell и классического интерфейса командной строки Azure. Ознакомьтесь со статьей Создание кластеров Apache Hadoop в HDInsight с помощью шаблонов Resource Manager.

Необходимые компоненты

Если вы хотите установить приложение HDInsight в существующем кластере HDInsight, вы должны создать кластер HDInsight. Инструкции по созданию кластера см. в этом разделе. Вы также можете установить приложения HDInsight во время создания кластера HDInsight.

Установка приложений в имеющиеся кластеры

Здесь приведена процедура установки приложения HDInsight в имеющийся кластер HDInsight.

Установка приложения HDInsight

  1. Войдите на портал Azure.

  2. В меню слева последовательно выберите Все службы>Аналитика>Кластеры HDInsight.

  3. Выберите из списка кластер HDInsight. Если у вас нет кластера, сначала его необходимо создать. См. этот раздел.

  4. В категории Параметры выберите Приложения. В основном окне отобразится список установленных приложений.

    HDInsight applications portal menu.

  5. В меню выберите +Добавить. Отобразится список доступных приложений. Если параметр +Добавить недоступен для выбора, это означает, что приложения для этой версии кластера HDInsight отсутствуют.

    HDInsight applications available applications.

  6. Выберите одно из доступных приложений и следуйте инструкциям, чтобы принять условия лицензионного соглашения.

Состояние установки приложения можно отслеживать в уведомлениях портала (щелкните значок колокольчика в верхней части портала). После установки приложение отобразится в списке «Установленные приложения».

Установка приложения во время создания кластера

Вы также можете установить приложения HDInsight во время создания кластера. Их установка осуществляется после создания и запуска кластера. Чтобы установить приложения во время создания кластера с помощью портала Azure, на вкладке Конфигурация и цены выберите + Добавить приложение.

Azure portal cluster configuration applications.

Отображение списка установленных приложений HDInsight и их свойств

На портале содержится список установленных приложений HDInsight для кластера и их свойств.

Список приложений HDInsight и их свойств

  1. Войдите на портал Azure.

  2. В меню слева последовательно выберите Все службы>Аналитика>Кластеры HDInsight.

  3. Выберите из списка кластер HDInsight.

  4. В категории Параметры выберите Приложения. В основном окне отобразится список установленных приложений.

    HDInsight applications installed apps.

  5. Чтобы открыть свойства установленного приложения, щелкните его. В свойствах указано следующее:

    Свойство Description
    Название приложения Имя приложения.
    Состояние Состояние приложения.
    Веб-страница URL-адрес веб-приложения, развернутого на граничном узле. В качестве учетных данных используются учетные данные пользователя HTTP, настроенные для кластера.
    Конечная точка SSH К граничному узлу можно подключиться с помощью SSH. В качестве учетных данных SSH используются учетные данные пользователя SSH, настроенные для кластера. См. дополнительные сведения об использовании SSH в HDInsight.
    Description Описание приложения.
  6. Чтобы удалить приложение, щелкните его правой кнопкой мыши и в контекстном меню выберите Удалить.

Подключение к граничному узлу

Для подключения к граничному узлу можно использовать протокол HTTP и SSH. Дополнительные сведения о конечной точке см. на портале. См. дополнительные сведения об использовании SSH в HDInsight.

Учетные данные конечной точки HTTP — это учетные данные пользователя HTTP, настроенные для кластера HDInsight. Учетные данные конечной точки SSH — это учетные данные SSH, настроенные для кластера HDInsight.

Устранение неполадок

См. раздел Устранение неполадок, связанных с установкой.

Следующие шаги