Работа в экосистеме Apache Hadoop в HDInsight на компьютере с Windows
В этой статье приведены сведения о способах развертывания экосистемы Apache Hadoop в HDInsight и управления ею при работе на компьютере с Windows.
Служба HDInsight включает в себя компоненты Apache Hadoop и Hadoop, технологии с открытым исходным кодом, разработанные на платформе Linux. HDInsight 3.4 и более поздних версий использует дистрибутив Ubuntu Linux в качестве базовой операционной системы кластера. Но с HDInsight можно также работать в клиенте или среде разработки Windows.
Задачи развертывания и управления с помощью PowerShell
Azure PowerShell — это среда сценариев, которая позволяет контролировать и автоматизировать задачи развертывания и управления в HDInsight на компьютере с Windows.
При помощи PowerShell можно выполнять такие задачи:
Этапы установки и настройки последней версии Azure PowerShell см. здесь.
Браузерные служебные программы
Ниже приведены примеры служебных программ с веб-интерфейсом, выполняемым в браузере.
Azure Cloud Shell — это интерактивная оболочка командной строки, выполняемая в браузере и на портале Azure.
Веб-интерфейс Apache Ambari — служебная программа для управления и мониторинга, доступная на портале Azure. Она позволяет управлять разными видами заданий, например:
Перед выполнением приведенных ниже примеров установите средства Data Lake для Visual Studio и попробуйте работать с ними.
Visual Studio и пакет SDK для .NET
Visual Studio с пакетом SDK для .NET позволяет управлять кластерами и разрабатывать приложения больших данных. Ниже приведены примеры задач, которые можно выполнять в Visual Studio. Но их также можно выполнять и с помощью других интерфейсов IDE.
При помощи пакета SDK для .NET в Visual Studio можно выполнять следующие задачи:
- Пакет SDK Azure HDInsight для .NET.
- выполнять запросы Apache Hive с помощью пакета SDK для .NET;
- использовать определяемые пользователем функций C# при потоковой передаче Apache Hive и Apache Pig в Apache Hadoop.
Intellij IDEA и Eclipse IDE для кластеров Spark
При помощи Intellij IDEA и Eclipse IDE можно выполнять следующие задачи:
- разрабатывать и отправлять приложения Scala Spark в кластер HDInsight Spark;
- получать доступ к ресурсам кластера Spark;
- разрабатывать и запускать приложения Scala Spark в локальной среде.
В этих статьях описывается:
- Создание приложений Apache Spark помощью пакета SDK Scala и подключаемого модуля Azure Toolkit for IntelliJ. (Intellij IDEA)
- Создание приложений Apache Spark и Azure Toolkit for Eclipse (Eclipse IDE или Scala IDE для Eclipse)
Записные книжки в Spark для специалистов по обработке и анализу данных
Кластеры Apache Spark в HDInsight включают записные книжки Apache Zeppelin и ядра, которые можно использовать с Jupyter Notebook.
- Узнайте, как использовать ядра в кластерах Apache Spark с Jupyter Notebook для тестирования приложений Spark
- Узнайте, как использовать записные книжки Apache Zeppelin в кластерах Apache Spark для выполнения заданий Spark
Запуск средств и технологии Linux в Windows
В случае возникновения ситуации, когда необходимо использовать средства или технологии, доступные только в Linux, рассмотрите следующие варианты:
- Bash в Ubuntu на Windows 10 предоставляет подсистему Linux в Windows. Это средство позволяет напрямую запускать служебные программы Linux, не устанавливая выделенный сервер Linux. Шаги установки см. в статье Windows Subsystem for Linux Installation Guide for Windows 10 (Подсистема Windows для Linux в Windows 10). Также работают и другие оболочки Unix .
- Docker для Windows предоставляет доступ ко многим средствам Linux. Эту платформу можно запустить непосредственно из Windows. Например, с помощью Docker можно запустить клиент Beeline для Hive непосредственно из Windows. Кроме того, Docker позволяет запускать локальный Jupyter Notebook и удаленно подключаться к Spark в HDInsight. Начните работу с Docker для Windows.
- MobaXTerm позволяет графически просматривать файловую систему кластера через SSH-подключение.
Кроссплатформенные средства
Azure CLI — это кроссплатформенный интерфейс командной строки от Майкрософт для управления ресурсами Azure. Дополнительные сведения см. в статье об интерфейсе командной строки (CLI) Azure.
Дальнейшие действия
Если вы еще не работали в кластерах под управлением Linux, ознакомьтесь со следующими статьями: