Поделиться через


Работа в экосистеме Apache Hadoop в HDInsight на компьютере с Windows

В этой статье приведены сведения о способах развертывания экосистемы Apache Hadoop в HDInsight и управления ею при работе на компьютере с Windows.

Служба HDInsight включает в себя компоненты Apache Hadoop и Hadoop, технологии с открытым исходным кодом, разработанные на платформе Linux. HDInsight 3.4 и более поздних версий использует дистрибутив Ubuntu Linux в качестве базовой операционной системы кластера. Но с HDInsight можно также работать в клиенте или среде разработки Windows.

Задачи развертывания и управления с помощью PowerShell

Azure PowerShell — это среда сценариев, которая позволяет контролировать и автоматизировать задачи развертывания и управления в HDInsight на компьютере с Windows.

При помощи PowerShell можно выполнять такие задачи:

Этапы установки и настройки последней версии Azure PowerShell см. здесь.

Браузерные служебные программы

Ниже приведены примеры служебных программ с веб-интерфейсом, выполняемым в браузере.

Перед выполнением приведенных ниже примеров установите средства Data Lake для Visual Studio и попробуйте работать с ними.

Visual Studio и пакет SDK для .NET

Visual Studio с пакетом SDK для .NET позволяет управлять кластерами и разрабатывать приложения больших данных. Ниже приведены примеры задач, которые можно выполнять в Visual Studio. Но их также можно выполнять и с помощью других интерфейсов IDE.

При помощи пакета SDK для .NET в Visual Studio можно выполнять следующие задачи:

Intellij IDEA и Eclipse IDE для кластеров Spark

При помощи Intellij IDEA и Eclipse IDE можно выполнять следующие задачи:

  • разрабатывать и отправлять приложения Scala Spark в кластер HDInsight Spark;
  • получать доступ к ресурсам кластера Spark;
  • разрабатывать и запускать приложения Scala Spark в локальной среде.

В этих статьях описывается:

Записные книжки в Spark для специалистов по обработке и анализу данных

Кластеры Apache Spark в HDInsight включают записные книжки Apache Zeppelin и ядра, которые можно использовать с Jupyter Notebook.

Запуск средств и технологии Linux в Windows

В случае возникновения ситуации, когда необходимо использовать средства или технологии, доступные только в Linux, рассмотрите следующие варианты:

  • Bash в Ubuntu на Windows 10 предоставляет подсистему Linux в Windows. Это средство позволяет напрямую запускать служебные программы Linux, не устанавливая выделенный сервер Linux. Шаги установки см. в статье Windows Subsystem for Linux Installation Guide for Windows 10 (Подсистема Windows для Linux в Windows 10). Также работают и другие оболочки Unix .
  • Docker для Windows предоставляет доступ ко многим средствам Linux. Эту платформу можно запустить непосредственно из Windows. Например, с помощью Docker можно запустить клиент Beeline для Hive непосредственно из Windows. Кроме того, Docker позволяет запускать локальный Jupyter Notebook и удаленно подключаться к Spark в HDInsight. Начните работу с Docker для Windows.
  • MobaXTerm позволяет графически просматривать файловую систему кластера через SSH-подключение.

Кроссплатформенные средства

Azure CLI — это кроссплатформенный интерфейс командной строки от Майкрософт для управления ресурсами Azure. Дополнительные сведения см. в статье об интерфейсе командной строки (CLI) Azure.

Дальнейшие действия

Если вы еще не работали в кластерах под управлением Linux, ознакомьтесь со следующими статьями: