Arbeiten im Apache Hadoop-Ökosystem in HDInsight auf einem Windows-Computer

Erfahren Sie mehr über die Entwicklungs- und Verwaltungsoptionen auf einem Windows-Computer für die Arbeit im Apache Hadoop-Ökosystem in HDInsight.

HDInsight basiert auf Apache Hadoop und Hadoop-Komponenten sowie Open-Source-Technologien, die unter Linux entwickelt wurden. HDInsight 3.4 oder höher verwendet die Linux-Distribution Ubuntu als zugrunde liegendes Betriebssystem für den Cluster. Sie können aber auch von einem Windows-Client oder einer Windows-Entwicklungsumgebung aus mit HDInsight arbeiten.

Verwenden von PowerShell für Bereitstellungs- und Verwaltungsaufgaben

Azure PowerShell ist eine Skriptumgebung, mit der Sie Bereitstellungs- und Verwaltungsaufgaben in HDInsight von Windows aus steuern und automatisieren können.

Beispiele für Aufgaben, die Sie mit PowerShell erledigen können:

Führen Sie die Schritte zum Installieren und Konfigurieren von Azure PowerShell aus, um die neueste Version zu erhalten.

Hilfsprogramme für die Ausführung in einem Browser

Die folgenden Hilfsprogramme verfügen über eine Webbenutzeroberfläche, die in einem Browser ausgeführt wird:

Bevor Sie mit den folgenden Beispielen fortfahren, installieren und testen Sie die Data Lake-Tools für Visual Studio.

Visual Studio und das .NET SDK

Sie können Visual Studio mit dem .NET SDK verwenden, um Cluster zu verwalten und Big Data-Anwendungen zu entwickeln. Sie können auch andere IDEs für die folgenden Aufgaben verwenden, in den Beispielen wird jedoch Visual Studio gezeigt.

Beispiele für Aufgaben, die Sie mit dem .NET SDK in Visual Studio ausführen können:

Intellij IDEA und Eclipse-IDE für Spark-Cluster

Sowohl Intellij IDEA als auch die Eclipse-IDE können für Folgendes verwendet werden:

  • Entwickeln und Übermitteln einer Scala Spark-Anwendung an einen HDInsight Spark-Cluster
  • Zugreifen auf Spark-Clusterressourcen
  • Entwickeln und lokales Ausführen einer Scala Spark-Anwendung

In diesem Artikel wird Folgendes beschrieben:

Notebooks in Spark für Datenanalysten

Apache Spark-Cluster in HDInsight enthalten Apache Zeppelin-Notebooks und -Kernel, die mit Jupyter-Notebooks verwendet werden können.

Ausführen von Linux-basierten Tools und Technologien unter Windows

In Situationen, in denen Sie Tools oder Technologien verwenden müssen, die nur unter Linux verfügbar sind, sollten Sie die folgenden Möglichkeiten in Erwägung ziehen:

  • Bash auf Ubuntu unter Windows 10 stellt ein Linux-Subsystem unter Windows bereit. Bash erlaubt die direkte Ausführung von Linux-Hilfsprogrammen, ohne eine dedizierte Linux-Installation verwalten zu müssen. Die Installationsschritte finden Sie unter Windows Subsystem for Linux Installation Guide for Windows 10 (Windows-Subsystem für Linux: Installationshandbuch für Windows 10). Es funktionieren auch andere Unix-Shells.
  • Docker für Windows ermöglicht den Zugriff auf viele Linux-basierten Tools und kann direkt unter Windows ausgeführt werden. Sie können Docker beispielsweise verwenden, um den Beeline-Client für Hive direkt unter Windows auszuführen. Sie können auch Docker verwenden, um ein lokales Jupyter-Notebook auszuführen und eine Remoteverbindung mit Spark in HDInsight herzustellen. Erste Schritte mit Docker für Windows
  • MobaXTerm ermöglicht das Durchsuchen des Clusterdateisystems über eine SSH-Verbindung auf einer grafischen Benutzeroberfläche.

Plattformübergreifende Tools

Die Azure-Befehlszeilenschnittstelle (CLI) ist die plattformübergreifende Befehlszeilenumgebung von Microsoft zum Verwalten von Azure-Ressourcen. Weitere Informationen finden Sie unter Azure-Befehlszeilenschnittstelle (CLI).

Nächste Schritte

Wenn Sie nicht mit der Arbeit in Linux-basierten Clustern vertraut sind, lesen Sie die folgenden Artikel: