Arbeiten im Apache Hadoop-Ökosystem in HDInsight auf einem Windows-Computer
Erfahren Sie mehr über die Entwicklungs- und Verwaltungsoptionen auf einem Windows-Computer für die Arbeit im Apache Hadoop-Ökosystem in HDInsight.
HDInsight basiert auf Apache Hadoop und Hadoop-Komponenten sowie Open-Source-Technologien, die unter Linux entwickelt wurden. HDInsight 3.4 oder höher verwendet die Linux-Distribution Ubuntu als zugrunde liegendes Betriebssystem für den Cluster. Sie können aber auch von einem Windows-Client oder einer Windows-Entwicklungsumgebung aus mit HDInsight arbeiten.
Verwenden von PowerShell für Bereitstellungs- und Verwaltungsaufgaben
Azure PowerShell ist eine Skriptumgebung, mit der Sie Bereitstellungs- und Verwaltungsaufgaben in HDInsight von Windows aus steuern und automatisieren können.
Beispiele für Aufgaben, die Sie mit PowerShell erledigen können:
- Erstellen von Clustern mit PowerShell.
- Ausführen von Apache Hive-Abfragen mit PowerShell.
- Verwalten von Clustern mit PowerShell.
Führen Sie die Schritte zum Installieren und Konfigurieren von Azure PowerShell aus, um die neueste Version zu erhalten.
Hilfsprogramme für die Ausführung in einem Browser
Die folgenden Hilfsprogramme verfügen über eine Webbenutzeroberfläche, die in einem Browser ausgeführt wird:
Azure Cloud Shell ist eine interaktive Befehlszeilen-Shell, die in Ihrem Browser und aus dem Azure-Portal heraus ausgeführt wird.
Die Apache Ambari-Webbenutzeroberfläche ist ein Hilfsprogramm zum Verwalten und Überwachen im Azure-Portal, mit dem Sie verschiedene Arten von Aufträgen verwalten können. Beispiele:
Bevor Sie mit den folgenden Beispielen fortfahren, installieren und testen Sie die Data Lake-Tools für Visual Studio.
Visual Studio und das .NET SDK
Sie können Visual Studio mit dem .NET SDK verwenden, um Cluster zu verwalten und Big Data-Anwendungen zu entwickeln. Sie können auch andere IDEs für die folgenden Aufgaben verwenden, in den Beispielen wird jedoch Visual Studio gezeigt.
Beispiele für Aufgaben, die Sie mit dem .NET SDK in Visual Studio ausführen können:
- Azure HDInsight SDK für .NET
- Ausführen von Apache Hive-Abfragen mit dem .NET SDK.
- Verwenden benutzerdefinierter C#-Funktionen mit Apache Hive- und Apache Pig-Streaming für Apache Hadoop.
Intellij IDEA und Eclipse-IDE für Spark-Cluster
Sowohl Intellij IDEA als auch die Eclipse-IDE können für Folgendes verwendet werden:
- Entwickeln und Übermitteln einer Scala Spark-Anwendung an einen HDInsight Spark-Cluster
- Zugreifen auf Spark-Clusterressourcen
- Entwickeln und lokales Ausführen einer Scala Spark-Anwendung
In diesem Artikel wird Folgendes beschrieben:
- IntelliJ IDEA: Erstellen von Apache Spark-Anwendungen für einen HDInsight-Cluster mit dem Azure-Toolkit für IntelliJ
- Eclipse-IDE oder Scala-IDE für Eclipse: Erstellen von Apache Spark-Anwendungen für HDInsight-Cluster mit dem Azure-Toolkit für Eclipse
Notebooks in Spark für Datenanalysten
Apache Spark-Cluster in HDInsight enthalten Apache Zeppelin-Notebooks und -Kernel, die mit Jupyter-Notebooks verwendet werden können.
- Lesen Sie, wie Sie Kernel in Apache Spark-Clustern mit Jupyter-Notebooks verwenden, um Spark-Anwendungen zu testen.
- Lesen Sie, wie Sie Apache Zeppelin-Notebooks in Apache Spark-Clustern verwenden, um Spark-Aufträge auszuführen.
Ausführen von Linux-basierten Tools und Technologien unter Windows
In Situationen, in denen Sie Tools oder Technologien verwenden müssen, die nur unter Linux verfügbar sind, sollten Sie die folgenden Möglichkeiten in Erwägung ziehen:
- Bash auf Ubuntu unter Windows 10 stellt ein Linux-Subsystem unter Windows bereit. Bash erlaubt die direkte Ausführung von Linux-Hilfsprogrammen, ohne eine dedizierte Linux-Installation verwalten zu müssen. Die Installationsschritte finden Sie unter Windows Subsystem for Linux Installation Guide for Windows 10 (Windows-Subsystem für Linux: Installationshandbuch für Windows 10). Es funktionieren auch andere Unix-Shells.
- Docker für Windows ermöglicht den Zugriff auf viele Linux-basierten Tools und kann direkt unter Windows ausgeführt werden. Sie können Docker beispielsweise verwenden, um den Beeline-Client für Hive direkt unter Windows auszuführen. Sie können auch Docker verwenden, um ein lokales Jupyter-Notebook auszuführen und eine Remoteverbindung mit Spark in HDInsight herzustellen. Erste Schritte mit Docker für Windows
- MobaXTerm ermöglicht das Durchsuchen des Clusterdateisystems über eine SSH-Verbindung auf einer grafischen Benutzeroberfläche.
Plattformübergreifende Tools
Die Azure-Befehlszeilenschnittstelle (CLI) ist die plattformübergreifende Befehlszeilenumgebung von Microsoft zum Verwalten von Azure-Ressourcen. Weitere Informationen finden Sie unter Azure-Befehlszeilenschnittstelle (CLI).
Nächste Schritte
Wenn Sie nicht mit der Arbeit in Linux-basierten Clustern vertraut sind, lesen Sie die folgenden Artikel: