Arbeta i Apache Hadoop-ekosystemet på HDInsight från en Windows-dator

Lär dig mer om utveckling och hanteringsalternativ på Windows-datorn för att arbeta i Apache Hadoop-ekosystemet i HDInsight.

HDInsight är baserat på Apache Hadoop- och Hadoop-komponenter, tekniker med öppen källkod som utvecklats i Linux. HDInsight version 3.4 och senare använder Ubuntu Linux-distributionen som det underliggande operativsystemet för klustret. Du kan dock arbeta med HDInsight från en Windows-klient eller Windows-utvecklingsmiljö.

Använda PowerShell för distributions- och hanteringsuppgifter

Azure PowerShell är en skriptmiljö som du kan använda för att styra och automatisera distributions- och hanteringsuppgifter i HDInsight från Windows.

Exempel på uppgifter som du kan utföra med PowerShell:

Följ stegen för att installera och konfigurera Azure PowerShell för att hämta den senaste versionen.

Verktyg som du kan köra i en webbläsare

Följande verktyg har ett webbgränssnitt som körs i en webbläsare:

Innan du går till följande exempel installerar och provar du Data Lake Tools för Visual Studio.

Visual Studio och .NET SDK

Du kan använda Visual Studio med .NET SDK för att hantera kluster och utveckla stordataprogram. Du kan använda andra IDE:er för följande uppgifter, men exempel visas i Visual Studio.

Exempel på uppgifter som du kan utföra med .NET SDK i Visual Studio:

Intellij IDEA och Eclipse IDE för Spark-kluster

Både Intellij IDEA och Eclipse IDE kan användas för att:

  • Utveckla och skicka ett Scala Spark-program i ett HDInsight Spark-kluster.
  • Få åtkomst till Spark-klusterresurser.
  • Utveckla och köra ett Scala Spark-program lokalt.

De här artiklarna visar hur:

Notebook-filer på Spark för dataforskare

Apache Spark-kluster i HDInsight innehåller Apache Zeppelin-notebook-filer och kernels som kan användas med Jupyter Notebooks.

Köra Linux-baserade verktyg och tekniker i Windows

Om du stöter på en situation där du måste använda ett verktyg eller en teknik som endast är tillgänglig i Linux kan du överväga följande alternativ:

  • Bash på Ubuntu på Windows 10 tillhandahåller ett Linux-undersystem i Windows. Med Bash kan du köra Linux-verktyg direkt utan att behöva underhålla en dedikerad Linux-installation. Installationssteg finns i Installationsguide för Windows-undersystem för Linux för Windows 10. Andra Unix-gränssnitt fungerar också.
  • Docker för Windows ger åtkomst till många Linux-baserade verktyg och kan köras direkt från Windows. Du kan till exempel använda Docker för att köra Beeline-klienten för Hive direkt från Windows. Du kan också använda Docker för att köra en lokal Jupyter Notebook och fjärransluta till Spark på HDInsight. Kom igång med Docker för Windows
  • Med MobaXTerm kan du grafiskt bläddra i klustrets filsystem via en SSH-anslutning.

Plattformsoberoende verktyg

Kommandoradsgränssnittet för Azure (CLI) är Microsofts plattformsoberoende kommandoradsmiljö för att hantera Azure-resurser. Mer information finns i Azure Command-Line Interface (CLI).

Nästa steg

Om du inte har använt Linux-baserade kluster tidigare kan du läsa följande artiklar: