Práce v ekosystému Apache Hadoop ve službě HDInsight z počítače s Windows

Seznamte se s možnostmi vývoje a správy na počítači s Windows pro práci v ekosystému Apache Hadoop ve službě HDInsight.

HDInsight je založen na komponentách Apache Hadoop a Hadoop, což jsou opensourcové technologie vyvinuté v Linuxu. HDInsight verze 3.4 a vyšší používá distribuci Ubuntu Linux jako základní operační systém pro cluster. Se službou HDInsight však můžete pracovat z klienta windows nebo vývojového prostředí windows.

Použití PowerShellu pro úlohy nasazení a správy

Azure PowerShell je skriptovací prostředí, které můžete použít k řízení a automatizaci úloh nasazení a správy ve službě HDInsight ze systému Windows.

Příklady úloh, které můžete provádět pomocí PowerShellu:

Pokud chcete získat nejnovější verzi, postupujte podle pokynů k instalaci a konfiguraci Azure PowerShell.

Nástroje, které můžete spustit v prohlížeči

Následující nástroje mají webové uživatelské rozhraní, které běží v prohlížeči:

Než přejdete k následujícím příkladům, nainstalujte a vyzkoušejte nástroje Data Lake pro Visual Studio.

Visual Studio a .NET SDK

Pomocí sady Visual Studio se sadou .NET SDK můžete spravovat clustery a vyvíjet aplikace pro velké objemy dat. Pro následující úlohy můžete použít jiná prostředí IME, ale příklady jsou uvedeny v sadě Visual Studio.

Příklady úloh, které můžete provádět se sadou .NET SDK v sadě Visual Studio:

Intellij IDEA a Eclipse IDE pro clustery Spark

Intellij IDEA i integrované vývojové prostředí Eclipse se dají použít k:

  • Vyvíjejte a odešlete aplikaci Scala Spark v clusteru HDInsight Spark.
  • Přístup k prostředkům clusteru Spark
  • Vyvíjejte a spouštějte aplikaci Scala Spark místně.

Tyto články ukazují, jak na to:

Poznámkové bloky ve Sparku pro datové vědce

Clustery Apache Spark ve službě HDInsight zahrnují poznámkové bloky Apache Zeppelin a jádra, které je možné používat s poznámkovými bloky Jupyter.

Spouštění linuxových nástrojů a technologií ve Windows

Pokud narazíte na situaci, kdy musíte použít nástroj nebo technologii, která je dostupná jenom v Linuxu, zvažte následující možnosti:

  • Bash v Ubuntu na Windows 10 poskytuje linuxový subsystém ve Windows. Bash umožňuje přímo spouštět linuxové nástroje, aniž byste museli udržovat vyhrazenou instalaci Linuxu. Postup instalace najdete v průvodci instalací Subsystém Windows pro Linux Windows 10. Fungují i další unixová prostředí .
  • Docker pro Windows poskytuje přístup k mnoha nástrojům založeným na Linuxu a je možné je spouštět přímo z Windows. Docker můžete například použít ke spuštění klienta Beeline pro Hive přímo z Windows. Pomocí Dockeru můžete také spustit místní Jupyter Notebook a vzdáleně se připojit ke Sparku ve službě HDInsight. Začínáme s Dockerem pro Windows
  • MobaXTerm umožňuje graficky procházet systém souborů clusteru přes připojení SSH.

Nástroje pro různé platformy

Rozhraní příkazového řádku Azure (CLI) je nové víceplatformové prostředí příkazového řádku Microsoftu pro správu prostředků Azure. Další informace najdete v tématu Rozhraní azure Command-Line (CLI).

Další kroky

Pokud s linuxovými clustery začínáte pracovat, projděte si následující články: