Práce v ekosystému Apache Hadoop ve službě HDInsight z počítače s Windows
Seznamte se s možnostmi vývoje a správy na počítači s Windows pro práci v ekosystému Apache Hadoop ve službě HDInsight.
HDInsight je založen na komponentách Apache Hadoop a Hadoop, což jsou opensourcové technologie vyvinuté v Linuxu. HDInsight verze 3.4 a vyšší používá distribuci Ubuntu Linux jako základní operační systém pro cluster. Se službou HDInsight však můžete pracovat z klienta windows nebo vývojového prostředí windows.
Použití PowerShellu pro úlohy nasazení a správy
Azure PowerShell je skriptovací prostředí, které můžete použít k řízení a automatizaci úloh nasazení a správy ve službě HDInsight ze systému Windows.
Příklady úloh, které můžete provádět pomocí PowerShellu:
- Vytváření clusterů pomocí PowerShellu
- Spouštění dotazů Apache Hivu pomocí PowerShellu
- Správa clusterů pomocí PowerShellu
Pokud chcete získat nejnovější verzi, postupujte podle pokynů k instalaci a konfiguraci Azure PowerShell.
Nástroje, které můžete spustit v prohlížeči
Následující nástroje mají webové uživatelské rozhraní, které běží v prohlížeči:
Azure Cloud Shell je interaktivní prostředí příkazového řádku, které běží v prohlížeči a v rámci Azure Portal.
Webové uživatelské rozhraní Apache Ambari je nástroj pro správu a monitorování dostupný v Azure Portal, který lze použít ke správě různých druhů úloh, jako jsou:
Než přejdete k následujícím příkladům, nainstalujte a vyzkoušejte nástroje Data Lake pro Visual Studio.
Visual Studio a .NET SDK
Pomocí sady Visual Studio se sadou .NET SDK můžete spravovat clustery a vyvíjet aplikace pro velké objemy dat. Pro následující úlohy můžete použít jiná prostředí IME, ale příklady jsou uvedeny v sadě Visual Studio.
Příklady úloh, které můžete provádět se sadou .NET SDK v sadě Visual Studio:
- Sada Azure HDInsight SDK pro .NET
- Spouštění dotazů Apache Hive pomocí sady .NET SDK
- Použití uživatelem definovaných funkcí jazyka C# se streamováním Apache Hive a Apache Pig v Apache Hadoopu
Intellij IDEA a Eclipse IDE pro clustery Spark
Intellij IDEA i integrované vývojové prostředí Eclipse se dají použít k:
- Vyvíjejte a odešlete aplikaci Scala Spark v clusteru HDInsight Spark.
- Přístup k prostředkům clusteru Spark
- Vyvíjejte a spouštějte aplikaci Scala Spark místně.
Tyto články ukazují, jak na to:
- Intellij IDEA: Vytvářejte aplikace Apache Spark pomocí modulu plug-in Azure Toolkit for Intellij a sady Scala SDK.
- Eclipse IDE nebo Scala IDE pro Eclipse: Vytváření aplikací Apache Spark a sady Azure Toolkit for Eclipse
Poznámkové bloky ve Sparku pro datové vědce
Clustery Apache Spark ve službě HDInsight zahrnují poznámkové bloky Apache Zeppelin a jádra, které je možné používat s poznámkovými bloky Jupyter.
- Naučte se používat jádra v clusterech Apache Spark s poznámkovými bloky Jupyter k testování aplikací Spark.
- Zjistěte, jak používat poznámkové bloky Apache Zeppelin v clusterech Apache Spark ke spouštění úloh Sparku.
Spouštění linuxových nástrojů a technologií ve Windows
Pokud narazíte na situaci, kdy musíte použít nástroj nebo technologii, která je dostupná jenom v Linuxu, zvažte následující možnosti:
- Bash v Ubuntu na Windows 10 poskytuje linuxový subsystém ve Windows. Bash umožňuje přímo spouštět linuxové nástroje, aniž byste museli udržovat vyhrazenou instalaci Linuxu. Postup instalace najdete v průvodci instalací Subsystém Windows pro Linux Windows 10. Fungují i další unixová prostředí .
- Docker pro Windows poskytuje přístup k mnoha nástrojům založeným na Linuxu a je možné je spouštět přímo z Windows. Docker můžete například použít ke spuštění klienta Beeline pro Hive přímo z Windows. Pomocí Dockeru můžete také spustit místní Jupyter Notebook a vzdáleně se připojit ke Sparku ve službě HDInsight. Začínáme s Dockerem pro Windows
- MobaXTerm umožňuje graficky procházet systém souborů clusteru přes připojení SSH.
Nástroje pro různé platformy
Rozhraní příkazového řádku Azure (CLI) je nové víceplatformové prostředí příkazového řádku Microsoftu pro správu prostředků Azure. Další informace najdete v tématu Rozhraní azure Command-Line (CLI).
Další kroky
Pokud s linuxovými clustery začínáte pracovat, projděte si následující články: