Přidání vlastních knihoven Apache Hivu při vytváření clusteru HDInsight

Článek
06/15/2024

Zjistěte, jak předem načíst knihovny Apache Hivu ve službě HDInsight. Tento dokument obsahuje informace o použití akce skriptu k předběžnému načtení knihoven během vytváření clusteru. Knihovny přidané pomocí kroků v tomto dokumentu jsou globálně dostupné v Hivu – k jejich načtení není potřeba používat ADD JAR .

Jak to funguje

Při vytváření clusteru můžete pomocí akce skriptu upravit uzly clusteru při jejich vytváření. Skript v tomto dokumentu přijímá jeden parametr, kterým je umístění knihoven. Toto umístění musí být v účtu služby Azure Storage a knihovny musí být uložené jako soubory JAR.

Během vytváření clusteru skript vytvoří výčet souborů, zkopíruje je do /usr/lib/customhivelibs/ adresáře na hlavním a pracovním uzlu a pak je přidá do hive.aux.jars.path vlastnosti v core-site.xml souboru. V clusterech založených na Linuxu hive-env.sh také aktualizuje soubor umístěním souborů.

Pomocí akce skriptu v tomto článku zpřístupníte knihovny při použití klienta Hive pro WebHCat a HiveServer2.

Skript

Umístění skriptu

https://hdiconfigactions.blob.core.windows.net/setupcustomhivelibsv01/setup-customhivelibs-v01.ps1

Požadavky

Skripty se musí použít na hlavní ipracovní uzly.
Soubory JAR, které chcete nainstalovat, musí být uložené v Azure Blob Storage v jednom kontejneru.
Účet úložiště obsahující knihovnu souborů JAR musí být při vytváření propojený s clusterem HDInsight. Musí to být buď výchozí účet úložiště, nebo účet přidaný prostřednictvím nastavení účtu úložiště.
Cesta WASB ke kontejneru musí být zadána jako parametr akce skriptu. Pokud jsou například soubory JAR uložené v kontejneru s názvem libs v účtu úložiště mystorage, parametr by byl wasbs://libs@mystorage.blob.core.windows.net/.

Poznámka

Tento dokument předpokládá, že jste už vytvořili účet úložiště a kontejner objektů blob a nahráli do něj soubory.

Pokud jste účet úložiště nevytvořili, můžete to udělat prostřednictvím Azure Portal. Potom můžete pomocí nástroje, jako je Průzkumník služby Azure Storage, vytvořit kontejner v účtu a nahrát do něj soubory.

Vytvoření clusteru pomocí skriptu

Zahajte zřizování clusteru pomocí kroků v tématu Zřízení clusterů HDInsight v Linuxu, ale zřizování nedokončíte. K vytvoření clusteru pomocí tohoto skriptu můžete použít také Azure PowerShell nebo sadu HDInsight .NET SDK. Další informace o používání těchto metod najdete v tématu Přizpůsobení clusterů HDInsight pomocí akcí skriptů. Pro Azure Portal na kartě Konfigurace a ceny vyberte akci + Přidat skript.
Pokud se účet úložiště obsahující knihovnu souborů JAR bude lišit od účtu použitého pro cluster, vyplňte další účty úložiště.

V části Akce skriptu zadejte následující informace:

Vlastnost	Hodnota
Typ skriptu	-Vlastní
Name	Knihovny
Identifikátor URI skriptu Bash	`https://hdiconfigactions.blob.core.windows.net/linuxsetupcustomhivelibsv01/setup-customhivelibs-v01.sh`
Typy uzlů	Vedoucí, pracovník
Parametry	Zadejte adresu WASB kontejneru a účtu úložiště, který obsahuje soubory JAR. Například, `wasbs://libs@mystorage.blob.core.windows.net/`.

Poznámka

Pro Apache Spark 2.1 použijte tento identifikátor URI skriptu Bash: https://hdiconfigactions.blob.core.windows.net/linuxsetupcustomhivelibsv01/setup-customhivelibs-v00.sh.

Pokračujte ve zřizování clusteru, jak je popsáno v tématu Zřízení clusterů HDInsight v Linuxu.

Po dokončení vytváření clusteru můžete používat soubory JAR přidané prostřednictvím tohoto skriptu z Hivu, aniž byste museli použít ADD JAR příkaz.

Další kroky

Další informace o práci s Hivem najdete v tématu Použití Apache Hivu se službou HDInsight.

Sdílet prostřednictvím