Rövid útmutató: Apache Spark-fürt létrehozása az Azure HDInsightban az Azure Portal használatával

Cikk
11/25/2024

Ebben a rövid útmutatóban az Azure Portal használatával hozhat létre Apache Spark-fürtöt az Azure HDInsightban. Ezután létre kell hoznia egy Jupyter-jegyzetfüzetet, és használatával Spark SQL-lekérdezéseket futtathat Apache Hive-táblákon. Az Azure HDInsight egy felügyelt, teljes körű, nyílt forráskódú elemzési szolgáltatás vállalatok részére. A HDInsighthoz készült Apache Spark-keretrendszer lehetővé teszi a gyors adatelemzést és a fürt-számítástechnikát memóriabeli feldolgozással. A Jupyter Notebook lehetővé teszi az adatokkal való interakciót, a kód markdown szöveggel való kombinálását és egyszerű vizualizációk használatát.

Az elérhető konfigurációk részletes ismertetését a FÜRTÖK BEÁLLÍTÁSA a HDInsightban című témakörben talál. A portál fürtök létrehozására való használatával kapcsolatos további információkért lásd : Fürtök létrehozása a portálon.

Ha több fürtöt használ együtt, érdemes lehet létrehozni egy virtuális hálózatot; Ha Spark-fürtöt használ, érdemes lehet a Hive Warehouse Csatlakozás ort is használni. További információ: Az Azure HDInsight virtuális hálózatának megtervezése, valamint az Apache Spark és az Apache Hive integrálása a Hive Warehouse Csatlakozás or használatával.

Fontos

A HDInsight-fürtök számlázása percenként történik, akár használja őket, akár nem. Mindig törölje a fürtöt, ha már nem használja. További információkért lásd a cikk Az erőforrások eltávolítása című szakaszát.

Előfeltételek

Egy Azure-fiók, aktív előfizetéssel. Fiók ingyenes létrehozása.

Apache Spark-fürt létrehozása a HDInsightban

Az Azure Portal használatával olyan HDInsight-fürtöt hozhat létre, amely az Azure Storage-blobokat használja fürttárolóként. A 2. generációs Data Lake Storage használatáról a fürtök HDInsightban történő beállításáról szóló rövid útmutatóban talál további információt.

Jelentkezzen be az Azure Portalra.
A felső menüsávból válassza az +Erőforrás létrehozása elemet.
Válassza az Analytics>Azure HDInsight lehetőséget a HDInsight-fürt létrehozása lapra való ugráshoz.

Az Alapok lapon adja meg a következő információkat:

Tulajdonság	Leírás
Előfizetés	A legördülő listában válassza ki a fürthöz használt Azure-előfizetést.
Erőforráscsoport	A legördülő listából válassza ki a meglévő erőforráscsoportot, vagy válassza az Új létrehozása lehetőséget.
Fürt neve	Adjon meg egy globálisan egyedi nevet.
Régió	A legördülő listában válassza ki azt a régiót, ahol a fürt létrejön.
A rendelkezésre állási zóna	Nem kötelező – adjon meg egy rendelkezésre állási zónát, amelyben üzembe kívánja helyezni a fürtöt
Fürt típusa	A lista megnyitásához válassza ki a fürttípust. A listából válassza a Sparkot.
Fürt verziója	Ez a mező automatikusan kitölti az alapértelmezett verziót a fürttípus kiválasztása után.
Fürt bejelentkezési felhasználóneve	Adja meg a fürt bejelentkezési felhasználónevét. Az alapértelmezett név a rendszergazda. Ezzel a fiókkal jelentkezhet be a Jupyter Notebookba a rövid útmutató későbbi részében.
Fürt bejelentkezési jelszava	Adja meg a fürt bejelentkezési jelszavát.
Secure Shell- (SSH-) felhasználónév	Adja meg az SSH-felhasználónevet. A rövid útmutatóhoz használt SSH-felhasználónév: sshuser. Alapértelmezés szerint ennek a fióknak ugyanaz a jelszava, mint a fürt bejelentkezési felhasználónevéhez tartozó fióknak.

Screenshot shows Create HDInsight cluster with the Basics tab selected.

Válassza a Tovább elemet: A Tárterület lapra való folytatáshoz válassza a Következő >> lehetőséget.

A Storage területen adja meg a következő értékeket:

Tulajdonság	Leírás
Elsődleges tároló típusa	Használja az alapértelmezett Azure Storage-értéket.
Kiválasztási módszer	Használja az alapértelmezett kiválasztási értéket a listából.
Az elsődleges tárfiók	Használja az automatikusan kitöltött értéket.
Tároló	Használja az automatikusan kitöltött értéket.

Screenshot shows Create HDInsight cluster with the Storage tab selected.

A folytatáshoz válassza a Véleményezés + létrehozás lehetőséget .

A Véleményezés + létrehozás csoportban válassza a Létrehozás lehetőséget. A fürt létrehozása nagyjából 20 percet vesz igénybe. A következő munkamenetre csak a fürt létrehozását követően lehet továbblépni.

Ha HDInsight-fürtök létrehozásával kapcsolatos problémába ütközik, előfordulhat, hogy nem rendelkezik a megfelelő engedélyekkel. További információért tekintse meg a hozzáférés-vezérlésre vonatkozó követelményeket.

Jupyter-notebook létrehozása

A Jupyter Notebook egy interaktív notebook-környezet, amely számos programozási nyelvet támogat. A notebook lehetővé teszi az adatai használatát, a kódok és markdown-szövegek egyesítését, valamint egyszerű vizualizációk elvégzését.

Egy webböngészőben keresse meg https://CLUSTERNAME.azurehdinsight.net/jupyterCLUSTERNAME a fürt nevét. Ha a rendszer kéri, adja meg a fürthöz tartozó bejelentkezési hitelesítő adatokat.
Új notebook létrehozásához válassza a New>PySpark (Új > PySpark) lehetőséget.

Az új notebook létrejött, és Untitled(Untitled.pynb) néven nyílt meg.

Apache Spark SQL-utasítások futtatása

Az SQL az adatok lekérdezéséhez és meghatározásához leggyakrabban és legszélesebb körben használt nyelv. A Spark SQL az Apache Spark bővítményeként működik a strukturált adatok ismerős SQL-szintaxissal való feldolgozásához.

Ellenőrizze, hogy a kernel készen áll-e. A kernel akkor áll készen, ha a neve mellett a notebookban egy üres kör látható. A teli kör azt jelenti, hogy a kernel foglalt.

A notebook első indításakor a kernel a háttérben elvégez néhány feladatot. Várja meg, hogy a kernel elkészüljön.
Illessze be a következő kódot egy üres cellába, majd nyomja le a SHIFT + ENTER billentyűkombinációt annak futtatásához. A parancs felsorolja a fürtön található Hive-táblákat:
```
%%sql
SHOW TABLES
```
Ha Jupyter-jegyzetfüzetet használ a HDInsight-fürttel, kap egy előre beállított beállítást sqlContext , amellyel Hive-lekérdezéseket futtathat a Spark SQL használatával. A %%sql megadja a Jupyter notebook számára, hogy az előre beállított sqlContext elemet használja a Hive-lekérdezés futtatásához. A lekérdezés lekérdezi az első 10 sort egy Hive-táblából (hivesampletable), amely alapértelmezés szerint minden HDInsight-fürtben megtalálható. Az eredmények lekérdezése körülbelül 30 másodpercet vesz igénybe. A kimenet a következőképpen fog kinézni:

rövid útmutató." border="true":::

Minden alkalommal, amikor a Jupyterben lekérdezést futtat, a webböngésző ablakának címsorában (Foglalt) állapot jelenik meg a notebook neve mellett. A jobb felső sarokban lévő PySpark felirat mellett ekkor egy teli kör is megjelenik.
Futtasson egy másik lekérdezést a hivesampletable adatainak megtekintéséhez.
```
%%sql
SELECT * FROM hivesampletable LIMIT 10
```
A képernyő frissül, és megjeleníti a lekérdezés kimenetét.

Insight" border="true":::
A notebook File (Fájl) menüjében kattintson a Close and Halt (Bezárás és leállítás) elemre. A notebook leállítása felszabadítja a fürt erőforrásait.

Az erőforrások eltávolítása

A HDInsight az Azure Storage-ban vagy az Azure Data Lake Storage-ban menti az adatokat, így biztonságosan törölheti a fürtöket, ha nincsenek használatban. A HDInsight-fürtökért is díjat számítunk fel, még akkor is, ha nincs használatban. Mivel a fürt díjai sokszor nagyobbak, mint a tárolási díjak, érdemes törölni a fürtöket, ha nincsenek használatban. Ha azt tervezi, hogy rögtön elvégzi a További lépések szakaszban található oktatóanyagot is, akkor érdemes lehet megtartani a fürtöt.

Lépjen vissza az Azure Portalra és válassza a Törlés lehetőséget.

Azure portal delete an HDInsight cluster. sight cluster" border="true":::

Az erőforráscsoport nevét kiválasztva is megnyílik az erőforráscsoport oldala, ahol kiválaszthatja az Erőforráscsoport törlése elemet. Az erőforráscsoport törlésével törli a HDInsight-fürtöt és az alapértelmezett tárfiókot is.

Következő lépések

Ebben a rövid útmutatóban megtanulta, hogyan hozhat létre Apache Spark-fürtöt a HDInsightban, és hogyan futtathat egy alapszintű Spark SQL-lekérdezést. Folytassa a következő oktatóanyagkal, amelyből megtudhatja, hogyan futtathat interaktív lekérdezéseket a mintaadatokon a HDInsight-fürtök használatával.

Interaktív lekérdezések futtatása az Apache Sparkban

Megosztás a következőn keresztül: