Rövid útmutató: Apache Hadoop-fürt létrehozása az Azure HDInsightban az Azure Portal használatával
Ebből a cikkből megtudhatja, hogyan hozhat létre Apache Hadoop-fürtöket a HDInsightban az Azure Portal használatával, majd hogyan futtathat Apache Hive-feladatokat a HDInsightban. A legtöbb Hadoop-feladat kötegelt feladat. Létrehoz fog hozni egy fürtöt, futtat néhány feladatot, majd törölni fogja a fürtöt. Ebben a cikkben mind a három feladatot elvégzi. Az elérhető konfigurációk részletes ismertetését a FÜRTÖK BEÁLLÍTÁSA a HDInsightban című témakörben talál. A portál fürtök létrehozására való használatával kapcsolatos további információkért lásd : Fürtök létrehozása a portálon.
Ebben a rövid útmutatóban egy HDInsight Hadoop-fürtöt hoz létre az Azure Portal használatával. Az Azure Resource Manager-sablonok használatával is létrehozhat fürtöket.
A HDInsight jelenleg hét különböző fürttípussal rendelkezik. Minden egyes fürttípus más és más összetevőket támogat. A Hive-ot minden fürttípus támogatja. A HDInsight támogatott összetevőinek listáját a HDInsight által biztosított Apache Hadoop-fürtverziók újdonságai című témakörben találja .
Ha még nincs Azure-előfizetése, kezdés előtt hozzon létre egy ingyenes fiókot.
Apache Hadoop-fürt létrehozása
Ebben a szakaszban egy Hadoop-fürtöt hozhat létre a HDInsightban az Azure Portal használatával.
Jelentkezzen be az Azure Portalra.
A felső menüsávból válassza az +Erőforrás létrehozása elemet.
Válassza az Analytics>Azure HDInsight lehetőséget a HDInsight-fürt létrehozása lapra való ugráshoz.
Az Alapok lapon adja meg a következő információkat:
Tulajdonság Leírás Előfizetés A legördülő listában válassza ki a fürthöz használt Azure-előfizetést. Erőforráscsoport A legördülő listából válassza ki a meglévő erőforráscsoportot, vagy válassza az Új létrehozása lehetőséget. Fürt neve Adjon meg egy globálisan egyedi nevet. A név legfeljebb 59 karakterből állhat, beleértve a betűket, számokat és kötőjeleket. A név első és utolsó karaktere nem lehet kötőjel. Régió A legördülő listában válassza ki azt a régiót, ahol a fürt létrejön. A legjobb teljesítmény érdekében válassza az Önhöz legközelebb eső helyet. Fürt típusa Válassza a Fürttípus kiválasztása lehetőséget. Ezután válassza a Hadoopot fürttípusként. Verzió A legördülő listában válasszon ki egy verziót. Használja az alapértelmezett verziót, ha nem tudja, mit válasszon. Fürt bejelentkezési felhasználóneve és jelszava Az alapértelmezett bejelentkezési név a rendszergazda. A jelszónak legalább 10 karakter hosszúságúnak kell lennie, és tartalmaznia kell legalább egy számjegyet, egy nagybetűt és egy kisbetűt, egy nemnalfanumerikus karaktert (a karakterek ' ` "
kivételével). Győződjön meg arról, hogy nem ad meg olyan gyakori jelszavakat, mint a "Pass@word1".Secure Shell- (SSH-) felhasználónév Az alapértelmezett felhasználónév a következő sshuser
: . SSH-felhasználónévként más nevet is megadhat.Fürt bejelentkezési jelszavának használata SSH-hoz Jelölje be ezt a jelölőnégyzetet, ha ugyanazt a jelszót szeretné használni az SSH-felhasználóhoz, mint amelyet a fürt bejelentkezési felhasználójához megadott. Válassza a Tovább: Tárterület >> lehetőséget a tárolási beállításokhoz való továbblépéséhez.
A Storage lapon adja meg a következő értékeket:
Tulajdonság Leírás Elsődleges tároló típusa Használja az alapértelmezett Azure Storage-értéket. Kiválasztási módszer Használja az alapértelmezett kiválasztási értéket a listából. Az elsődleges tárfiók A legördülő listában válasszon ki egy meglévő tárfiókot, vagy válassza az Új létrehozása lehetőséget. Ha új fiókot hoz létre, a névnek 3 és 24 karakter közötti hosszúságúnak kell lennie, és csak számokat és kisbetűket tartalmazhat Tároló Használja az automatikusan feltöltött értéket. Minden fürt rendelkezik Azure Storage-fiókkal vagy függőségsel
Azure Data Lake Storage Gen2
. Ez az alapértelmezett tárfiók. A HDInsight-fürtöt és alapértelmezett tárfiókját ugyanabban az Azure-régióban kell áthelyezni. A fürtök törlése nem törli a tárfiókot.Válassza a Véleményezés + létrehozás lapot.
A Véleményezés + létrehozás lapon ellenőrizze a korábbi lépésekben kiválasztott értékeket.
Válassza a Létrehozás lehetőséget. Egy fürt létrehozása nagyjából 20 percet vesz igénybe.
A fürt létrehozása után megjelenik a fürt áttekintési oldala az Azure Portalon.
Apache Hive-lekérdezések futtatása
Az Apache Hive a HDInsight legnépszerűbb összetevője. Számos módon futtathat Hive-feladatokat a HDInsightban. Ebben a rövid útmutatóban a portál Ambari Hive nézetét használja. A Hive-feladatok egyéb küldési módjaiért lásd: Use Hive in HDInsight (A Hive használata a HDInsightban).
Feljegyzés
Az Apache Hive View nem érhető el a HDInsight 4.0-ban.
Az Ambari megnyitásához az előző képernyőkép szerint válassza a Fürt irányítópultja elemet. Azt is megadhatja, hogy
https://ClusterName.azurehdinsight.net
holClusterName
található az előző szakaszban létrehozott fürt.Adja meg a fürt létrehozásakor megadott Hadoop-felhasználónevet és -jelszót. Az alapértelmezett felhasználónév a következő
admin
: .Nyissa meg a Hive View nézetet az alábbi képernyőfelvételen látható módon:
A QUERY (Lekérdezés) lapon másolja be a következő HiveQL-kifejezést a munkalapra:
SHOW TABLES;
Válassza a Végrehajtás lehetőséget. A QUERY (Lekérdezés) lap alatt megjelenik a RESULTS (Eredmények) lap, amelyen a feladat információi láthatók.
Ha a lekérdezés befejeződött, a LEKÉRDEZÉS lap megjeleníti a művelet eredményeit. Látni fog egy hivesampletable nevű táblát. Ezzel a Hive mintatáblával az összes HDInsight-fürt rendelkezik.
Ismételje meg a 4. és az 5. lépést az alábbi lekérdezés futtatásához:
SELECT * FROM hivesampletable;
A lekérdezés eredményeit mentheti is. Válassza a jobb oldalon lévő menügombot, és adja meg, hogy letölti az eredményeket CSV-fájlként, vagy a fürthöz társított tárfiókban szeretné tárolni őket.
Miután végzett egy Hive-feladattal, exportálhatja az eredményeket az Azure SQL Database-be vagy az SQL Server-adatbázisba, az eredményeket az Excel használatával is megjelenítheti. További információ a Hive HDInsightban való használatáról: Apache Hive és HiveQL használata az Apache Hadooptal a HDInsightban egy Apache Log4j-mintafájl elemzéséhez.
Az erőforrások eltávolítása
A rövid útmutató elvégzése után érdemes lehet törölni a fürtöt. A HDInsight használatával az adatok az Azure Storage-ban lesznek tárolva, így biztonságosan törölheti a fürtöt, ha nincs használatban. A HDInsight-fürtökért is díjat számítunk fel, még akkor is, ha nincs használatban. Mivel a fürt díjai sokszor nagyobbak, mint a tárolási díjak, érdemes törölni a fürtöket, ha nincsenek használatban.
Feljegyzés
Ha azonnal továbblép a következő cikkre, amelyből megtudhatja, hogyan futtathat ETL-műveleteket a Hadoop on HDInsight használatával, érdemes lehet a fürtöt futtatni. Ennek az az oka, hogy az oktatóanyagban újra létre kell hoznia egy Hadoop-fürtöt. Ha azonban nem halad át azonnal a következő cikkben, akkor most törölnie kell a fürtöt.
A fürt és/vagy az alapértelmezett tárfiók törlése
Térjen vissza ahhoz a böngészőlaphoz, amelyen meg van nyitva az Azure Portal. A portálon a fürt áttekintési lapja lesz látható. Ha csak a fürtöt szeretné törölni, de meg szeretné tartani az alapértelmezett tárfiókot, válassza a Törlés lehetőséget.
Ha törölni szeretné a fürtöt és az alapértelmezett tárfiókot, válassza ki az erőforráscsoport nevét (az előző képernyőképen kiemelve) az erőforráscsoport lapjának megnyitásához.
Válassza az Erőforráscsoport törlése lehetőséget a fürtöt és az alapértelmezett tárfiókot tartalmazó erőforráscsoport törléséhez. Vegye figyelembe, hogy az erőforráscsoport törlése a tárfiókot is törli. Ha szeretné megtartani a tárfiókot, csak a fürtöt törölje.
Következő lépések
Ebben a rövid útmutatóban megtanulta, hogyan hozhat létre Linux-alapú HDInsight-fürtöt Resource Manager-sablonnal, és hogyan hajthat végre alapszintű Hive-lekérdezéseket. A következő cikkben megtudhatja, hogyan végezheti el az adatok kinyerési, átalakítási és betöltési (ETL) műveleteit a Hadoop használatával a HDInsighton.