Megosztás a következőn keresztül:


Rövid útmutató: Apache Hadoop-fürt létrehozása az Azure HDInsightban az Azure Portal használatával

Ebből a cikkből megtudhatja, hogyan hozhat létre Apache Hadoop-fürtöket a HDInsightban az Azure Portal használatával, majd hogyan futtathat Apache Hive-feladatokat a HDInsightban. A legtöbb Hadoop-feladat kötegelt feladat. Létrehoz fog hozni egy fürtöt, futtat néhány feladatot, majd törölni fogja a fürtöt. Ebben a cikkben mind a három feladatot elvégzi. Az elérhető konfigurációk részletes ismertetését a FÜRTÖK BEÁLLÍTÁSA a HDInsightban című témakörben talál. A portál fürtök létrehozására való használatával kapcsolatos további információkért lásd : Fürtök létrehozása a portálon.

Ebben a rövid útmutatóban egy HDInsight Hadoop-fürtöt hoz létre az Azure Portal használatával. Az Azure Resource Manager-sablonok használatával is létrehozhat fürtöket.

A HDInsight jelenleg hét különböző fürttípussal rendelkezik. Minden egyes fürttípus más és más összetevőket támogat. A Hive-ot minden fürttípus támogatja. A HDInsight támogatott összetevőinek listáját a HDInsight által biztosított Apache Hadoop-fürtverziók újdonságai című témakörben találja .

Ha még nincs Azure-előfizetése, kezdés előtt hozzon létre egy ingyenes fiókot.

Apache Hadoop-fürt létrehozása

Ebben a szakaszban egy Hadoop-fürtöt hozhat létre a HDInsightban az Azure Portal használatával.

  1. Jelentkezzen be az Azure Portalra.

  2. A felső menüsávból válassza az +Erőforrás létrehozása elemet.

    Create a resource HDInsight cluster.

  3. Válassza az Analytics>Azure HDInsight lehetőséget a HDInsight-fürt létrehozása lapra való ugráshoz.

  4. Az Alapok lapon adja meg a következő információkat:

    Tulajdonság Leírás
    Előfizetés A legördülő listában válassza ki a fürthöz használt Azure-előfizetést.
    Erőforráscsoport A legördülő listából válassza ki a meglévő erőforráscsoportot, vagy válassza az Új létrehozása lehetőséget.
    Fürt neve Adjon meg egy globálisan egyedi nevet. A név legfeljebb 59 karakterből állhat, beleértve a betűket, számokat és kötőjeleket. A név első és utolsó karaktere nem lehet kötőjel.
    Régió A legördülő listában válassza ki azt a régiót, ahol a fürt létrejön. A legjobb teljesítmény érdekében válassza az Önhöz legközelebb eső helyet.
    Fürt típusa Válassza a Fürttípus kiválasztása lehetőséget. Ezután válassza a Hadoopot fürttípusként.
    Verzió A legördülő listában válasszon ki egy verziót. Használja az alapértelmezett verziót, ha nem tudja, mit válasszon.
    A fürt bejelentkezési felhasználóneve és jelszava Az alapértelmezett bejelentkezési név a rendszergazda. A jelszónak legalább 10 karakter hosszúságúnak kell lennie, és tartalmaznia kell legalább egy számjegyet, egy nagybetűt és egy kisbetűt, egy nem alfanumerikus karaktert (a karakterek ' ` "kivételével). Győződjön meg arról, hogy nem ad meg olyan gyakori jelszavakat, mint a "Pass@word1".
    Secure Shell- (SSH-) felhasználónév Az alapértelmezett felhasználónév a következő sshuser: . SSH-felhasználónévként más nevet is megadhat.
    Fürt bejelentkezési jelszavának használata SSH-hoz Jelölje be ezt a jelölőnégyzetet, ha ugyanazt a jelszót szeretné használni az SSH-felhasználó számára, mint amelyet a fürt bejelentkezési felhasználójának megadott.

    HDInsight Linux get started provide cluster basic values.

    Válassza a Tovább: Tárterület >> lehetőséget a tárolási beállításokhoz való továbblépéséhez.

  5. A Storage lapon adja meg a következő értékeket:

    Tulajdonság Leírás
    Elsődleges tároló típusa Használja az alapértelmezett Azure Storage-értéket.
    Kiválasztási módszer Használja az alapértelmezett kiválasztási értéket a listából.
    Az elsődleges tárfiók A legördülő listában válasszon ki egy meglévő tárfiókot, vagy válassza az Új létrehozása lehetőséget. Ha új fiókot hoz létre, a névnek 3 és 24 karakter közötti hosszúságúnak kell lennie, és csak számokat és kisbetűket tartalmazhat
    Tároló Használja az automatikusan feltöltött értéket.

    HDInsight Linux get started provide cluster storage values.

    Minden fürt rendelkezik Egy Azure Storage-fiókkal, egy Azure Data Lake Gen1-fiókkal vagy függőségselAzure Data Lake Storage Gen2. Ez az alapértelmezett tárfiók. A HDInsight-fürtöt és alapértelmezett tárfiókját ugyanabban az Azure-régióban kell áthelyezni. A fürtök törlése nem törli a tárfiókot.

    Válassza a Véleményezés + létrehozás lapot.

  6. A Véleményezés + létrehozás lapon ellenőrizze a korábbi lépésekben kiválasztott értékeket.

    Screenshot showing HDInsight Linux get started cluster summary.

  7. Válassza a Létrehozás lehetőséget. Egy fürt létrehozása nagyjából 20 percet vesz igénybe.

    A fürt létrehozása után megjelenik a fürt áttekintési oldala az Azure Portalon.

    Screenshot showing HDInsight Linux get started cluster settings.

Apache Hive-lekérdezések futtatása

Az Apache Hive a HDInsight legnépszerűbb összetevője. Számos módon futtathat Hive-feladatokat a HDInsightban. Ebben a rövid útmutatóban a portál Ambari Hive nézetét használja. A Hive-feladatok egyéb küldési módjaiért lásd: Use Hive in HDInsight (A Hive használata a HDInsightban).

Feljegyzés

Az Apache Hive View nem érhető el a HDInsight 4.0-ban.

  1. Az Ambari megnyitásához az előző képernyőkép szerint válassza a Fürt irányítópultja elemet. Azt is megadhatja, hogy https://ClusterName.azurehdinsight.net hol ClusterName található az előző szakaszban létrehozott fürt.

    Screenshot showing HDInsight Linux get started cluster dashboard.

  2. Adja meg a fürt létrehozásakor megadott Hadoop-felhasználónevet és -jelszót. Az alapértelmezett felhasználónév a következő admin: .

  3. Nyissa meg a Hive View nézetet az alábbi képernyőfelvételen látható módon:

    Selecting Hive View from Ambari.

  4. A QUERY (Lekérdezés) lapon másolja be a következő HiveQL-kifejezést a munkalapra:

    SHOW TABLES;
    

    HDInsight Hive View Query Editor.

  5. Válassza a Végrehajtás lehetőséget. A QUERY (Lekérdezés) lap alatt megjelenik a RESULTS (Eredmények) lap, amelyen a feladat információi láthatók.

    Ha a lekérdezés befejeződött, a LEKÉRDEZÉS lap megjeleníti a művelet eredményeit. Látni fog egy hivesampletable nevű táblát. Ezzel a Hive mintatáblával az összes HDInsight-fürt rendelkezik.

    HDInsight Apache Hive view results.

  6. Ismételje meg a 4. és az 5. lépést az alábbi lekérdezés futtatásához:

    SELECT * FROM hivesampletable;
    
  7. A lekérdezés eredményeit mentheti is. Válassza a jobb oldalon lévő menügombot, és adja meg, hogy letölti az eredményeket CSV-fájlként, vagy a fürthöz társított tárfiókban szeretné tárolni őket.

    Save result of Apache Hive query.

Miután végzett egy Hive-feladattal, exportálhatja az eredményeket az Azure SQL Database-be vagy az SQL Server-adatbázisba, az eredményeket az Excel használatával is megjelenítheti. További információ a Hive HDInsightban való használatáról: Apache Hive és HiveQL használata az Apache Hadooptal a HDInsightban egy Apache log4j-mintafájl elemzéséhez.

Az erőforrások eltávolítása

A rövid útmutató elvégzése után érdemes lehet törölni a fürtöt. A HDInsight használatával az adatok az Azure Storage-ban lesznek tárolva, így biztonságosan törölheti a fürtöt, ha nincs használatban. A HDInsight-fürtökért is díjat számítunk fel, még akkor is, ha nincs használatban. Mivel a fürt díjai sokszor nagyobbak, mint a tárolási díjak, érdemes törölni a fürtöket, ha nincsenek használatban.

Feljegyzés

Ha azonnal továbblép a következő cikkre, amelyből megtudhatja, hogyan futtathat ETL-műveleteket a Hadoop on HDInsight használatával, érdemes lehet a fürtöt futtatni. Ennek az az oka, hogy az oktatóanyagban újra létre kell hoznia egy Hadoop-fürtöt. Ha azonban nem halad át azonnal a következő cikkben, akkor most törölnie kell a fürtöt.

A fürt és/vagy az alapértelmezett tárfiók törlése

  1. Térjen vissza ahhoz a böngészőlaphoz, amelyen meg van nyitva az Azure Portal. A portálon a fürt áttekintési lapja lesz látható. Ha csak a fürtöt szeretné törölni, de meg szeretné tartani az alapértelmezett tárfiókot, válassza a Törlés lehetőséget.

    Azure HDInsight delete cluster.

  2. Ha a fürtöt és az alapértelmezett tárfiókot is törölni kívánja, válassza ki az erőforráscsoport nevét (amely az előző képernyőképen ki van emelve) az erőforráscsoport lapjának megnyitásához.

  3. Válassza az Erőforráscsoport törlése lehetőséget a fürtöt és az alapértelmezett tárfiókot tartalmazó erőforráscsoport törléséhez. Vegye figyelembe, hogy az erőforráscsoport törlése a tárfiókot is törli. Ha szeretné megtartani a tárfiókot, csak a fürtöt törölje.

Következő lépések

Ebben a rövid útmutatóban megtanulta, hogyan hozhat létre Linux-alapú HDInsight-fürtöt Resource Manager-sablonnal, és hogyan hajthat végre alapszintű Hive-lekérdezéseket. A következő cikkben megtudhatja, hogyan végezheti el az adatok kinyerési, átalakítási és betöltési (ETL) műveleteit a Hadoop használatával a HDInsighton.