A MapReduce és az Apache Hadoop használata HDInsighton SSH-val
Megtudhatja, hogyan küldheti el a MapReduce-feladatokat egy Secure Shell- (SSH-) kapcsolatról a HDInsightba.
Megjegyzés
Ha már ismeri a Linux-alapú Apache Hadoop-kiszolgálók használatát, de még nem ismeri a HDInsightot, tekintse meg a Linux-alapú HDInsight-tippeket.
Előfeltételek
Egy Apache Hadoop-fürt a HDInsighton. Lásd: Apache Hadoop-fürtök létrehozása a Azure Portal használatával.
Hadoop-parancsok használata
A fürthöz való csatlakozáshoz használja az ssh-parancsot . Szerkessze az alábbi parancsot úgy, hogy lecseréli a CLUSTERNAME nevet a fürt nevére, majd írja be a parancsot:
ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
Miután csatlakozott a HDInsight-fürthöz, az alábbi paranccsal indítsa el a MapReduce-feladatot:
yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
Ez a parancs elindítja a
wordcount
fájlban található osztálythadoop-mapreduce-examples.jar
. A dokumentumot/example/data/gutenberg/davinci.txt
használja bemenetként, a kimenet pedig a következő helyen/example/data/WordCountOutput
van tárolva: .Megjegyzés
Erről a MapReduce-feladatról és a példaadatokról további információt a MapReduce használata a HDInsight-alapú Apache Hadoopban című témakörben talál.
A feladat a folyamat során adatokat bocsát ki, és a feladat befejezésekor az alábbi szöveghez hasonló információkat ad vissza:
File Input Format Counters Bytes Read=1395666 File Output Format Counters Bytes Written=337623
A feladat befejezésekor a következő paranccsal listázhatja a kimeneti fájlokat:
hdfs dfs -ls /example/data/WordCountOutput
Ez a parancs két fájlt jelenít meg,
_SUCCESS
éspart-r-00000
a fájlt. Apart-r-00000
fájl tartalmazza a feladat kimenetét.Megjegyzés
Egyes MapReduce-feladatok több rész-r-##### fájlra oszthatják fel az eredményeket. Ha igen, használja a ##### utótagot a fájlok sorrendjének jelzéséhez.
A kimenet megtekintéséhez használja a következő parancsot:
hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
Ez a parancs megjeleníti a wasbs://example/data/gutenberg/davinci.txt fájlban található szavak listáját, valamint az egyes szavak előfordulásának számát. Az alábbi szöveg egy példa a fájlban található adatokra:
wreathed 3 wreathing 1 wreaths 1 wrecked 3 wrenching 1 wretched 6 wriggling 1
Következő lépések
Mint látható, a Hadoop-parancsok egyszerű módot kínálnak a MapReduce-feladatok HDInsight-fürtön való futtatására, majd a feladat kimenetének megtekintésére. További információk a Hadoop hdInsighton való használatával kapcsolatos egyéb módokról:
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: