A MapReduce és az Apache Hadoop használata HDInsighton SSH-val

Cikk
09/27/2023

Megtudhatja, hogyan küldheti el a MapReduce-feladatokat egy Secure Shell- (SSH-) kapcsolatról a HDInsightba.

Megjegyzés

Ha már ismeri a Linux-alapú Apache Hadoop-kiszolgálók használatát, de még nem ismeri a HDInsightot, tekintse meg a Linux-alapú HDInsight-tippeket.

Előfeltételek

Egy Apache Hadoop-fürt a HDInsighton. Lásd: Apache Hadoop-fürtök létrehozása a Azure Portal használatával.

Hadoop-parancsok használata

A fürthöz való csatlakozáshoz használja az ssh-parancsot . Szerkessze az alábbi parancsot úgy, hogy lecseréli a CLUSTERNAME nevet a fürt nevére, majd írja be a parancsot:
```
ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
```
Miután csatlakozott a HDInsight-fürthöz, az alábbi paranccsal indítsa el a MapReduce-feladatot:
```
yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
```
Ez a parancs elindítja a wordcount fájlban található osztályt hadoop-mapreduce-examples.jar . A dokumentumot /example/data/gutenberg/davinci.txt használja bemenetként, a kimenet pedig a következő helyen /example/data/WordCountOutputvan tárolva: .

Megjegyzés

Erről a MapReduce-feladatról és a példaadatokról további információt a MapReduce használata a HDInsight-alapú Apache Hadoopban című témakörben talál.

A feladat a folyamat során adatokat bocsát ki, és a feladat befejezésekor az alábbi szöveghez hasonló információkat ad vissza:
```
File Input Format Counters
Bytes Read=1395666
File Output Format Counters
Bytes Written=337623
```
A feladat befejezésekor a következő paranccsal listázhatja a kimeneti fájlokat:
```
hdfs dfs -ls /example/data/WordCountOutput
```
Ez a parancs két fájlt jelenít meg, _SUCCESS és part-r-00000a fájlt. A part-r-00000 fájl tartalmazza a feladat kimenetét.

Megjegyzés

Egyes MapReduce-feladatok több rész-r-##### fájlra oszthatják fel az eredményeket. Ha igen, használja a ##### utótagot a fájlok sorrendjének jelzéséhez.
A kimenet megtekintéséhez használja a következő parancsot:
```
hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
```
Ez a parancs megjeleníti a wasbs://example/data/gutenberg/davinci.txt fájlban található szavak listáját, valamint az egyes szavak előfordulásának számát. Az alábbi szöveg egy példa a fájlban található adatokra:
```
wreathed        3
wreathing       1
wreaths         1
wrecked         3
wrenching       1
wretched        6
wriggling       1
```

Következő lépések

Mint látható, a Hadoop-parancsok egyszerű módot kínálnak a MapReduce-feladatok HDInsight-fürtön való futtatására, majd a feladat kimenetének megtekintésére. További információk a Hadoop hdInsighton való használatával kapcsolatos egyéb módokról:

Megosztás a következőn keresztül:

A MapReduce és az Apache Hadoop használata HDInsighton SSH-val

Előfeltételek

Hadoop-parancsok használata

Következő lépések

Visszajelzés

Visszajelzés

További források