Megosztás a következőn keresztül:


A MapReduce és az Apache Hadoop használata HDInsighton SSH-val

Megtudhatja, hogyan küldheti el a MapReduce-feladatokat egy Secure Shell- (SSH-) kapcsolatról a HDInsightba.

Megjegyzés

Ha már ismeri a Linux-alapú Apache Hadoop-kiszolgálók használatát, de még nem ismeri a HDInsightot, tekintse meg a Linux-alapú HDInsight-tippeket.

Előfeltételek

Egy Apache Hadoop-fürt a HDInsighton. Lásd: Apache Hadoop-fürtök létrehozása a Azure Portal használatával.

Hadoop-parancsok használata

  1. A fürthöz való csatlakozáshoz használja az ssh-parancsot . Szerkessze az alábbi parancsot úgy, hogy lecseréli a CLUSTERNAME nevet a fürt nevére, majd írja be a parancsot:

    ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
    
  2. Miután csatlakozott a HDInsight-fürthöz, az alábbi paranccsal indítsa el a MapReduce-feladatot:

    yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
    

    Ez a parancs elindítja a wordcount fájlban található osztályt hadoop-mapreduce-examples.jar . A dokumentumot /example/data/gutenberg/davinci.txt használja bemenetként, a kimenet pedig a következő helyen /example/data/WordCountOutputvan tárolva: .

    Megjegyzés

    Erről a MapReduce-feladatról és a példaadatokról további információt a MapReduce használata a HDInsight-alapú Apache Hadoopban című témakörben talál.

    A feladat a folyamat során adatokat bocsát ki, és a feladat befejezésekor az alábbi szöveghez hasonló információkat ad vissza:

    File Input Format Counters
    Bytes Read=1395666
    File Output Format Counters
    Bytes Written=337623
    
  3. A feladat befejezésekor a következő paranccsal listázhatja a kimeneti fájlokat:

    hdfs dfs -ls /example/data/WordCountOutput
    

    Ez a parancs két fájlt jelenít meg, _SUCCESS és part-r-00000a fájlt. A part-r-00000 fájl tartalmazza a feladat kimenetét.

    Megjegyzés

    Egyes MapReduce-feladatok több rész-r-##### fájlra oszthatják fel az eredményeket. Ha igen, használja a ##### utótagot a fájlok sorrendjének jelzéséhez.

  4. A kimenet megtekintéséhez használja a következő parancsot:

    hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
    

    Ez a parancs megjeleníti a wasbs://example/data/gutenberg/davinci.txt fájlban található szavak listáját, valamint az egyes szavak előfordulásának számát. Az alábbi szöveg egy példa a fájlban található adatokra:

    wreathed        3
    wreathing       1
    wreaths         1
    wrecked         3
    wrenching       1
    wretched        6
    wriggling       1
    

Következő lépések

Mint látható, a Hadoop-parancsok egyszerű módot kínálnak a MapReduce-feladatok HDInsight-fürtön való futtatására, majd a feladat kimenetének megtekintésére. További információk a Hadoop hdInsighton való használatával kapcsolatos egyéb módokról: