Använda MapReduce med Apache Hadoop i HDInsight med SSH

Lär dig hur du skickar MapReduce-jobb från en SSH-anslutning (Secure Shell) till HDInsight.

Anteckning

Om du redan är bekant med att använda Linux-baserade Apache Hadoop-servrar, men du är nybörjare på HDInsight, kan du läsa Linux-baserade HDInsight-tips.

Förutsättningar

Ett Apache Hadoop-kluster i HDInsight. Se Skapa Apache Hadoop-kluster med hjälp av Azure Portal.

Använda Hadoop-kommandon

  1. Använd ssh-kommandot för att ansluta till klustret. Redigera kommandot nedan genom att ersätta CLUSTERNAME med namnet på klustret och ange sedan kommandot:

    ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
    
  2. När du är ansluten till HDInsight-klustret använder du följande kommando för att starta ett MapReduce-jobb:

    yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
    

    Det här kommandot startar wordcount klassen, som finns i hadoop-mapreduce-examples.jar filen. Dokumentet används /example/data/gutenberg/davinci.txt som indata och utdata lagras på /example/data/WordCountOutput.

    Anteckning

    Mer information om det här MapReduce-jobbet och exempeldata finns i Använda MapReduce i Apache Hadoop på HDInsight.

    Jobbet genererar information när det bearbetas och returnerar information som liknar följande text när jobbet slutförs:

    File Input Format Counters
    Bytes Read=1395666
    File Output Format Counters
    Bytes Written=337623
    
  3. När jobbet är klart använder du följande kommando för att visa utdatafilerna:

    hdfs dfs -ls /example/data/WordCountOutput
    

    Det här kommandot visar två filer och _SUCCESSpart-r-00000. Filen part-r-00000 innehåller utdata för det här jobbet.

    Anteckning

    Vissa MapReduce-jobb kan dela upp resultaten mellan flera del-r-######- filer. I så fall använder du suffixet ##### för att ange ordningen på filerna.

  4. Om du vill visa utdata använder du följande kommando:

    hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
    

    Det här kommandot visar en lista över de ord som finns i filen wasbs://example/data/gutenberg/davinci.txt och antalet gånger varje ord har inträffat. Följande text är ett exempel på de data som finns i filen:

    wreathed        3
    wreathing       1
    wreaths         1
    wrecked         3
    wrenching       1
    wretched        6
    wriggling       1
    

Nästa steg

Som du ser är Hadoop-kommandon ett enkelt sätt att köra MapReduce-jobb i ett HDInsight-kluster och sedan visa jobbutdata. Information om andra sätt att arbeta med Hadoop på HDInsight: