Använda MapReduce med Apache Hadoop i HDInsight med SSH

Lär dig hur du skickar MapReduce-jobb från en SSH-anslutning (Secure Shell) till HDInsight.

Anmärkning

Om du redan är bekant med att använda Linux-baserade Apache Hadoop-servrar, men du är nybörjare på HDInsight, kan du läsa Linux-baserade HDInsight-tips.

Förutsättningar

Ett Apache Hadoop-kluster i HDInsight. Se Skapa Apache Hadoop-kluster med hjälp av Azure Portal.

Använda Hadoop-kommandon

Använd ssh-kommandot för att ansluta till klustret. Redigera kommandot nedan genom att ersätta CLUSTERNAME med namnet på klustret och ange sedan kommandot:
```
ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
```
När du är ansluten till HDInsight-klustret använder du följande kommando för att starta ett MapReduce-jobb:
```
yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
```
Det här kommandot startar wordcount klassen, som finns i hadoop-mapreduce-examples.jar filen. Det använder /example/data/gutenberg/davinci.txt-dokumentet som indata, och utdata lagras på /example/data/WordCountOutput.

Anmärkning

Mer information om det här MapReduce-jobbet och exempeldata finns i Använda MapReduce i Apache Hadoop på HDInsight.

Jobbet genererar information när det bearbetas och returnerar information som liknar följande text när jobbet är klart:
```
File Input Format Counters
Bytes Read=1395666
File Output Format Counters
Bytes Written=337623
```
När jobbet är klart använder du följande kommando för att visa utdatafilerna:
```
hdfs dfs -ls /example/data/WordCountOutput
```
Det här kommandot visar två filer _SUCCESS och part-r-00000. Filen part-r-00000 innehåller utdata för det här jobbet.

Anmärkning

Vissa MapReduce-jobb kan dela upp resultaten i flera del-r-##### filer. I så fall använder du suffixet ##### för att ange filernas ordning.
Om du vill visa utdata använder du följande kommando:
```
hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
```
Det här kommandot visar en lista över de ord som finns i filen wasbs://example/data/gutenberg/davinci.txt och antalet gånger varje ord har inträffat. Följande text är ett exempel på data som finns i filen:
```
wreathed        3
wreathing       1
wreaths         1
wrecked         3
wrenching       1
wretched        6
wriggling       1
```

Nästa steg

Som du ser är Hadoop-kommandon ett enkelt sätt att köra MapReduce-jobb i ett HDInsight-kluster och sedan visa jobbutdata. För information om andra sätt att arbeta med Hadoop på HDInsight:

Feedback

Var den här sidan till hjälp?

Last updated on 2025-04-08