MapReduce gebruiken met Apache Hadoop in HDInsight met SSH
Meer informatie over het verzenden van MapReduce-taken vanuit een SSH-verbinding (Secure Shell) naar HDInsight.
Notitie
Als u al bekend bent met het gebruik van Apache Hadoop-servers op basis van Linux, maar nog niet bekend bent met HDInsight, raadpleegt u Op Linux gebaseerde HDInsight-tips.
Vereisten
Een Apache Hadoop-cluster in HDInsight. Zie Apache Hadoop-clusters maken met behulp van Azure Portal.
Hadoop-opdrachten gebruiken
Gebruik de ssh-opdracht om verbinding te maken met uw cluster. Bewerk de onderstaande opdracht door CLUSTERNAME te vervangen door de naam van uw cluster. Voer vervolgens deze opdracht in:
ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
Nadat u verbinding hebt gemaakt met het HDInsight-cluster, gebruikt u de volgende opdracht om een MapReduce-taak te starten:
yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
Met deze opdracht wordt de
wordcount
klasse gestart, die zich in hethadoop-mapreduce-examples.jar
bestand bevindt. Het document wordt/example/data/gutenberg/davinci.txt
als invoer gebruikt en de uitvoer wordt opgeslagen op/example/data/WordCountOutput
.Notitie
Zie MapReduce gebruiken in Apache Hadoop in HDInsight voor meer informatie over deze MapReduce-taak en de voorbeeldgegevens.
De taak verzendt details terwijl deze wordt verwerkt en retourneert informatie die vergelijkbaar is met de volgende tekst wanneer de taak is voltooid:
File Input Format Counters Bytes Read=1395666 File Output Format Counters Bytes Written=337623
Wanneer de taak is voltooid, gebruikt u de volgende opdracht om de uitvoerbestanden weer te geven:
hdfs dfs -ls /example/data/WordCountOutput
Met deze opdracht worden twee bestanden weergegeven,
_SUCCESS
enpart-r-00000
. Hetpart-r-00000
bestand bevat de uitvoer voor deze taak.Notitie
Sommige MapReduce-taken kunnen de resultaten splitsen over meerdere deel-r-###### bestanden. Als dat het zo is, gebruikt u het achtervoegsel ### om de volgorde van de bestanden aan te geven.
Gebruik de volgende opdracht om de uitvoer weer te geven:
hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
Met deze opdracht wordt een lijst weergegeven met de woorden die zijn opgenomen in het wasbs://example/data/gutenberg/davinci.txt-bestand en het aantal keren dat elk woord voorkwam. De volgende tekst is een voorbeeld van de gegevens in het bestand:
wreathed 3 wreathing 1 wreaths 1 wrecked 3 wrenching 1 wretched 6 wriggling 1
Volgende stappen
Zoals u ziet, bieden Hadoop-opdrachten een eenvoudige manier om MapReduce-taken uit te voeren in een HDInsight-cluster en vervolgens de taakuitvoer weer te geven. Voor informatie over andere manieren waarop u met Hadoop in HDInsight kunt werken: