Delen via


MapReduce gebruiken met Apache Hadoop in HDInsight met SSH

Meer informatie over het verzenden van MapReduce-taken vanuit een SSH-verbinding (Secure Shell) naar HDInsight.

Notitie

Als u al bekend bent met het gebruik van Apache Hadoop-servers op basis van Linux, maar nog niet bekend bent met HDInsight, raadpleegt u Op Linux gebaseerde HDInsight-tips.

Vereisten

Een Apache Hadoop-cluster in HDInsight. Zie Apache Hadoop-clusters maken met behulp van Azure Portal.

Hadoop-opdrachten gebruiken

  1. Gebruik de ssh-opdracht om verbinding te maken met uw cluster. Bewerk de onderstaande opdracht door CLUSTERNAME te vervangen door de naam van uw cluster. Voer vervolgens deze opdracht in:

    ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
    
  2. Nadat u verbinding hebt gemaakt met het HDInsight-cluster, gebruikt u de volgende opdracht om een MapReduce-taak te starten:

    yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
    

    Met deze opdracht wordt de wordcount klasse gestart, die zich in het hadoop-mapreduce-examples.jar bestand bevindt. Het document wordt /example/data/gutenberg/davinci.txt als invoer gebruikt en de uitvoer wordt opgeslagen op /example/data/WordCountOutput.

    Notitie

    Zie MapReduce gebruiken in Apache Hadoop in HDInsight voor meer informatie over deze MapReduce-taak en de voorbeeldgegevens.

    De taak verzendt details terwijl deze wordt verwerkt en retourneert informatie die vergelijkbaar is met de volgende tekst wanneer de taak is voltooid:

    File Input Format Counters
    Bytes Read=1395666
    File Output Format Counters
    Bytes Written=337623
    
  3. Wanneer de taak is voltooid, gebruikt u de volgende opdracht om de uitvoerbestanden weer te geven:

    hdfs dfs -ls /example/data/WordCountOutput
    

    Met deze opdracht worden twee bestanden weergegeven, _SUCCESS en part-r-00000. Het part-r-00000 bestand bevat de uitvoer voor deze taak.

    Notitie

    Sommige MapReduce-taken kunnen de resultaten splitsen over meerdere deel-r-###### bestanden. Als dat het zo is, gebruikt u het achtervoegsel ### om de volgorde van de bestanden aan te geven.

  4. Gebruik de volgende opdracht om de uitvoer weer te geven:

    hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
    

    Met deze opdracht wordt een lijst weergegeven met de woorden die zijn opgenomen in het wasbs://example/data/gutenberg/davinci.txt-bestand en het aantal keren dat elk woord voorkwam. De volgende tekst is een voorbeeld van de gegevens in het bestand:

    wreathed        3
    wreathing       1
    wreaths         1
    wrecked         3
    wrenching       1
    wretched        6
    wriggling       1
    

Volgende stappen

Zoals u ziet, bieden Hadoop-opdrachten een eenvoudige manier om MapReduce-taken uit te voeren in een HDInsight-cluster en vervolgens de taakuitvoer weer te geven. Voor informatie over andere manieren waarop u met Hadoop in HDInsight kunt werken: