Usare MapReduce con Apache Hadoop in HDInsight con SSH
Informazioni su come inviare processi MapReduce da una connessione Secure Shell (SSH) a HDInsight.
Nota
Se si ha già familiarità con l'uso di server Apache Hadoop basati su Linux ma non si è esperti di HDInsight, vedere Informazioni sull'uso di HDInsight in Linux.
Prerequisiti
Un cluster Apache Hadoop in HDInsight. Vedere Creare i cluster di Apache Hadoop nel portale di Azure.
Usare i comandi Hadoop
Usare il comando ssh per connettersi al cluster. Modificare il comando seguente sostituendo CLUSTERNAME con il nome del cluster in uso e quindi immettere il comando:
ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
Dopo essersi connessi al cluster HDInsight, usare il comando seguente per avviare un processo MapReduce:
yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
Questo comando avvia la classe
wordcount
, contenuta nel filehadoop-mapreduce-examples.jar
. Usa il documento/example/data/gutenberg/davinci.txt
come input, mentre l'output viene archiviato in/example/data/WordCountOutput
.Nota
Per altre informazioni su questo processo MapReduce e per i dati di esempio, vedere Usare MapReduce in Apache Hadoop in HDInsight.
Il processo genera dettagli durante l'elaborazione e, al termine, restituisce informazioni simili alle seguenti:
File Input Format Counters Bytes Read=1395666 File Output Format Counters Bytes Written=337623
Al termine del processo, usare il comando seguente per elencare i file di output:
hdfs dfs -ls /example/data/WordCountOutput
Con questo comando vengono visualizzati due file:
_SUCCESS
epart-r-00000
. Il filepart-r-00000
contiene l'output del processo.Nota
Alcuni processi MapReduce possono dividere i risultati in più file part-r-##### . In questo caso, usare il suffisso ##### per indicare l'ordine dei file.
Per visualizzare l'output, usare il seguente comando:
hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
Viene visualizzato un elenco di parole contenute nel file wasbs://example/data/gutenberg/davinci.txt e il numero di occorrenze di ogni parola. Di seguito è riportato un esempio dei dati contenuti nel file:
wreathed 3 wreathing 1 wreaths 1 wrecked 3 wrenching 1 wretched 6 wriggling 1
Passaggi successivi
Come è possibile notare, i comandi Hadoop forniscono un modo semplice per eseguire processi MapReduce in un cluster HDInsight e visualizzare l'output del processo. Per informazioni su altre modalità d'uso di Hadoop in HDInsight: