Usare MapReduce con Apache Hadoop in HDInsight con SSH

Informazioni su come inviare processi MapReduce da una connessione Secure Shell (SSH) a HDInsight.

Nota

Se si ha già familiarità con l'uso di server Apache Hadoop basati su Linux ma non si è esperti di HDInsight, vedere Informazioni sull'uso di HDInsight in Linux.

Prerequisiti

Un cluster Apache Hadoop in HDInsight. Vedere Creare i cluster di Apache Hadoop nel portale di Azure.

Usare i comandi Hadoop

Usare il comando ssh per connettersi al cluster. Modificare il comando seguente sostituendo CLUSTERNAME con il nome del cluster in uso e quindi immettere il comando:
```
ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
```
Dopo essersi connessi al cluster HDInsight, usare il comando seguente per avviare un processo MapReduce:
```
yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
```
Questo comando avvia la classe wordcount, contenuta nel file hadoop-mapreduce-examples.jar. Usa il documento /example/data/gutenberg/davinci.txt come input, mentre l'output viene archiviato in /example/data/WordCountOutput.

Nota

Per altre informazioni su questo processo MapReduce e per i dati di esempio, vedere Usare MapReduce in Apache Hadoop in HDInsight.

Il processo genera dettagli durante l'elaborazione e, al termine, restituisce informazioni simili alle seguenti:
```
File Input Format Counters
Bytes Read=1395666
File Output Format Counters
Bytes Written=337623
```
Al termine del processo, usare il comando seguente per elencare i file di output:
```
hdfs dfs -ls /example/data/WordCountOutput
```
Con questo comando vengono visualizzati due file: _SUCCESS e part-r-00000. Il file part-r-00000 contiene l'output del processo.

Nota

Alcuni processi MapReduce possono dividere i risultati in più file part-r-##### . In questo caso, usare il suffisso ##### per indicare l'ordine dei file.
Per visualizzare l'output, usare il seguente comando:
```
hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
```
Viene visualizzato un elenco di parole contenute nel file wasbs://example/data/gutenberg/davinci.txt e il numero di occorrenze di ogni parola. Di seguito è riportato un esempio dei dati contenuti nel file:
```
wreathed        3
wreathing       1
wreaths         1
wrecked         3
wrenching       1
wretched        6
wriggling       1
```

Passaggi successivi

Come è possibile notare, i comandi Hadoop forniscono un modo semplice per eseguire processi MapReduce in un cluster HDInsight e visualizzare l'output del processo. Per informazioni su altre modalità d'uso di Hadoop in HDInsight:

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2024-09-06