Uso de MapReduce con Apache Hadoop en HDInsight con SSH

Aprenda a enviar trabajos de MapReduce desde una conexión de Secure Shell (SSH) a HDInsight.

Nota:

Si ya está familiarizado con el uso de servidores de Apache Hadoop basados en Linux, pero no está familiarizado con HDInsight, consulte sugerencias de HDInsight basadas en Linux.

Prerrequisitos

Un clúster de Apache Hadoop en HDInsight. Consulte Creación de clústeres de Apache Hadoop mediante Azure Portal.

Uso de comandos de Hadoop

Use el comando SSH para conectarse al clúster. Modifique el comando siguiente: reemplace CLUSTERNAME por el nombre del clúster y, luego, escriba el comando:
```
ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
```
Después de conectarse al clúster de HDInsight, use el siguiente comando para iniciar un trabajo de MapReduce:
```
yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
```
Este comando inicia la wordcount clase , que se encuentra en el hadoop-mapreduce-examples.jar archivo . Usa el /example/data/gutenberg/davinci.txt documento como entrada y la salida se almacena en /example/data/WordCountOutput.

Nota:

Para más información sobre este trabajo de MapReduce y los datos de ejemplo, consulte Uso de MapReduce en Apache Hadoop en HDInsight.

El trabajo emite detalles durante su procesamiento y, cuando se completa, retorna información similar al siguiente texto:
```
File Input Format Counters
Bytes Read=1395666
File Output Format Counters
Bytes Written=337623
```
Cuando se complete el trabajo, use el siguiente comando para enumerar los archivos de salida:
```
hdfs dfs -ls /example/data/WordCountOutput
```
Este comando muestra dos archivos _SUCCESS y part-r-00000. El part-r-00000 archivo contiene la salida de este trabajo.

Nota:

Algunos trabajos de MapReduce pueden dividir los resultados en varios archivos part-r-##### . Si es así, use el sufijo ##### para indicar el orden de los archivos.
Para ver la salida, use el siguiente comando:
```
hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
```
Este comando muestra una lista de las palabras contenidas en el archivo wasbs://example/data/gutenberg/davinci.txt y el número de veces que se produjo cada palabra. El texto siguiente es un ejemplo de los datos contenidos en el archivo:
```
wreathed        3
wreathing       1
wreaths         1
wrecked         3
wrenching       1
wretched        6
wriggling       1
```

Pasos siguientes

Como puede ver, los comandos de Hadoop proporcionan una manera sencilla de ejecutar trabajos de MapReduce en un clúster de HDInsight y, a continuación, ver la salida del trabajo. Para obtener información sobre otras maneras de trabajar con Hadoop en HDInsight:

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2025-04-09