Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Aprenda a enviar trabajos de MapReduce desde una conexión de Secure Shell (SSH) a HDInsight.
Nota:
Si ya está familiarizado con el uso de servidores de Apache Hadoop basados en Linux, pero no está familiarizado con HDInsight, consulte sugerencias de HDInsight basadas en Linux.
Prerrequisitos
Un clúster de Apache Hadoop en HDInsight. Consulte Creación de clústeres de Apache Hadoop mediante Azure Portal.
Uso de comandos de Hadoop
Use el comando SSH para conectarse al clúster. Modifique el comando siguiente: reemplace CLUSTERNAME por el nombre del clúster y, luego, escriba el comando:
ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.netDespués de conectarse al clúster de HDInsight, use el siguiente comando para iniciar un trabajo de MapReduce:
yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutputEste comando inicia la
wordcountclase , que se encuentra en elhadoop-mapreduce-examples.jararchivo . Usa el/example/data/gutenberg/davinci.txtdocumento como entrada y la salida se almacena en/example/data/WordCountOutput.Nota:
Para más información sobre este trabajo de MapReduce y los datos de ejemplo, consulte Uso de MapReduce en Apache Hadoop en HDInsight.
El trabajo emite detalles durante su procesamiento y, cuando se completa, retorna información similar al siguiente texto:
File Input Format Counters Bytes Read=1395666 File Output Format Counters Bytes Written=337623Cuando se complete el trabajo, use el siguiente comando para enumerar los archivos de salida:
hdfs dfs -ls /example/data/WordCountOutputEste comando muestra dos archivos
_SUCCESSypart-r-00000. Elpart-r-00000archivo contiene la salida de este trabajo.Nota:
Algunos trabajos de MapReduce pueden dividir los resultados en varios archivos part-r-##### . Si es así, use el sufijo ##### para indicar el orden de los archivos.
Para ver la salida, use el siguiente comando:
hdfs dfs -cat /example/data/WordCountOutput/part-r-00000Este comando muestra una lista de las palabras contenidas en el archivo wasbs://example/data/gutenberg/davinci.txt y el número de veces que se produjo cada palabra. El texto siguiente es un ejemplo de los datos contenidos en el archivo:
wreathed 3 wreathing 1 wreaths 1 wrecked 3 wrenching 1 wretched 6 wriggling 1
Pasos siguientes
Como puede ver, los comandos de Hadoop proporcionan una manera sencilla de ejecutar trabajos de MapReduce en un clúster de HDInsight y, a continuación, ver la salida del trabajo. Para obtener información sobre otras maneras de trabajar con Hadoop en HDInsight: