Utilizar o MapReduce com o Apache Hadoop no HDInsight com SSH
Saiba como submeter tarefas do MapReduce a partir de uma ligação Secure Shell (SSH) ao HDInsight.
Nota
Se já estiver familiarizado com a utilização de servidores Do Apache Hadoop baseados em Linux, mas não estiver familiarizado com o HDInsight, consulte Sugestões do HDInsight baseado em Linux.
Pré-requisitos
Um cluster do Apache Hadoop no HDInsight. Veja Criar clusters do Apache Hadoop com o portal do Azure.
Utilizar comandos do Hadoop
Utilize o comando ssh para ligar ao cluster. Edite o comando abaixo ao substituir CLUSTERNAME pelo nome do cluster e, em seguida, introduza o comando:
ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
Depois de estar ligado ao cluster do HDInsight, utilize o seguinte comando para iniciar uma tarefa do MapReduce:
yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
Este comando inicia a
wordcount
classe , que está contida nohadoop-mapreduce-examples.jar
ficheiro. Utiliza o/example/data/gutenberg/davinci.txt
documento como entrada e a saída é armazenada em/example/data/WordCountOutput
.Nota
Para obter mais informações sobre esta tarefa do MapReduce e os dados de exemplo, veja Utilizar o MapReduce no Apache Hadoop no HDInsight.
A tarefa emite detalhes à medida que processa e devolve informações semelhantes ao seguinte texto quando a tarefa é concluída:
File Input Format Counters Bytes Read=1395666 File Output Format Counters Bytes Written=337623
Quando a tarefa estiver concluída, utilize o seguinte comando para listar os ficheiros de saída:
hdfs dfs -ls /example/data/WordCountOutput
Este comando apresenta dois ficheiros
_SUCCESS
epart-r-00000
. Opart-r-00000
ficheiro contém a saída para esta tarefa.Nota
Algumas tarefas do MapReduce podem dividir os resultados por vários ficheiros part-r-### . Se for o caso, utilize o sufixo ##### para indicar a ordem dos ficheiros.
Para ver o resultado, utilize o seguinte comando:
hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
Este comando apresenta uma lista das palavras contidas no ficheiro wasbs://example/data/gutenberg/davinci.txt e o número de vezes que cada palavra ocorreu. O texto seguinte é um exemplo dos dados contidos no ficheiro:
wreathed 3 wreathing 1 wreaths 1 wrecked 3 wrenching 1 wretched 6 wriggling 1
Passos seguintes
Como pode ver, os comandos do Hadoop fornecem uma forma fácil de executar tarefas do MapReduce num cluster do HDInsight e, em seguida, ver a saída da tarefa. Para obter informações sobre outras formas de trabalhar com o Hadoop no HDInsight: