Use o MapReduce com o Apache Hadoop no HDInsight com SSH

Artigo
09/27/2023

Saiba como enviar trabalhos MapReduce de uma conexão SSH (Secure Shell) para o HDInsight.

Observação

Se você já estiver familiarizado com o uso de servidores Apache Hadoop baseados em Linux, mas for novo no HDInsight, consulte dicas do HDInsight baseadas em Linux.

Pré-requisitos

Um cluster do Apache Hadoop no HDInsight. Confira Criar clusters Apache Hadoop usando o portal do Azure.

Usar comandos Hadoop

Use o comando ssh para se conectar ao cluster. Edite o comando abaixo substituindo CLUSTERNAME pelo nome do cluster e, em seguida, insira o comando:
```
ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
```
Uma vez conectado ao cluster HDInsight, use o comando a seguir para iniciar um trabalho MapReduce:
```
yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
```
Esse comando inicia a classe wordcount, que está contida no arquivo hadoop-mapreduce-examples.jar. Ele usa o documento /example/data/gutenberg/davinci.txt como entrada e a saída é armazenada em /example/data/WordCountOutput.

Observação

Para saber mais sobre esse trabalho MapReduce e os dados de exemplo, confira Usar o MapReduce no Apache Hadoop no HDInsight.

O trabalho emite detalhes conforme é processado, retornando informações semelhantes ao texto a seguir quando é concluído:
```
File Input Format Counters
Bytes Read=1395666
File Output Format Counters
Bytes Written=337623
```
Quando o trabalho for concluído, use o seguinte comando para listar os arquivos de saída:
```
hdfs dfs -ls /example/data/WordCountOutput
```
Esse comando exibe dois arquivos, _SUCCESS e part-r-00000. O arquivo part-r-00000 contém a saída para esse trabalho.

Observação

Alguns trabalhos MapReduce podem dividir os resultados em vários arquivos part-r-##### . Nesse caso, use o sufixo ##### para indicar a ordem dos arquivos.
Para exibir a saída, use o comando a seguir:
```
hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
```
Esse comando exibirá uma lista de palavras contidas no arquivo wasb://example/data/gutenberg/davinci.txt e o número de vezes que cada palavra ocorreu. O texto a seguir é um exemplo dos dados contidos no arquivo:
```
wreathed        3
wreathing       1
wreaths         1
wrecked         3
wrenching       1
wretched        6
wriggling       1
```

Próximas etapas

Como você pode ver, os comandos Hadoop fornecem uma maneira fácil para executar trabalhos MapReduce em um cluster HDInsight e para então exibir a saída do trabalho. Para obter informações sobre outros modos possíveis de trabalhar com Hadoop no HDInsight:

Share via

Use o MapReduce com o Apache Hadoop no HDInsight com SSH

Pré-requisitos

Usar comandos Hadoop

Próximas etapas

Recursos adicionais