Usar o MapReduce com Apache Hadoop no HDInsight com SSH

Saiba como enviar trabalhos do MapReduce de uma conexão Secure Shell (SSH) para o HDInsight.

Observação

Se você já está familiarizado com o uso de servidores Apache Hadoop baseados em Linux, mas é novo no HDInsight, consulte Dicas do HDInsight baseado em Linux.

Pré-requisitos

Um cluster Apache Hadoop em HDInsight. Consulte Criar clusters Apache Hadoop usando o portal do Azure.

Usar comandos do Hadoop

Use o comando ssh para conectar ao seu cluster. Edite o comando abaixo substituindo CLUSTERNAME pelo nome do cluster e digite o comando:
```
ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
```
Depois de se conectar ao cluster HDInsight, use o seguinte comando para iniciar um trabalho do MapReduce:
```
yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
```
Este comando inicia a wordcount classe, que está contida no hadoop-mapreduce-examples.jar arquivo. Ele usa o documento /example/data/gutenberg/davinci.txt como entrada, e a saída é armazenada em /example/data/WordCountOutput.

Observação

Para obter mais informações sobre esse trabalho MapReduce e os dados de exemplo, consulte Usar MapReduce no Apache Hadoop no HDInsight.

O trabalho emite detalhes à medida que é processado e produz informações semelhantes ao texto seguinte quando o trabalho é finalizado.
```
File Input Format Counters
Bytes Read=1395666
File Output Format Counters
Bytes Written=337623
```
Quando o trabalho for concluído, use o seguinte comando para listar os arquivos de saída:
```
hdfs dfs -ls /example/data/WordCountOutput
```
Este comando exibe dois arquivos _SUCCESS e part-r-00000. O part-r-00000 arquivo contém a saída para este trabalho.

Observação

Alguns trabalhos do MapReduce podem dividir os resultados em vários arquivos part-r-##### . Em caso afirmativo, use o sufixo ##### para indicar a ordem dos arquivos.
Para exibir a saída, use o seguinte comando:
```
hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
```
Este comando exibe uma lista das palavras contidas no arquivo wasbs://example/data/gutenberg/davinci.txt e o número de vezes que cada palavra ocorreu. O texto a seguir é um exemplo dos dados contidos no arquivo:
```
wreathed        3
wreathing       1
wreaths         1
wrecked         3
wrenching       1
wretched        6
wriggling       1
```

Próximos passos

Como você pode ver, os comandos do Hadoop fornecem uma maneira fácil de executar trabalhos do MapReduce em um cluster HDInsight e, em seguida, exibir a saída do trabalho. Para obter informações sobre outras maneiras de trabalhar com o Hadoop no HDInsight:

Feedback

Esta página foi útil?

Last updated on 2025-04-11