Partilhar via


Utilizar o MapReduce com o Apache Hadoop no HDInsight com SSH

Saiba como submeter tarefas do MapReduce a partir de uma ligação Secure Shell (SSH) ao HDInsight.

Nota

Se já estiver familiarizado com a utilização de servidores Do Apache Hadoop baseados em Linux, mas não estiver familiarizado com o HDInsight, consulte Sugestões do HDInsight baseado em Linux.

Pré-requisitos

Um cluster do Apache Hadoop no HDInsight. Veja Criar clusters do Apache Hadoop com o portal do Azure.

Utilizar comandos do Hadoop

  1. Utilize o comando ssh para ligar ao cluster. Edite o comando abaixo ao substituir CLUSTERNAME pelo nome do cluster e, em seguida, introduza o comando:

    ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
    
  2. Depois de estar ligado ao cluster do HDInsight, utilize o seguinte comando para iniciar uma tarefa do MapReduce:

    yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
    

    Este comando inicia a wordcount classe , que está contida no hadoop-mapreduce-examples.jar ficheiro. Utiliza o /example/data/gutenberg/davinci.txt documento como entrada e a saída é armazenada em /example/data/WordCountOutput.

    Nota

    Para obter mais informações sobre esta tarefa do MapReduce e os dados de exemplo, veja Utilizar o MapReduce no Apache Hadoop no HDInsight.

    A tarefa emite detalhes à medida que processa e devolve informações semelhantes ao seguinte texto quando a tarefa é concluída:

    File Input Format Counters
    Bytes Read=1395666
    File Output Format Counters
    Bytes Written=337623
    
  3. Quando a tarefa estiver concluída, utilize o seguinte comando para listar os ficheiros de saída:

    hdfs dfs -ls /example/data/WordCountOutput
    

    Este comando apresenta dois ficheiros _SUCCESS e part-r-00000. O part-r-00000 ficheiro contém a saída para esta tarefa.

    Nota

    Algumas tarefas do MapReduce podem dividir os resultados por vários ficheiros part-r-### . Se for o caso, utilize o sufixo ##### para indicar a ordem dos ficheiros.

  4. Para ver o resultado, utilize o seguinte comando:

    hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
    

    Este comando apresenta uma lista das palavras contidas no ficheiro wasbs://example/data/gutenberg/davinci.txt e o número de vezes que cada palavra ocorreu. O texto seguinte é um exemplo dos dados contidos no ficheiro:

    wreathed        3
    wreathing       1
    wreaths         1
    wrecked         3
    wrenching       1
    wretched        6
    wriggling       1
    

Passos seguintes

Como pode ver, os comandos do Hadoop fornecem uma forma fácil de executar tarefas do MapReduce num cluster do HDInsight e, em seguida, ver a saída da tarefa. Para obter informações sobre outras formas de trabalhar com o Hadoop no HDInsight: