Instalar e usar o Hue em clusters de Hadoop do HDInsight

Saiba como instalar o Hue em clusters do HDInsight e usar o túnel para rotear as solicitações para a Matiz.

Observação

Não há suporte para matiz no HDInsight 4.0 e posterior.

O que é o Hue?

Matiz é um conjunto de aplicativos Web usados para interagir com um cluster Apache Hadoop. Você pode usar o Hue para procurar o armazenamento associado a um cluster de Hadoop (WASB, no caso de clusters HDInsight), executar trabalhos de Hive e scripts do Pig, etc. Os componentes a seguir são disponibilizados com as instalações do Hue em um cluster Hadoop do HDInsight.

  • Editor de Hive Beeswax
  • Apache Pig
  • Gerenciador do Metastore
  • Apache Oozie
  • Navegador de Arquivos (que dialoga com o contêiner padrão WASB)
  • Navegador de Trabalhos

Aviso

Há suporte total a componentes fornecidos com o cluster HDInsight e o Suporte da Microsoft ajudará a isolar e resolver problemas relacionados a esses componentes.

Componentes personalizados recebem suporte comercialmente razoável para ajudá-lo a solucionar o problema. Isso pode resultar na resolução do problema ou na solicitação de você buscar nos canais disponíveis as tecnologias de código-fonte aberto, onde é possível encontrar conhecimento aprofundado sobre essa tecnologia. Por exemplo, há muitos sites de comunidade que podem ser usados, como: página de perguntas do Microsoft Q&A para o HDInsight, https://stackoverflow.com. Além disso, os projetos Apache têm sites de projeto em https://apache.org, por exemplo: Hadoop.

Instalar o Hue usando Ações de Script

Use as informações na tabela abaixo para a Ação de Script. Consulte Personalizar clusters do HDInsight usando Ações de Script para obter instruções específicas sobre como usar as Ações de Script.

Observação

Para instalar o Hue em clusters HDInsight, o tamanho do nó de cabeçalho recomendado é de, pelo menos, A4 (8 núcleos, memória de 14 GB).

Propriedade Valor
Tipo de script: - Personalizado
Nome Instalar o Hue
URI do script Bash https://hdiconfigactions.blob.core.windows.net/linuxhueconfigactionv02/install-hue-uber-v02.sh
Tipos de nó: Head

Executar um trabalho do Hive

  1. No portal do Hue, selecione Editores de Consulta e, em seguida, selecione Hive para abrir o editor do Hive.

    HDInsight hue portal use hive editor.

  2. Na guia Ajuda, em Banco de dados, você deverá ver hivesampletable. Essa é uma tabela de exemplo que é enviada juntamente com todos os clusters de Hadoop no HDInsight. Insira uma consulta de exemplo no painel direito e veja a saída na guia Resultados no painel abaixo, como mostrado na captura de tela.

    HDInsight hue portal hive query.

    Você também pode usar a guia Gráfico para ver uma representação visual do resultado.

Procurar no armazenamento de cluster

  1. No portal do Hue, selecione Navegador de Arquivos no canto superior direito da barra de menus.

  2. Por padrão, o navegador de arquivos é aberto no diretório /user/myuser . Selecione a barra invertida imediatamente antes do diretório “user” no caminho até a raiz do contêiner de armazenamento do Azure associado ao cluster.

    HDInsight hue portal file browser.

  3. Clique com o botão direito do mouse em um arquivo ou pasta para ver as operações disponíveis. Use o botão Carregar no canto superior direito para carregar arquivos no diretório atual. Use o botão Novo para criar novos arquivos ou diretórios.

Observação

O navegador de arquivos do Hue só pode mostrar o conteúdo do contêiner padrão associado ao cluster do HDInsight. Quaisquer contêineres/contas de armazenamento adicionais associados ao cluster não poderão ser acessados usando o navegador de arquivos. No entanto, os contêineres adicionais associados ao cluster sempre estarão acessíveis para os trabalhos do Hive. Por exemplo, ao digitar o comando dfs -ls wasbs://newcontainer@mystore.blob.core.windows.net no editor do Hive, você poderá ver também o conteúdo de contêineres adicionais. Neste comando, newcontainer não é o contêiner padrão associado a um cluster.

Considerações importantes

  1. O script usado para instalar o Hue instala-o apenas no nó de cabeçalho primário do cluster.

  2. Durante a instalação, vários serviços do Hadoop (HDFS, YARN, MR2, Oozie) são reiniciados para atualizar a configuração. Depois que o script termina de instalar o Hue, pode levar algum tempo para que outros serviços do Hadoop sejam iniciados. Isso pode, inicialmente, afetar o desempenho do Hue. Depois que todos os serviços tiverem sido iniciados, o Hue estará totalmente funcional.

  3. O Hue não reconhece os trabalhos do Apache Tez, que é o padrão atual do Hive. Se você quiser usar o MapReduce como o mecanismo de execução do Hive, atualize o script para usar o comando a seguir em seu script:

    set hive.execution.engine=mr;

  4. Com clusters do Linux, você pode ter um cenário no qual os serviços estão em execução no nó de cabeçalho primário enquanto o Gerenciador de Recursos pode estar em execução no secundário. Um cenário como esse pode resultar em erros (mostrados abaixo) ao usar o Hue para exibir detalhes de trabalhos EM EXECUÇÃO no cluster. No entanto, você pode exibir os detalhes do trabalho após ele ser concluído.

    Hue portal error sample message.

    Isso ocorre devido a um problema conhecido. Como solução alternativa, modifique o Ambari para que o Gerenciador de Recursos ativo também seja executado no nó de cabeçalho primário.

  5. O Hue entende o WebHDFS, enquanto os clusters HDInsight utilizam o Armazenamento do Azure com o wasbs://. Portanto, o script personalizado utilizado com a ação de script instala WebWasb, que é um serviço compatível com WebHDFS para conversar com o WASB. Portanto, embora em alguns lugares o portal do Hue esteja marcado como HDFS (como quando você move o mouse sobre o Navegador de Arquivos), ele deve ser interpretado como WASB.

Próximas etapas

Personalizar clusters do HDInsight com ações de script