Compartilhar via


Como usar o metastore do Hive com o cluster Do Apache Spark™

Importante

Esse recurso está atualmente na visualização. Os Termos de Uso Complementares para Versões Prévias da Microsoft Azure incluem mais termos legais que se aplicam aos recursos do Azure que estão em versão beta, em versão prévia ou ainda não lançados em disponibilidade geral. Para obter informações sobre essa versão prévia específica, confira Informações sobre a versão prévia do HDInsight no AKS. No caso de perguntas ou sugestões de recursos, envie uma solicitação no AskHDInsight com os detalhes e siga-nos para ver mais atualizações sobre a Comunidade do Azure HDInsight.

É essencial compartilhar os dados e o metastore entre vários serviços. Um dos metastore normalmente usados no metastore do HIVE. O HDInsight no AKS permite que os usuários se conectem ao metastore externo. Essa etapa permite que os usuários do HDInsight se conectem perfeitamente a outros serviços no ecossistema.

O Azure HDInsight no AKS dá suporte a metastores personalizados, que são recomendados para clusters de produção. As principais etapas envolvidas são

  1. Criar um Banco de Dados SQL do Azure
  2. Criar um cofre de chaves para armazenar as credenciais
  3. Configurar o Metastore enquanto você cria um HDInsight no cluster do AKS com o Apache Spark™
  4. Operar no Metastore Externo (mostra bancos de dados e faz uma seleção de limite 1).

Ao criar o cluster, o serviço HDInsight precisa se conectar ao metastore externo e verificar suas credenciais.

Criar um Banco de Dados SQL do Azure

  1. Crie ou tenha um Banco de Dados SQL do Azure existente antes de configurar um metastore do Hive personalizado para um cluster HDInsight.

    Observação

    Atualmente, oferecemos suporte apenas ao Banco de Dados SQL do Azure para metastore do HIVE. Devido à limitação do Hive, não há suporte para o caractere "-" (hífen) no nome do banco de dados metastore.

Criar um cofre de chaves para armazenar as credenciais

  1. Crie um Cofre de chaves do Azure.

    O propósito do Key Vault é permitir que você armazene o conjunto de senhas de administrador do SQL Server durante a criação do banco de dados SQL. A plataforma HDInsight no AKS não lida diretamente com a credencial. Portanto, é necessário armazenar suas credenciais importantes no Azure Key Vault. Conheça as etapas para criar um Azure Key Vault.

  2. Após a criação do Azure Key Vault, atribua as seguintes funções

    Objeto Função Comentários
    Identidade Gerenciada Atribuída pelo Usuário (a mesma usada pelo cluster do HDInsight) Usuário de Segredos do Key Vault Saiba como Atribuir uma função à Identidade Gerenciada Atribuída pelo Usuário
    Usuário (quem cria o segredo no Azure Key Vault) Administrador do Key Vault Saiba como Atribuir função ao usuário.

    Observação

    Sem essa função, o usuário não poderá criar um segredo.

  3. Criar um segredo

    Esta etapa permite que você mantenha sua senha de administrador do SQL Server como um segredo no Azure Key Vault. Adicione sua senha (mesma senha fornecida no BD SQL para administrador) no campo "Valor" ao adicionar um segredo.

    Captura de tela mostrando como criar um cofre de chaves.

    Captura de tela mostrando como criar um segredo.

    Observação

    Anote o nome do segredo, pois precisará dele durante a criação do cluster.

Configurar o Metastore enquanto cria um cluster HDInsight Spark

  1. Navegue até o HDInsight no pool de clusters do AKS para criar clusters.

    Captura de tela mostrando como criar um novo cluster.

  2. Habilite o botão de alternância para adicionar metastore de hive externo e preencha os detalhes a seguir.

    Captura de tela mostrando a guia básica.

  3. O restante dos detalhes deve ser preenchido de acordo com as regras de criação de cluster para o cluster do Apache Spark no HDInsight no AKS.

  4. Clique em Examinar e Criar.

    Captura de tela mostrando a guia examinar e criar.

    Observação

    • O ciclo de vida do metastore não está associado a um ciclo de vida de clusters e, portanto, é possível criar e excluir clusters sem perder metadados. Os metadados, como os esquemas do Hive, persistem mesmo depois de excluir e recriar o cluster HDInsight.
    • Um metastore personalizado permite que você anexe vários clusters e tipos de cluster ao metastore.

Operar em metastore externo

  1. Criar uma tabela

    >> spark.sql("CREATE TABLE sampleTable (number Int, word String)")

    Captura de tela mostrando como criar uma tabela.

  2. Adicionar dados à tabela

    >> spark.sql("INSERT INTO sampleTable VALUES (123, \"HDIonAKS\")");\

    Captura de tela mostrando a instrução insert.

  3. Leia a tabela

    >> spark.sql("select * from sampleTable").show()

    Captura de tela mostrando como ler a tabela.

Referência