Conectar e gerenciar bancos de dados metastore do Hive no Microsoft Purview

Este artigo descreve como registrar bancos de dados metastore do Hive e como autenticar e interagir com bancos de dados Metastore do Hive no Microsoft Purview. Para obter mais informações sobre o Microsoft Purview, leia o artigo introdutório.

Recursos compatíveis

Extração de metadados Verificação Completa Verificação Incremental Verificação em escopo Classificação Rotulamento Política de Acesso Linhagem Compartilhamento de dados Exibição ao vivo
Sim Sim Não Sim Não Não Não Sim* Não Não

* Além da linhagem em ativos dentro da fonte de dados, a linhagem também terá suporte se o conjunto de dados for usado como fonte/coletor no pipeline do Data Factory ou do Synapse.

As versões do Hive com suporte são 2.x a 3.x. As plataformas com suporte são Apache Hadoop, Cloudera e Hortonworks. Se você quiser examinar o Azure Databricks, é sugerido usar o conector do Azure Databricks que é mais compatível e amigável ao usuário.

Ao examinar a origem do metastore do Hive, o Microsoft Purview dá suporte a:

  • Extração de metadados técnicos, incluindo:

    • Servidor
    • Bancos de dados
    • Tabelas incluindo as colunas, chaves estrangeiras, restrições exclusivas e descrição do armazenamento
    • Exibições, incluindo as colunas e a descrição do armazenamento
  • Buscando linhagem estática nas relações de ativos entre tabelas e exibições.

Ao configurar a verificação, você pode optar por examinar um banco de dados metastore do Hive inteiro ou escopo da verificação para um subconjunto de esquemas que correspondam aos nomes ou padrões de nome fornecidos.

Limitações conhecidas

Quando o objeto é excluído da fonte de dados, atualmente, a verificação subsequente não removerá automaticamente o ativo correspondente no Microsoft Purview.

Pré-requisitos

  • Você deve ter uma conta do Azure com uma assinatura ativa. Crie uma conta gratuitamente.

  • Você deve ter uma conta ativa do Microsoft Purview.

  • Você precisa de permissões de Administrador de Fonte de Dados e Leitor de Dados para registrar uma fonte e gerenciá-la no portal de governança do Microsoft Purview. Para obter mais informações sobre permissões, consulte Controle de acesso no Microsoft Purview.

  • Configure o runtime de integração auto-hospedado mais recente. Para obter mais informações, consulte Criar e configurar um runtime de integração auto-hospedado.

    • Verifique se o JDK 11 está instalado no computador em que o runtime de integração auto-hospedado está instalado. Reinicie o computador depois de instalar o JDK recentemente para que ele entre em vigor.

    • Verifique se Pacote Redistribuível do Visual C++ (versão Visual Studio 2012 Atualização 4 ou mais recente) está instalada no computador em que o runtime de integração auto-hospedado está em execução. Se você não tiver essa atualização instalada, baixe-a agora.

    • Baixe o driver JDBC do banco de dados Do Hive Metastore no computador em que o runtime de integração auto-hospedado está em execução. Por exemplo, se o banco de dados for mssql, baixe o driver JDBC da Microsoft para SQL Server. Observe o caminho da pasta que você usará para configurar a verificação.

      Observação

      O driver deve estar acessível pelo runtime de integração auto-hospedado. Por padrão, o runtime de integração auto-hospedada usa a conta de serviço local "NT SERVICE\DIAHostService". Verifique se ele tem permissão "Ler e executar" e "Listar conteúdo de pasta" para a pasta driver.

Registrar

Esta seção descreve como registrar um banco de dados Metastore do Hive no Microsoft Purview usando o portal de governança do Microsoft Purview.

A única autenticação com suporte para um banco de dados Metastore do Hive é a Autenticação Básica.

  1. Abra o portal de governança do Microsoft Purview por:

  2. Selecione Mapa de Dados no painel esquerdo.

  3. Selecione Registrar.

  4. Em Registrar fontes, selecione Hive Metastore>Continue.

  5. Na tela Registrar fontes (Hive Metastore), faça o seguinte:

    1. Para Nome, insira um nome que o Microsoft Purview listará como a fonte de dados.

    2. Para URL do Cluster do Hive, insira um valor obtido da URL do Ambari. Por exemplo, insira hive.azurehdinsight.net.

    3. Para URL do Servidor Metastore do Hive, insira uma URL para o servidor. Por exemplo, insira sqlserver://hive.database.windows.net.

    4. Para Selecionar uma coleção, escolha uma coleção na lista ou crie uma nova. Essa etapa é opcional.

    Captura de tela que mostra caixas para registrar fontes do Hive.

  6. Selecione Concluir.

Examinar

Dica

Para solucionar problemas com a verificação:

  1. Confirme se você seguiu todos os pré-requisitos.
  2. Examine nossa documentação de solução de problemas de verificação.

Use as etapas a seguir para examinar bancos de dados metastore do Hive para identificar automaticamente ativos. Para obter mais informações sobre a verificação em geral, consulte Verificações e ingestão no Microsoft Purview.

  1. No Centro de Gerenciamento, selecione runtimes de integração. Verifique se um runtime de integração auto-hospedado está configurado. Se ele não estiver configurado, use as etapas em Criar e gerenciar um runtime de integração auto-hospedado.

  2. Vá para Fontes.

  3. Selecione o banco de dados Metastore do Hive registrado.

  4. Selecione + Nova verificação.

  5. Forneça os seguintes detalhes:

    1. Nome: insira um nome para a verificação.

    2. Conectar por meio do runtime de integração: selecione o runtime de integração auto-hospedado configurado.

    3. Credencial: selecione a credencial para se conectar à fonte de dados. Certifique-se de:

      • Selecione Autenticação Básica ao criar uma credencial.
      • Forneça o nome de usuário metastore na caixa apropriada.
      • Armazene a senha do Metastore na chave secreta.

      Para obter mais informações, consulte Credenciais para autenticação de origem no Microsoft Purview.

    4. Local do Driver JDBC do Metastore: especifique o caminho para o local do driver JDBC em seu computador em que o runtime de integração de auto-host está em execução, por exemplo, D:\Drivers\HiveMetastore. É o caminho para o local da pasta JAR válido. Verifique se o driver está acessível pelo runtime de integração auto-hospedado, saiba mais na seção pré-requisitos.

    5. Classe de driver JDBC do Metastore: forneça o nome da classe para o driver de conexão. Por exemplo, insira \com.microsoft.sqlserver.jdbc.SQLServerDriver.

    6. URL JDBC do Metastore: forneça o valor da URL de conexão e defina a conexão com a URL do servidor de banco de dados Metastore. Por exemplo: jdbc:sqlserver://hive.database.windows.net;database=hive;encrypt=true;trustServerCertificate=true;create=false;loginTimeout=300.

      Observação

      Quando você copiar a URL de hive-site.xml, remova amp; da cadeia de caracteres ou a verificação falhará.

      Baixe o certificado SSL para o computador de runtime de integração auto-hospedado e atualize o caminho para a localização do certificado SSL em seu computador na URL.

      Ao inserir caminhos de arquivo locais na configuração de verificação, altere o caractere separador de caminho do Windows de uma barra de fundo (\) para uma barra para a frente (/). Por exemplo, se você colocar o certificado SSL no caminho do arquivo local D:\Drivers\SSLCert\BaltimoreCyberTrustRoot.crt.pem, altere o valor do serverSslCert parâmetro para D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem.

      O valor da URL JDBC do Metastore será semelhante a este exemplo:

      jdbc:mariadb://samplehost.mysql.database.azure.com:3306/XXXXXXXXXXXXXXXX?useSSL=true&enabledSslProtocolSuites=TLSv1,TLSv1.1,TLSv1.2&serverSslCert=D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem

    7. Nome do banco de dados Metastore: forneça o nome do banco de dados Metastore do Hive.

    8. Esquema: especifique uma lista de esquemas do Hive a serem importados. Por exemplo: esquema1; esquema2.

      Todos os esquemas de usuário serão importados se essa lista estiver vazia. Todos os esquemas do sistema (por exemplo, SysAdmin) e objetos são ignorados por padrão.

      Padrões de nome de esquema aceitáveis que usam sintaxe de expressão SQL LIKE incluem o sinal percentual (%). Por exemplo, A%; %B; %C%; D significa:

      • Iniciar com A ou
      • Terminar com B ou
      • Conter C ou
      • Igual a D

      O uso de NOT caracteres especiais e não é aceitável.

    9. Memória máxima disponível: memória máxima (em gigabytes) disponível no computador do cliente para os processos de verificação a serem usados. Esse valor depende do tamanho do banco de dados Metastore do Hive a ser verificado.

      Observação

      Como regra geral, forneça memória de 1 GB para cada 1000 tabelas.

    Captura de tela que mostra caixas para obter detalhes da verificação.

  6. Selecione Continuar.

  7. Para a verificação do gatilho, escolha se deve configurar um agendamento ou executar a verificação uma vez.

  8. Examine a verificação e selecione Salvar e Executar.

Exibir suas verificações e verificar execuções

Para exibir as verificações existentes:

  1. Acesse o portal de governança do Microsoft Purview. No painel esquerdo, selecione Mapa de dados.
  2. Selecione a fonte de dados. Você pode exibir uma lista de verificações existentes nessa fonte de dados em Verificações recentes ou exibir todas as verificações na guia Verificações .
  3. Selecione a verificação que tem resultados que você deseja exibir. O painel mostra todas as execuções de verificação anteriores, juntamente com as status e métricas para cada execução de verificação.
  4. Selecione a ID de execução para marcar os detalhes da execução de verificação.

Gerenciar suas verificações

Para editar, cancelar ou excluir uma verificação:

  1. Acesse o portal de governança do Microsoft Purview. No painel esquerdo, selecione Mapa de Dados.

  2. Selecione a fonte de dados. Você pode exibir uma lista de verificações existentes nessa fonte de dados em Verificações recentes ou exibir todas as verificações na guia Verificações .

  3. Selecione a verificação que você deseja gerenciar. Você poderá:

    • Edite a verificação selecionando Editar verificação.
    • Cancele uma verificação em andamento selecionando Cancelar execução de verificação.
    • Exclua sua verificação selecionando Excluir verificação.

Observação

  • A exclusão da verificação não exclui os ativos de catálogo criados de verificações anteriores.
  • O ativo não será mais atualizado com alterações de esquema se sua tabela de origem tiver sido alterada e você examinar novamente a tabela de origem depois de editar a descrição na guia Esquema do Microsoft Purview.

Linhagem

Depois de examinar sua fonte do Metastore do Hive, você pode procurar o catálogo de dados ou o catálogo de dados de pesquisa para exibir os detalhes do ativo.

Vá para a guia ativo –> linhagem, você pode ver a relação de ativos quando aplicável. Consulte a seção recursos com suporte nos cenários de linhagem do Metastore do Hive com suporte. Para obter mais informações sobre linhagem em geral, consulte guia de usuário de linhagem e linhagem de dados.

Próximas etapas

Agora que você registrou sua origem, use os seguintes guias para saber mais sobre o Microsoft Purview e seus dados: