Conectar e gerenciar o Azure Databricks no Microsoft Purview (versão prévia)

Este artigo descreve como registrar o Azure Databricks e como autenticar e interagir com o Azure Databricks no Microsoft Purview. Para obter mais informações sobre o Microsoft Purview, leia o artigo introdutório.

Importante

Este recurso está atualmente no modo de visualização. Os Termos de Uso Suplementares para Visualizações do Microsoft Azure incluem termos legais adicionais que se aplicam aos recursos do Azure que estão em versão beta, em versão prévia ou ainda não lançados em disponibilidade geral.

Recursos compatíveis

Extração de metadados Verificação Completa Verificação Incremental Verificação em escopo Classificação Rotulamento Política de Acesso Linhagem Compartilhamento de dados Exibição ao vivo
Sim Sim Não Sim Não Não Não Sim Não Não

Observação

Esse conector traz metadados do metastore do Hive no escopo do workspace do Azure Databricks. Para verificar metadados no Catálogo do Unity do Azure Databricks, consulte o conector do Catálogo do Unity do Azure Databricks.

Ao examinar o metastore do Azure Databricks Hive, o Microsoft Purview dá suporte:

  • Extração de metadados técnicos, incluindo:

    • Workspace do Azure Databricks
    • Servidor Hive
    • Bancos de dados
    • Tabelas incluindo as colunas, chaves estrangeiras, restrições exclusivas e descrição do armazenamento
    • Exibições, incluindo as colunas e a descrição do armazenamento
  • Buscando relação entre tabelas externas e ativos de Blob do Azure Data Lake Storage Gen2/Azure (locais externos).

  • Buscar linhagem estática entre tabelas e exibições com base na definição de exibição.

Ao configurar a verificação, você pode optar por examinar todo o metastore do Hive ou escopo da verificação para um subconjunto de esquemas.

Comparando com a verificação por meio do conector metastore do Hive genérico caso você o use para examinar o Azure Databricks anteriormente:

  • Você pode configurar diretamente a verificação para workspaces do Azure Databricks sem acesso direto ao HMS. Ele usa o token de acesso pessoal do Databricks para autenticação e se conecta a um cluster para executar a verificação.
  • As informações do workspace do Databricks são capturadas.
  • A relação entre tabelas e ativos de armazenamento é capturada.

Limitações conhecidas

Quando o objeto é excluído da fonte de dados, atualmente, a verificação subsequente não removerá automaticamente o ativo correspondente no Microsoft Purview.

Pré-requisitos

  • Você deve ter uma conta do Azure com uma assinatura ativa. Crie uma conta gratuitamente.

  • Você deve ter uma conta ativa do Microsoft Purview.

  • Você precisa de um Key Vault do Azure e conceder permissões do Microsoft Purview para acessar segredos.

  • Você precisa de permissões de Administrador de Fonte de Dados e Leitor de Dados para registrar uma fonte e gerenciá-la no portal de governança do Microsoft Purview. Para obter mais informações sobre permissões, consulte Controle de acesso no Microsoft Purview.

  • Configure o runtime de integração auto-hospedado mais recente. Para obter mais informações, consulte Criar e configurar um runtime de integração auto-hospedado. A versão mínima de Integration Runtime auto-hospedada com suporte mínimo é 5.20.8227.2.

    • Verifique se o JDK 11 está instalado no computador em que o runtime de integração auto-hospedado está instalado. Reinicie o computador depois de instalar o JDK recentemente para que ele entre em vigor.

    • Verifique se Pacote Redistribuível do Visual C++ (versão Visual Studio 2012 Atualização 4 ou mais recente) está instalada no computador em que o runtime de integração auto-hospedado está em execução. Se você não tiver essa atualização instalada, baixe-a agora.

  • No workspace do Azure Databricks:

    • Gere um token de acesso pessoal e armazene-o como um segredo no Azure Key Vault.

    • Crie um cluster. Observe a ID do cluster – você pode encontrá-la no workspace do Azure Databricks – Computação –> seu cluster –> Marcas –> Marcas adicionadas automaticamente ->ClusterId.>

    • Verifique se o usuário tem as seguintes permissões para se conectar ao cluster do Azure Databricks:

      • Pode anexar à permissão para se conectar ao cluster em execução.
      • Pode reiniciar a permissão para disparar automaticamente o cluster para iniciar se o estado for encerrado ao se conectar.

Registrar

Esta seção descreve como registrar um workspace do Azure Databricks no Microsoft Purview usando o portal de governança do Microsoft Purview.

  1. Acesse sua conta do Microsoft Purview.

  2. Selecione Mapa de Dados no painel esquerdo.

  3. Selecione Registrar.

  4. Em Registrar fontes, selecione Continuar do Azure Databricks>.

  5. Na tela Registrar fontes (Azure Databricks), faça o seguinte:

    1. Para Nome, insira um nome que o Microsoft Purview listará como a fonte de dados.

    2. Para a assinatura do Azure e o nome do workspace do Databricks, selecione a assinatura e o workspace que você deseja examinar na lista suspensa. A URL do workspace do Databricks é preenchida automaticamente.

    3. Para Selecionar uma coleção, escolha uma coleção na lista ou crie uma nova. Essa etapa é opcional.

    Captura de tela do registro da fonte do Azure Databricks.

  6. Selecione Concluir.

Examinar

Dica

Para solucionar problemas com a verificação:

  1. Confirme se você seguiu todos os pré-requisitos.
  2. Examine nossa documentação de solução de problemas de verificação.

Use as etapas a seguir para examinar o Azure Databricks para identificar automaticamente os ativos. Para obter mais informações sobre a verificação em geral, consulte Verificações e ingestão no Microsoft Purview.

  1. No Centro de Gerenciamento, selecione runtimes de integração. Verifique se um runtime de integração auto-hospedado está configurado. Se ele não estiver configurado, use as etapas em Criar e gerenciar um runtime de integração auto-hospedado.

  2. Vá para Fontes.

  3. Selecione o Azure Databricks registrado.

  4. Selecione + Nova verificação.

  5. Forneça os seguintes detalhes:

    1. Nome: insira um nome para a verificação.

    2. Método de extração: Indique para extrair metadados do Hive Metastore ou do Catálogo do Unity. Selecione Metastore do Hive.

    3. Conectar por meio do runtime de integração: selecione o runtime de integração auto-hospedado configurado.

    4. Credencial: selecione a credencial para se conectar à fonte de dados. Certifique-se de:

      • Selecione Autenticação de Token de Acesso ao criar uma credencial.
      • Forneça o nome secreto do token de acesso pessoal que você criou em Pré-requisitos na caixa apropriada.

      Para obter mais informações, consulte Credenciais para autenticação de origem no Microsoft Purview.

    5. ID do cluster: especifique a ID do cluster à qual o Microsoft Purview se conecta e alimenta a verificação. Você pode encontrá-lo no workspace do Azure Databricks -> Computação -> seu cluster -> Marcas -> Automaticamente adicionado marcas ->ClusterId.

    6. Pontos de montagem: forneça o ponto de montagem e a cadeia de localização de origem do Armazenamento do Azure quando você tiver o armazenamento externo montado manualmente no Databricks. Use o formato /mnt/<path>=abfss://<container>@<adls_gen2_storage_account>.dfs.core.windows.net/;/mnt/<path>=wasbs://<container>@<blob_storage_account>.blob.core.windows.net. Ele é usado para capturar a relação entre tabelas e os ativos de armazenamento correspondentes no Microsoft Purview. Essa configuração será opcional, se não for especificada, essa relação não será recuperada.

      Você pode obter a lista de pontos de montagem no workspace do Databricks executando o seguinte comando Python em um notebook:

      dbutils.fs.mounts()
      

      Ele imprime todos os pontos de montagem como abaixo:

      [MountInfo(mountPoint='/databricks-datasets', source='databricks-datasets', encryptionType=''),
      MountInfo(mountPoint='/mnt/ADLS2', source='abfss://samplelocation1@azurestorage1.dfs.core.windows.net/', encryptionType=''),
      MountInfo(mountPoint='/databricks/mlflow-tracking', source='databricks/mlflow-tracking', encryptionType=''), 
      MountInfo(mountPoint='/mnt/Blob', source='wasbs://samplelocation2@azurestorage2.blob.core.windows.net', encryptionType=''),
      MountInfo(mountPoint='/databricks-results', source='databricks-results', encryptionType=''),
      MountInfo(mountPoint='/databricks/mlflow-registry', source='databricks/mlflow-registry', encryptionType=''), MountInfo(mountPoint='/', source='DatabricksRoot', encryptionType='')]  
      

      Neste exemplo, especifique o seguinte como pontos de montagem:

      /mnt/ADLS2=abfss://samplelocation1@azurestorage1.dfs.core.windows.net/;/mnt/Blob=wasbs://samplelocation2@azurestorage2.blob.core.windows.net

    7. Esquema: o subconjunto de esquemas a ser importado expresso como uma lista separada de ponto e vírgula de esquemas. Por exemplo, schema1; schema2. Todos os esquemas de usuário serão importados se essa lista estiver vazia. Todos os esquemas e objetos do sistema são ignorados por padrão.

      Padrões de nome de esquema aceitáveis usando a sintaxe de expressões SQL LIKE incluem o uso de %. Por exemplo: A%; %B; %C%; D

      • Iniciar com A ou
      • Terminar com B ou
      • Conter C ou
      • Igual a D

      O uso de CARACTERES NÃO e especiais não são aceitáveis.

      Observação

      Esse filtro de esquema tem suporte no Integration Runtime auto-hospedado versão 5.32.8597.1 e superior.

    8. Memória máxima disponível: memória máxima (em gigabytes) disponível no computador do cliente para os processos de verificação a serem usados. Esse valor depende do tamanho do Azure Databricks a ser verificado.

      Observação

      Como regra geral, forneça memória de 1 GB para cada 1000 tabelas.

    Captura de tela da configuração da verificação do Azure Databricks.

  6. Selecione Continuar.

  7. Para a verificação do gatilho, escolha se deve configurar um agendamento ou executar a verificação uma vez.

  8. Examine a verificação e selecione Salvar e Executar.

Depois que a verificação for concluída com êxito, confira como procurar e pesquisar ativos do Azure Databricks.

Exibir suas verificações e verificar execuções

Para exibir as verificações existentes:

  1. Acesse o portal de governança do Microsoft Purview. No painel esquerdo, selecione Mapa de dados.
  2. Selecione a fonte de dados. Você pode exibir uma lista de verificações existentes nessa fonte de dados em Verificações recentes ou exibir todas as verificações na guia Verificações .
  3. Selecione a verificação que tem resultados que você deseja exibir. O painel mostra todas as execuções de verificação anteriores, juntamente com as status e métricas para cada execução de verificação.
  4. Selecione a ID de execução para marcar os detalhes da execução de verificação.

Gerenciar suas verificações

Para editar, cancelar ou excluir uma verificação:

  1. Acesse o portal de governança do Microsoft Purview. No painel esquerdo, selecione Mapa de Dados.

  2. Selecione a fonte de dados. Você pode exibir uma lista de verificações existentes nessa fonte de dados em Verificações recentes ou exibir todas as verificações na guia Verificações .

  3. Selecione a verificação que você deseja gerenciar. Você poderá:

    • Edite a verificação selecionando Editar verificação.
    • Cancele uma verificação em andamento selecionando Cancelar execução de verificação.
    • Exclua sua verificação selecionando Excluir verificação.

Observação

  • A exclusão da verificação não exclui os ativos de catálogo criados de verificações anteriores.
  • O ativo não será mais atualizado com alterações de esquema se sua tabela de origem tiver sido alterada e você examinar novamente a tabela de origem depois de editar a descrição na guia Esquema do Microsoft Purview.

Procurar e pesquisar ativos

Depois de examinar o Azure Databricks, você pode procurar o catálogo de dados ou o catálogo de dados de pesquisa para exibir os detalhes do ativo.

No ativo do workspace do Databricks, você pode encontrar o Metastore do Hive associado e as tabelas/exibições, revertidos também.

Captura de tela da navegação de ativos por tipo de origem.

Captura de tela da navegação até os detalhes do ativo de origem do Azure Databricks.

Captura de tela de encontrar o Metastore do Hive associado com a fonte do Azure Databricks.

Linhagem

Consulte a seção recursos com suporte nos cenários do Azure Databricks com suporte. Para obter mais informações sobre linhagem em geral, consulte guia de usuário de linhagem e linhagem de dados.

Acesse a guia tabela/exibição do Hive –> guia linhagem, você pode ver a relação de ativos quando aplicável. Para relação entre ativos de armazenamento externo e tabela, você vê que o ativo de tabela do Hive e o ativo de armazenamento estão diretamente conectados bidirecionalmente, pois eles afetam mutuamente uns aos outros. Se você usar o ponto de montagem na instrução criar tabela, precisará fornecer as informações do ponto de montagem nas configurações de verificação para extrair essa relação.

Captura de tela que mostra o exemplo de linhagem do Azure Databricks.

Próximas etapas

Agora que você registrou sua origem, use os seguintes guias para saber mais sobre o Microsoft Purview e seus dados: