Conectar-se e gerenciar o HDFS no Microsoft Purview

Este artigo descreve como registrar o HDFS (Sistema de Arquivos Distribuídos do Hadoop) e como autenticar e interagir com o HDFS no Microsoft Purview. Para obter mais informações sobre o Microsoft Purview, leia o artigo introdutório.

Recursos compatíveis

Extração de metadados Verificação Completa Verificação Incremental Verificação em escopo Classificação Rotulamento Política de Acesso Linhagem Compartilhamento de dados Exibição ao vivo
Sim Sim Sim Sim Sim Não Não Não Não Não

Ao examinar a origem do HDFS, o Microsoft Purview dá suporte à extração de metadados técnicos, incluindo HDFS:

  • Namenode
  • Folders
  • Arquivos
  • Conjuntos de recursos

Ao configurar a verificação, você pode optar por examinar o HDFS inteiro ou pastas seletivas. Saiba mais sobre o formato de arquivo com suporte aqui.

O conector usa o protocolo webhdfs para se conectar ao HDFS e recuperar metadados. Não há suporte para a distribuição do MapR Hadoop.

Pré-requisitos

Registrar

Esta seção descreve como registrar o HDFS no Microsoft Purview usando o portal de governança do Microsoft Purview.

Etapas para se registrar

Para registrar uma nova fonte do HDFS no catálogo de dados, siga estas etapas:

  1. Navegue até sua conta do Microsoft Purview no portal de governança do Microsoft Purview.
  2. Selecione Mapa de Dados na navegação à esquerda.
  3. Selecionar Registrar
  4. Em Registrar fontes, selecione HDFS. Selecione Continuar.

Na tela Registrar fontes (HDFS), siga estas etapas:

  1. Insira um Nome que a fonte de dados será listada no Catálogo.

  2. Insira a URL de Cluster do NameNode DO HDFS na forma de https://<namenode>:<port> ou http://<namenode>:<port>, por exemplo https://namenodeserver.com:50470 , ou http://namenodeserver.com:50070.

  3. Selecione uma coleção ou crie uma nova (Opcional)

  4. Conclua para registrar a fonte de dados.

    Captura de tela do registro de origem do HDFS no Purview.

Examinar

Siga as etapas abaixo para verificar o HDFS para identificar automaticamente os ativos. Para obter mais informações sobre a verificação em geral, consulte nossa introdução a exames e ingestão.

Autenticação para uma verificação

O tipo de autenticação com suporte para uma fonte HDFS é autenticação Kerberos.

Criar e executar a verificação

Para criar e executar uma nova verificação, siga estas etapas:

  1. Verifique se um runtime de integração auto-hospedado está configurado. Se ele não estiver configurado, use as etapas mencionadas aqui para criar um runtime de integração auto-hospedado.

  2. Navegue até Fontes.

  3. Selecione a fonte HDFS registrada.

  4. Selecione + Nova verificação.

  5. Na página "Verificar source_name", forneça os detalhes a seguir:

    1. Nome: o nome da verificação

    2. Conectar por meio do runtime de integração: selecione o runtime de integração auto-hospedado configurado. Consulte requisitos de instalação na seção Pré-requisitos .

    3. Credencial: selecione a credencial para se conectar à fonte de dados. Certifique-se de:

      • Selecione Autenticação Kerberos ao criar uma credencial.
      • Forneça o nome de usuário no formato do no campo de entrada Nome de <username>@<domain>.com usuário. Saiba mais em Usar a autenticação Kerberos para o conector HDFS.
      • Armazene a senha do usuário usada para se conectar ao HDFS na chave secreta.

      Captura de tela das configurações de verificação do HDFS no Purview.

  6. Selecione Testar conexão.

  7. Selecione Continuar.

  8. Na página "Escopo da verificação", selecione os caminhos que você deseja examinar.

  9. Na página "Selecionar um conjunto de regras de verificação", selecione o conjunto de regras de verificação que você deseja usar para extração e classificação de esquema. Você pode escolher entre o padrão do sistema, os conjuntos de regras personalizados existentes ou criar um novo conjunto de regras embutido. Saiba mais com Criar um conjunto de regras de verificação.

  10. Na página "Definir um gatilho de verificação", escolha o gatilho de verificação. Você pode configurar uma agenda ou executar a verificação uma vez.

  11. Examine a verificação e selecione Salvar e Executar.

Exibir suas verificações e verificar execuções

Para exibir as verificações existentes:

  1. Acesse o portal de governança do Microsoft Purview. No painel esquerdo, selecione Mapa de dados.
  2. Selecione a fonte de dados. Você pode exibir uma lista de verificações existentes nessa fonte de dados em Verificações recentes ou exibir todas as verificações na guia Verificações .
  3. Selecione a verificação que tem resultados que você deseja exibir. O painel mostra todas as execuções de verificação anteriores, juntamente com as status e métricas para cada execução de verificação.
  4. Selecione a ID de execução para marcar os detalhes da execução de verificação.

Gerenciar suas verificações

Para editar, cancelar ou excluir uma verificação:

  1. Acesse o portal de governança do Microsoft Purview. No painel esquerdo, selecione Mapa de Dados.

  2. Selecione a fonte de dados. Você pode exibir uma lista de verificações existentes nessa fonte de dados em Verificações recentes ou exibir todas as verificações na guia Verificações .

  3. Selecione a verificação que você deseja gerenciar. Você poderá:

    • Edite a verificação selecionando Editar verificação.
    • Cancele uma verificação em andamento selecionando Cancelar execução de verificação.
    • Exclua sua verificação selecionando Excluir verificação.

Observação

  • A exclusão da verificação não exclui os ativos de catálogo criados de verificações anteriores.
  • O ativo não será mais atualizado com alterações de esquema se sua tabela de origem tiver sido alterada e você examinar novamente a tabela de origem depois de editar a descrição na guia Esquema do Microsoft Purview.

Usar a autenticação Kerberos para o conector do HDFS

Há duas opções para configurar o ambiente local para usar a autenticação Kerberos para o conector HDFS. Você pode escolher aquele que melhor se encaixa na sua situação.

Para qualquer uma das opções, ative webhdfs para o cluster Hadoop:

  1. Crie a entidade HTTP e o keytab para webhdfs.

    Importante

    A entidade de segurança HTTP Kerberos deve começar com "HTTP/" de acordo com a especificação KERBEROS HTTP SPNEGO. Saiba mais aqui.

    Kadmin> addprinc -randkey HTTP/<namenode hostname>@<REALM.COM>
    Kadmin> ktadd -k /etc/security/keytab/spnego.service.keytab HTTP/<namenode hostname>@<REALM.COM>
    
  2. Opções de configuração do HDFS: adicione as três propriedades a seguir em hdfs-site.xml.

    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>
    <property>
        <name>dfs.web.authentication.kerberos.principal</name>
        <value>HTTP/_HOST@<REALM.COM></value>
    </property>
    <property>
        <name>dfs.web.authentication.kerberos.keytab</name>
        <value>/etc/security/keytab/spnego.service.keytab</value>
    </property>
    

Opção 1: ingressar em um computador de runtime de integração auto-hospedado no domínio Kerberos

Requisitos

  • O computador de runtime de integração auto-hospedada precisa ingressar no domínio Kerberos e não pode ingressar em nenhum domínio do Windows.

Como configurar

No servidor KDC:

Crie uma entidade de segurança e especifique a senha.

Importante

O nome de usuário não deve conter o nome de host.

Kadmin> addprinc <username>@<REALM.COM>

No computador de runtime de integração auto-hospedada:

  1. Execute o utilitário Ksetup para configurar o servidor e o reino do Centro de Distribuição de Chaves kerberos (KDC).

    O computador deve ser configurado como um membro de um grupo de trabalho, pois um reino Kerberos é diferente de um domínio do Windows. Você pode alcançar essa configuração definindo o reino Kerberos e adicionando um servidor KDC executando os comandos a seguir. Substitua REALM.COM pelo próprio nome do reino.

    C:> Ksetup /setdomain REALM.COM
    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    

    Depois de executar esses comandos, reinicie o computador.

  2. Verifique a configuração com o Ksetup comando. A saída deve ser como:

    C:> Ksetup
    default realm = REALM.COM (external)
    REALM.com:
        kdc = <your_kdc_server_address>
    

Em sua conta do Purview:

  • Configure uma credencial com o tipo de autenticação Kerberos com o nome da entidade Kerberos e a senha para verificar o HDFS. Para obter detalhes da configuração, marcar a parte de configuração de credencial na seção Verificação.

Opção 2: habilitar a confiança mútua entre o domínio do Windows e o domínio Kerberos

Requisitos

  • O computador de runtime de integração auto-hospedado deve ingressar em um domínio do Windows.
  • Você precisa de permissão para atualizar as configurações do controlador de domínio.

Como configurar

Observação

Substitua REALM.COM e AD.COM no tutorial a seguir por seu próprio nome de domínio e controlador de domínio.

No servidor KDC:

  1. Edite a configuração KDC no arquivo krb5.conf para permitir que o KDC confie no domínio do Windows, referindo-se ao modelo de configuração a seguir. Por padrão, a configuração está localizada em /etc/krb5.conf.

    [logging]
     default = FILE:/var/log/krb5libs.log
     kdc = FILE:/var/log/krb5kdc.log
     admin_server = FILE:/var/log/kadmind.log
    
    [libdefaults]
     default_realm = REALM.COM
     dns_lookup_realm = false
     dns_lookup_kdc = false
     ticket_lifetime = 24h
     renew_lifetime = 7d
     forwardable = true
    
    [realms]
     REALM.COM = {
      kdc = node.REALM.COM
      admin_server = node.REALM.COM
     }
    AD.COM = {
     kdc = windc.ad.com
     admin_server = windc.ad.com
    }
    
    [domain_realm]
     .REALM.COM = REALM.COM
     REALM.COM = REALM.COM
     .ad.com = AD.COM
     ad.com = AD.COM
    
    [capaths]
     AD.COM = {
      REALM.COM = .
     }
    

    Depois de configurar o arquivo, reinicie o serviço KDC.

  2. Prepare uma entidade chamada krbtgt/REALM.COM@AD.COM no servidor KDC com o seguinte comando:

    Kadmin> addprinc krbtgt/REALM.COM@AD.COM
    
  3. No arquivo de configuração do serviço hadoop.security.auth_to_local HDFS, adicione RULE:[1:$1@$0](.*\@AD.COM)s/\@.*//.

No controlador de domínio:

  1. Execute os seguintes Ksetup comandos para adicionar uma entrada de reino:

    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
    
  2. Estabeleça confiança do domínio do Windows para o domínio Kerberos. [senha] é a senha da entidade de segurança krbtgt/REALM.COM@AD.COM.

    C:> netdom trust REALM.COM /Domain: AD.COM /add /realm /password:[password]
    
  3. Selecione o algoritmo de criptografia usado em Kerberos.

    1. Selecione Gerenciador do Servidor> Política de Grupo Domínio >de Gerenciamento>Política de Grupo Objetos>Padrão ou Política de Domínio Ativo e selecione Editar.

    2. No painel Editor de Gerenciamento do Política de Grupo, selecione Políticas de Configuração> do ComputadorConfigurações> doWindows Configurações>de Segurança Opções> deSegurançapolíticas> locais e configure a segurança de rede: configurar tipos de criptografia permitidos para Kerberos.

    3. Selecione o algoritmo de criptografia que você deseja usar ao se conectar ao servidor KDC. Você pode selecionar todas as opções.

      Captura de tela da segurança de rede: configurar tipos de criptografia permitidos para o painel Kerberos.

    4. Use o Ksetup comando para especificar o algoritmo de criptografia a ser usado no reino especificado.

      C:> ksetup /SetEncTypeAttr REALM.COM DES-CBC-CRC DES-CBC-MD5 RC4-HMAC-MD5 AES128-CTS-HMAC-SHA1-96 AES256-CTS-HMAC-SHA1-96
      
  4. Crie o mapeamento entre a conta de domínio e a entidade Kerberos para que você possa usar a entidade Kerberos no domínio do Windows.

    1. Selecione Ferramentas administrativas Usuários>e Computadores do Active Directory.

    2. Configure recursos avançados selecionando Exibir>Recursos Avançados.

    3. No painel Recursos Avançados , clique com o botão direito do mouse na conta na qual você deseja criar mapeamentos e, no painel Mapeamentos de Nomes , selecione a guia Nomes Kerberos .

    4. Adicione uma entidade de segurança do reino.

      Captura de tela do painel Mapeamento de Identidade de Segurança.

No computador de runtime de integração auto-hospedada:

  • Execute os comandos a seguir Ksetup para adicionar uma entrada de reino.

    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
    

Em sua conta do Purview:

  • Configure uma credencial com o tipo de autenticação Kerberos com o nome da entidade Kerberos e a senha para verificar o HDFS. Para obter detalhes da configuração, marcar a parte de configuração de credencial na seção Verificação.

Limitações conhecidas

Atualmente, o conector HDFS não dá suporte à regra de padrão de conjunto de recursos personalizado para conjunto de recursos avançado, os padrões de conjunto de recursos internos serão aplicados.

O rótulo de confidencialidade ainda não tem suporte.

Próximas etapas

Agora que você registrou sua origem, siga os guias a seguir para saber mais sobre o Microsoft Purview e seus dados.