Conectar-se e gerenciar o HDFS no Microsoft Purview
Este artigo descreve como registrar o HDFS (Sistema de Arquivos Distribuídos do Hadoop) e como autenticar e interagir com o HDFS no Microsoft Purview. Para obter mais informações sobre o Microsoft Purview, leia o artigo introdutório.
Recursos compatíveis
Extração de metadados | Verificação Completa | Verificação Incremental | Verificação em escopo | Classificação | Rotulamento | Política de Acesso | Linhagem | Compartilhamento de dados | Exibição ao vivo |
---|---|---|---|---|---|---|---|---|---|
Sim | Sim | Sim | Sim | Sim | Não | Não | Não | Não | Não |
Ao examinar a origem do HDFS, o Microsoft Purview dá suporte à extração de metadados técnicos, incluindo HDFS:
- Namenode
- Folders
- Arquivos
- Conjuntos de recursos
Ao configurar a verificação, você pode optar por examinar o HDFS inteiro ou pastas seletivas. Saiba mais sobre o formato de arquivo com suporte aqui.
O conector usa o protocolo webhdfs para se conectar ao HDFS e recuperar metadados. Não há suporte para a distribuição do MapR Hadoop.
Pré-requisitos
Uma conta do Azure com uma assinatura ativa. Crie uma conta gratuitamente.
Você precisa de permissões de Administrador de Fonte de Dados e Leitor de Dados para registrar uma fonte e gerenciá-la no portal de governança do Microsoft Purview. Para obter mais informações sobre permissões, consulte Controle de acesso no Microsoft Purview.
Configure o runtime de integração auto-hospedado mais recente. Para obter mais informações, confira o guia criar e configurar um runtime de integração auto-hospedado. A versão de Integration Runtime auto-hospedada com suporte mínimo é 5.20.8235.2.
- Verifique se Pacote Redistribuível do Visual C++ (versão Visual Studio 2012 Atualização 4 ou mais recente) está instalada no computador de runtime de integração auto-hospedada. Se você não tiver essa atualização instalada, poderá baixá-la aqui.
- Verifique se o JRE ou o OpenJDK estão instalados no computador de runtime de integração auto-hospedado para analisar arquivos Parquet e ORC. Saiba mais aqui.
- Para configurar seu ambiente para habilitar a autenticação Kerberos, consulte a seção Usar Kerberos para o conector do HDFS .
Registrar
Esta seção descreve como registrar o HDFS no Microsoft Purview usando o portal de governança do Microsoft Purview.
Etapas para se registrar
Para registrar uma nova fonte do HDFS no catálogo de dados, siga estas etapas:
- Navegue até sua conta do Microsoft Purview no portal de governança do Microsoft Purview.
- Selecione Mapa de Dados na navegação à esquerda.
- Selecionar Registrar
- Em Registrar fontes, selecione HDFS. Selecione Continuar.
Na tela Registrar fontes (HDFS), siga estas etapas:
Insira um Nome que a fonte de dados será listada no Catálogo.
Insira a URL de Cluster do NameNode DO HDFS na forma de
https://<namenode>:<port>
ouhttp://<namenode>:<port>
, por exemplohttps://namenodeserver.com:50470
, ouhttp://namenodeserver.com:50070
.Selecione uma coleção ou crie uma nova (Opcional)
Conclua para registrar a fonte de dados.
Examinar
Siga as etapas abaixo para verificar o HDFS para identificar automaticamente os ativos. Para obter mais informações sobre a verificação em geral, consulte nossa introdução a exames e ingestão.
Autenticação para uma verificação
O tipo de autenticação com suporte para uma fonte HDFS é autenticação Kerberos.
Criar e executar a verificação
Para criar e executar uma nova verificação, siga estas etapas:
Verifique se um runtime de integração auto-hospedado está configurado. Se ele não estiver configurado, use as etapas mencionadas aqui para criar um runtime de integração auto-hospedado.
Navegue até Fontes.
Selecione a fonte HDFS registrada.
Selecione + Nova verificação.
Na página "Verificar source_name", forneça os detalhes a seguir:
Nome: o nome da verificação
Conectar por meio do runtime de integração: selecione o runtime de integração auto-hospedado configurado. Consulte requisitos de instalação na seção Pré-requisitos .
Credencial: selecione a credencial para se conectar à fonte de dados. Certifique-se de:
- Selecione Autenticação Kerberos ao criar uma credencial.
- Forneça o nome de usuário no formato do no campo de entrada Nome de
<username>@<domain>.com
usuário. Saiba mais em Usar a autenticação Kerberos para o conector HDFS. - Armazene a senha do usuário usada para se conectar ao HDFS na chave secreta.
Selecione Testar conexão.
Selecione Continuar.
Na página "Escopo da verificação", selecione os caminhos que você deseja examinar.
Na página "Selecionar um conjunto de regras de verificação", selecione o conjunto de regras de verificação que você deseja usar para extração e classificação de esquema. Você pode escolher entre o padrão do sistema, os conjuntos de regras personalizados existentes ou criar um novo conjunto de regras embutido. Saiba mais com Criar um conjunto de regras de verificação.
Na página "Definir um gatilho de verificação", escolha o gatilho de verificação. Você pode configurar uma agenda ou executar a verificação uma vez.
Examine a verificação e selecione Salvar e Executar.
Exibir suas verificações e verificar execuções
Para exibir as verificações existentes:
- Acesse o portal de governança do Microsoft Purview. No painel esquerdo, selecione Mapa de dados.
- Selecione a fonte de dados. Você pode exibir uma lista de verificações existentes nessa fonte de dados em Verificações recentes ou exibir todas as verificações na guia Verificações .
- Selecione a verificação que tem resultados que você deseja exibir. O painel mostra todas as execuções de verificação anteriores, juntamente com as status e métricas para cada execução de verificação.
- Selecione a ID de execução para marcar os detalhes da execução de verificação.
Gerenciar suas verificações
Para editar, cancelar ou excluir uma verificação:
Acesse o portal de governança do Microsoft Purview. No painel esquerdo, selecione Mapa de Dados.
Selecione a fonte de dados. Você pode exibir uma lista de verificações existentes nessa fonte de dados em Verificações recentes ou exibir todas as verificações na guia Verificações .
Selecione a verificação que você deseja gerenciar. Você poderá:
- Edite a verificação selecionando Editar verificação.
- Cancele uma verificação em andamento selecionando Cancelar execução de verificação.
- Exclua sua verificação selecionando Excluir verificação.
Observação
- A exclusão da verificação não exclui os ativos de catálogo criados de verificações anteriores.
- O ativo não será mais atualizado com alterações de esquema se sua tabela de origem tiver sido alterada e você examinar novamente a tabela de origem depois de editar a descrição na guia Esquema do Microsoft Purview.
Usar a autenticação Kerberos para o conector do HDFS
Há duas opções para configurar o ambiente local para usar a autenticação Kerberos para o conector HDFS. Você pode escolher aquele que melhor se encaixa na sua situação.
- Opção 1: ingressar em um computador de runtime de integração auto-hospedado no domínio Kerberos
- Opção 2: habilitar a confiança mútua entre o domínio do Windows e o domínio Kerberos
Para qualquer uma das opções, ative webhdfs para o cluster Hadoop:
Crie a entidade HTTP e o keytab para webhdfs.
Importante
A entidade de segurança HTTP Kerberos deve começar com "HTTP/" de acordo com a especificação KERBEROS HTTP SPNEGO. Saiba mais aqui.
Kadmin> addprinc -randkey HTTP/<namenode hostname>@<REALM.COM> Kadmin> ktadd -k /etc/security/keytab/spnego.service.keytab HTTP/<namenode hostname>@<REALM.COM>
Opções de configuração do HDFS: adicione as três propriedades a seguir em
hdfs-site.xml
.<property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> <property> <name>dfs.web.authentication.kerberos.principal</name> <value>HTTP/_HOST@<REALM.COM></value> </property> <property> <name>dfs.web.authentication.kerberos.keytab</name> <value>/etc/security/keytab/spnego.service.keytab</value> </property>
Opção 1: ingressar em um computador de runtime de integração auto-hospedado no domínio Kerberos
Requisitos
- O computador de runtime de integração auto-hospedada precisa ingressar no domínio Kerberos e não pode ingressar em nenhum domínio do Windows.
Como configurar
No servidor KDC:
Crie uma entidade de segurança e especifique a senha.
Importante
O nome de usuário não deve conter o nome de host.
Kadmin> addprinc <username>@<REALM.COM>
No computador de runtime de integração auto-hospedada:
Execute o utilitário Ksetup para configurar o servidor e o reino do Centro de Distribuição de Chaves kerberos (KDC).
O computador deve ser configurado como um membro de um grupo de trabalho, pois um reino Kerberos é diferente de um domínio do Windows. Você pode alcançar essa configuração definindo o reino Kerberos e adicionando um servidor KDC executando os comandos a seguir. Substitua REALM.COM pelo próprio nome do reino.
C:> Ksetup /setdomain REALM.COM C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
Depois de executar esses comandos, reinicie o computador.
Verifique a configuração com o
Ksetup
comando. A saída deve ser como:C:> Ksetup default realm = REALM.COM (external) REALM.com: kdc = <your_kdc_server_address>
Em sua conta do Purview:
- Configure uma credencial com o tipo de autenticação Kerberos com o nome da entidade Kerberos e a senha para verificar o HDFS. Para obter detalhes da configuração, marcar a parte de configuração de credencial na seção Verificação.
Opção 2: habilitar a confiança mútua entre o domínio do Windows e o domínio Kerberos
Requisitos
- O computador de runtime de integração auto-hospedado deve ingressar em um domínio do Windows.
- Você precisa de permissão para atualizar as configurações do controlador de domínio.
Como configurar
Observação
Substitua REALM.COM e AD.COM no tutorial a seguir por seu próprio nome de domínio e controlador de domínio.
No servidor KDC:
Edite a configuração KDC no arquivo krb5.conf para permitir que o KDC confie no domínio do Windows, referindo-se ao modelo de configuração a seguir. Por padrão, a configuração está localizada em /etc/krb5.conf.
[logging] default = FILE:/var/log/krb5libs.log kdc = FILE:/var/log/krb5kdc.log admin_server = FILE:/var/log/kadmind.log [libdefaults] default_realm = REALM.COM dns_lookup_realm = false dns_lookup_kdc = false ticket_lifetime = 24h renew_lifetime = 7d forwardable = true [realms] REALM.COM = { kdc = node.REALM.COM admin_server = node.REALM.COM } AD.COM = { kdc = windc.ad.com admin_server = windc.ad.com } [domain_realm] .REALM.COM = REALM.COM REALM.COM = REALM.COM .ad.com = AD.COM ad.com = AD.COM [capaths] AD.COM = { REALM.COM = . }
Depois de configurar o arquivo, reinicie o serviço KDC.
Prepare uma entidade chamada krbtgt/REALM.COM@AD.COM no servidor KDC com o seguinte comando:
Kadmin> addprinc krbtgt/REALM.COM@AD.COM
No arquivo de configuração do serviço hadoop.security.auth_to_local HDFS, adicione
RULE:[1:$1@$0](.*\@AD.COM)s/\@.*//
.
No controlador de domínio:
Execute os seguintes
Ksetup
comandos para adicionar uma entrada de reino:C:> Ksetup /addkdc REALM.COM <your_kdc_server_address> C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
Estabeleça confiança do domínio do Windows para o domínio Kerberos. [senha] é a senha da entidade de segurança krbtgt/REALM.COM@AD.COM.
C:> netdom trust REALM.COM /Domain: AD.COM /add /realm /password:[password]
Selecione o algoritmo de criptografia usado em Kerberos.
Selecione Gerenciador do Servidor> Política de Grupo Domínio >de Gerenciamento>Política de Grupo Objetos>Padrão ou Política de Domínio Ativo e selecione Editar.
No painel Editor de Gerenciamento do Política de Grupo, selecione Políticas de Configuração> do ComputadorConfigurações> doWindows Configurações>de Segurança Opções> deSegurançapolíticas> locais e configure a segurança de rede: configurar tipos de criptografia permitidos para Kerberos.
Selecione o algoritmo de criptografia que você deseja usar ao se conectar ao servidor KDC. Você pode selecionar todas as opções.
Use o
Ksetup
comando para especificar o algoritmo de criptografia a ser usado no reino especificado.C:> ksetup /SetEncTypeAttr REALM.COM DES-CBC-CRC DES-CBC-MD5 RC4-HMAC-MD5 AES128-CTS-HMAC-SHA1-96 AES256-CTS-HMAC-SHA1-96
Crie o mapeamento entre a conta de domínio e a entidade Kerberos para que você possa usar a entidade Kerberos no domínio do Windows.
Selecione Ferramentas administrativas Usuários>e Computadores do Active Directory.
Configure recursos avançados selecionando Exibir>Recursos Avançados.
No painel Recursos Avançados , clique com o botão direito do mouse na conta na qual você deseja criar mapeamentos e, no painel Mapeamentos de Nomes , selecione a guia Nomes Kerberos .
Adicione uma entidade de segurança do reino.
No computador de runtime de integração auto-hospedada:
Execute os comandos a seguir
Ksetup
para adicionar uma entrada de reino.C:> Ksetup /addkdc REALM.COM <your_kdc_server_address> C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
Em sua conta do Purview:
- Configure uma credencial com o tipo de autenticação Kerberos com o nome da entidade Kerberos e a senha para verificar o HDFS. Para obter detalhes da configuração, marcar a parte de configuração de credencial na seção Verificação.
Limitações conhecidas
Atualmente, o conector HDFS não dá suporte à regra de padrão de conjunto de recursos personalizado para conjunto de recursos avançado, os padrões de conjunto de recursos internos serão aplicados.
O rótulo de confidencialidade ainda não tem suporte.
Próximas etapas
Agora que você registrou sua origem, siga os guias a seguir para saber mais sobre o Microsoft Purview e seus dados.