Ligar e gerir o HDFS no Microsoft Purview
Este artigo descreve como registar o Sistema de Ficheiros Distribuído hadoop (HDFS) e como autenticar e interagir com o HDFS no Microsoft Purview. Para obter mais informações sobre o Microsoft Purview, leia o artigo introdutório.
Extração de Metadados | Verificação Completa | Análise Incremental | Análise de Âmbito | Classificação | Rotulamento | Política de Acesso | Linhagem | Compartilhamento de Dados | Modo de exibição ao vivo |
---|---|---|---|---|---|---|---|---|---|
Sim | Sim | Sim | Sim | Sim | Não | Não | Não | Não | Não |
Ao analisar a origem do HDFS, o Microsoft Purview suporta a extração de metadados técnicos, incluindo o HDFS:
- Namenode
- Folders
- Arquivos
- Conjuntos de recursos
Ao configurar a análise, pode optar por analisar todo o HDFS ou pastas seletivas. Saiba mais sobre o formato de ficheiro suportado aqui.
O conector utiliza o protocolo webhdfs para ligar ao HDFS e obter metadados. A distribuição do MapR Hadoop não é suportada.
- Uma conta do Azure com uma subscrição ativa. Crie uma conta gratuitamente.
- Uma conta ativa do Microsoft Purview.
- Precisa de permissões de Administrador de Origem de Dados e Leitor de Dados para registar uma origem e geri-la no portal de governação do Microsoft Purview. Para obter mais informações sobre permissões, consulte Controlo de acesso no Microsoft Purview.
-
Configure o runtime de integração certo para o seu cenário:
-
Para utilizar um runtime de integração autoalojado:
- Siga o artigo para criar e configurar um runtime de integração autoalojado.
- Certifique-se de que o JDK 11 está instalado no computador onde o runtime de integração autoalojado está instalado. Reinicie o computador depois de instalar recentemente o JDK para que este entre em vigor.
- Certifique-se de que Pacote Redistribuível do Visual C++ (versão Visual Studio 2012 Update 4 ou mais recente) está instalado no computador onde o runtime de integração autoalojado está em execução. Se não tiver esta atualização instalada, transfira-a agora.
- Para configurar o seu ambiente para ativar a autenticação Kerberos, veja a secção Utilizar autenticação Kerberos para o conector HDFS .
-
Para utilizar um runtime de integração autoalojado suportado pelo kubernetes:
- Siga o artigo para criar e configurar um runtime de integração suportado pelo kubernetes.
- Para configurar o seu ambiente para ativar a autenticação Kerberos, veja a secção Utilizar autenticação Kerberos para o conector HDFS .
-
Para utilizar um runtime de integração autoalojado:
Esta secção descreve como registar o HDFS no Microsoft Purview com o portal de governação do Microsoft Purview.
Para registar uma nova origem HDFS no seu catálogo de dados, siga estes passos:
- Navegue para a sua conta do Microsoft Purview no portal de governação do Microsoft Purview.
- Selecione Mapa de Dados no painel de navegação esquerdo.
- Selecione Registar
- Em Registar origens, selecione HDFS. Selecione Continuar.
No ecrã Registar origens (HDFS), siga estes passos:
Introduza um Nome que a origem de dados será listada no Catálogo.
Introduza o URL do Cluster do NameNode do HDFS sob a forma de
https://<namenode>:<port>
ouhttp://<namenode>:<port>
, por exemplohttps://namenodeserver.com:50470
, ouhttp://namenodeserver.com:50070
.Selecione uma coleção na lista.
Concluir para registar a origem de dados.
Siga os passos abaixo para analisar o HDFS para identificar automaticamente os recursos. Para obter mais informações sobre a análise em geral, veja a nossa introdução às análises e ingestão.
O tipo de autenticação suportado para uma origem HDFS é a autenticação Kerberos.
Para criar e executar uma nova análise, siga estes passos:
Certifique-se de que está configurado um runtime de integração autoalojado. Se não estiver configurado, utilize os passos mencionados nos pré-requisitos para criar um runtime de integração autoalojado.
Navegue para Origens.
Selecione a origem do HDFS registada.
Selecione + Nova análise.
Na página "Analisar source_name", forneça os detalhes abaixo:
Nome: o nome da análise
Ligar através do runtime de integração: selecione o runtime de integração autoalojado configurado. Veja os requisitos de configuração na secção Pré-requisitos .
Credencial: selecione a credencial para ligar à sua origem de dados. Certifique-se de que:
- Selecione Autenticação Kerberos ao criar uma credencial.
- Indique o nome de utilizador no formato de no campo De entrada Nome de
<username>@<domain>.com
utilizador. Saiba mais em Utilizar a autenticação Kerberos para o conector HDFS. - Armazene a palavra-passe de utilizador utilizada para ligar ao HDFS na chave secreta.
Selecione Testar ligação.
Selecione Continuar.
Na página "Âmbito da análise", selecione os caminhos que pretende analisar.
Na página "Selecionar um conjunto de regras de análise", selecione o conjunto de regras de análise que pretende utilizar para a extração e classificação de esquemas. Pode escolher entre a predefinição do sistema, os conjuntos de regras personalizadas existentes ou criar um novo conjunto de regras inline. Saiba mais em Criar um conjunto de regras de análise.
Na página "Definir um acionador de análise", selecione o acionador de análise. Pode configurar uma agenda ou executar a análise uma vez.
Reveja a análise e selecione Guardar e Executar.
Para ver as análises existentes:
- Aceda ao portal do Microsoft Purview. No painel esquerdo, selecione Mapa de dados.
- Selecione a origem de dados. Pode ver uma lista de análises existentes nessa origem de dados em Análises recentes ou pode ver todas as análises no separador Análises .
- Selecione a análise que tem os resultados que pretende ver. O painel mostra-lhe todas as execuções de análise anteriores, juntamente com as status e as métricas de cada execução de análise.
- Selecione o ID de execução para marcar os detalhes da execução da análise.
Para editar, cancelar ou eliminar uma análise:
Aceda ao portal do Microsoft Purview. No painel esquerdo, selecione Mapa de Dados.
Selecione a origem de dados. Pode ver uma lista de análises existentes nessa origem de dados em Análises recentes ou pode ver todas as análises no separador Análises .
Selecione a análise que pretende gerir. Você poderá:
- Edite a análise ao selecionar Editar análise.
- Cancele uma análise em curso ao selecionar Cancelar execução de análise.
- Elimine a análise ao selecionar Eliminar análise.
Observação
- Eliminar a análise não elimina os recursos de catálogo criados a partir de análises anteriores.
Existem duas opções para configurar o ambiente no local para utilizar a autenticação Kerberos para o conector HDFS. Pode escolher o que melhor se adequa à sua situação.
- Opção 1: associar um computador de runtime de integração autoalojado no domínio Kerberos
- Opção 2: Ativar a confiança mútua entre o domínio do Windows e o domínio Kerberos
Para qualquer uma das opções, certifique-se de que ativa webhdfs para o cluster do Hadoop:
Crie o principal HTTP e o keytab para webhdfs.
Importante
O principal kerberos HTTP tem de começar com "HTTP/", de acordo com a especificação Kerberos HTTP SPNEGO. Saiba mais a partir daqui.
Kadmin> addprinc -randkey HTTP/<namenode hostname>@<REALM.COM> Kadmin> ktadd -k /etc/security/keytab/spnego.service.keytab HTTP/<namenode hostname>@<REALM.COM>
Opções de configuração do HDFS: adicione as três propriedades seguintes em
hdfs-site.xml
.<property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> <property> <name>dfs.web.authentication.kerberos.principal</name> <value>HTTP/_HOST@<REALM.COM></value> </property> <property> <name>dfs.web.authentication.kerberos.keytab</name> <value>/etc/security/keytab/spnego.service.keytab</value> </property>
- O computador de runtime de integração autoalojado precisa de associar o domínio Kerberos e não pode aderir a nenhum domínio do Windows.
No servidor KDC:
Crie um principal e especifique a palavra-passe.
Importante
O nome de utilizador não deve conter o nome do anfitrião.
Kadmin> addprinc <username>@<REALM.COM>
No computador runtime de integração autoalojado:
Execute o utilitário Ksetup para configurar o servidor e o realm do Kerberos Key Distribution Center (KDC).
A máquina tem de ser configurada como membro de um grupo de trabalho, porque um realm Kerberos é diferente de um domínio do Windows. Pode alcançar esta configuração ao definir o domínio Kerberos e ao adicionar um servidor KDC ao executar os seguintes comandos. Substitua REALM.COM pelo seu próprio nome realm.
C:> Ksetup /setdomain REALM.COM C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
Depois de executar estes comandos, reinicie o computador.
Verifique a configuração com o
Ksetup
comando . O resultado deve ser semelhante a:C:> Ksetup default realm = REALM.COM (external) REALM.com: kdc = <your_kdc_server_address>
Na sua conta do Purview:
- Configure uma credencial com o tipo de autenticação Kerberos com o nome principal e a palavra-passe do Kerberos para analisar o HDFS. Para obter detalhes de configuração, marcar a parte de definição de credenciais na secção Analisar.
- O computador runtime de integração autoalojado tem de aderir a um domínio do Windows.
- Precisa de permissão para atualizar as definições do controlador de domínio.
Observação
Substitua REALM.COM e AD.COM no tutorial seguinte pelo seu próprio nome de domínio e controlador de domínio.
No servidor KDC:
Edite a configuração KDC no ficheiro krb5.conf para permitir que o KDC confie no domínio do Windows ao consultar o seguinte modelo de configuração. Por predefinição, a configuração está localizada em /etc/krb5.conf.
[logging] default = FILE:/var/log/krb5libs.log kdc = FILE:/var/log/krb5kdc.log admin_server = FILE:/var/log/kadmind.log [libdefaults] default_realm = REALM.COM dns_lookup_realm = false dns_lookup_kdc = false ticket_lifetime = 24h renew_lifetime = 7d forwardable = true [realms] REALM.COM = { kdc = node.REALM.COM admin_server = node.REALM.COM } AD.COM = { kdc = windc.ad.com admin_server = windc.ad.com } [domain_realm] .REALM.COM = REALM.COM REALM.COM = REALM.COM .ad.com = AD.COM ad.com = AD.COM [capaths] AD.COM = { REALM.COM = . }
Depois de configurar o ficheiro, reinicie o serviço KDC.
Prepare um principal com o nome krbtgt/REALM.COM@AD.COM no servidor KDC com o seguinte comando:
Kadmin> addprinc krbtgt/REALM.COM@AD.COM
No hadoop.security.auth_to_local ficheiro de configuração do serviço HDFS, adicione
RULE:[1:$1@$0](.*\@AD.COM)s/\@.*//
.
No controlador de domínio:
Execute os seguintes
Ksetup
comandos para adicionar uma entrada de realm:C:> Ksetup /addkdc REALM.COM <your_kdc_server_address> C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
Estabeleça a confiança do domínio do Windows para o domínio Kerberos. [palavra-passe] é a palavra-passe do principal krbtgt/REALM.COM@AD.COM.
C:> netdom trust REALM.COM /Domain: AD.COM /add /realm /password:[password]
Selecione o algoritmo de encriptação utilizado no Kerberos.
Selecione Gerenciador do Servidor> Política de GrupoDomínio> de Gestão>Política de Grupo Objetos>Predefinidos ou Política de Domínio Ativa e, em seguida, selecione Editar.
No painel Editor gestão de Política de Grupo, selecionePolíticas> de Configuração> do ComputadorDefinições do Windows Definições>>de Segurança OpçõesdeSegurançaPolíticas> Locais e, em seguida, configure Segurança de rede: Configurar tipos de Encriptação permitidos para Kerberos.
Selecione o algoritmo de encriptação que pretende utilizar quando ligar ao servidor KDC. Pode selecionar todas as opções.
Utilize o
Ksetup
comando para especificar o algoritmo de encriptação a ser utilizado no realm especificado.C:> ksetup /SetEncTypeAttr REALM.COM DES-CBC-CRC DES-CBC-MD5 RC4-HMAC-MD5 AES128-CTS-HMAC-SHA1-96 AES256-CTS-HMAC-SHA1-96
Crie o mapeamento entre a conta de domínio e o principal kerberos, para que possa utilizar o principal Kerberos no domínio do Windows.
Selecione Ferramentas administrativas>Usuários e Computadores do Active Directory.
Configure funcionalidades avançadas ao selecionar Ver>Funcionalidades Avançadas.
No painel Funcionalidades Avançadas , clique com o botão direito do rato na conta para a qual pretende criar mapeamentos e, no painel Mapeamentos de Nomes , selecione o separador Nomes kerberos .
Adicione um principal a partir do domínio.
No computador runtime de integração autoalojado:
Execute os seguintes
Ksetup
comandos para adicionar uma entrada de realm.C:> Ksetup /addkdc REALM.COM <your_kdc_server_address> C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
Na sua conta do Purview:
- Configure uma credencial com o tipo de autenticação Kerberos com o nome principal e a palavra-passe do Kerberos para analisar o HDFS. Para obter detalhes de configuração, marcar a parte de definição de credenciais na secção Analisar.
Atualmente, o conector HDFS não suporta a regra de padrão de conjunto de recursos personalizada para o conjunto de recursos avançado, os padrões do conjunto de recursos incorporados serão aplicados.
A etiqueta de confidencialidade ainda não é suportada.
Agora que registou a sua origem, siga os guias abaixo para saber mais sobre o Microsoft Purview e os seus dados.