Conexión y administración de HDFS en Microsoft Purview
En este artículo se describe cómo registrar Hadoop Distributed File System (HDFS) y cómo autenticar e interactuar con HDFS en Microsoft Purview. Para obtener más información sobre Microsoft Purview, lea el artículo introductorio.
Funciones admitidas
Extracción de metadatos | Examen completo | Examen incremental | Examen con ámbito | Clasificación | Etiquetar | Directiva de acceso | Linaje | Uso compartido de datos | Vista en vivo |
---|---|---|---|---|---|---|---|---|---|
Sí | Sí | Sí | Sí | Sí | No | No | No | No | No |
Al examinar el origen de HDFS, Microsoft Purview admite la extracción de metadatos técnicos, incluido HDFS:
- Namenode
- Folders
- Archivos
- Conjuntos de recursos
Al configurar el examen, puede elegir examinar todas las carpetas de HDFS o selectivas. Obtenga información sobre el formato de archivo admitido aquí.
El conector usa el protocolo webhdfs para conectarse a HDFS y recuperar metadatos. No se admite la distribución de MapR Hadoop.
Requisitos previos
Una cuenta de Azure con una suscripción activa. Cree una cuenta de forma gratuita.
Una cuenta de Microsoft Purview activa.
Necesita permisos de administrador de origen de datos y lector de datos para registrar un origen y administrarlo en el portal de gobernanza de Microsoft Purview. Para obtener más información sobre los permisos, consulte Control de acceso en Microsoft Purview.
Configure el entorno de ejecución de integración autohospedado más reciente. Para obtener más información, consulte la guía crear y configurar un entorno de ejecución de integración autohospedado. La versión mínima de Integration Runtime autohospedado compatible es 5.20.8235.2.
- Asegúrese de que Visual C++ Redistributable (versión Visual Studio 2012 Update 4 o posterior) esté instalado en el equipo de Integration Runtime autohospedado. Si no tiene instalada esta actualización, puede descargarla aquí.
- Asegúrese de que JRE o OpenJDK están instalados en la máquina del entorno de ejecución de integración autohospedado para analizar archivos Parquet y ORC. Obtenga más información aquí.
- Para configurar el entorno para habilitar la autenticación Kerberos, consulte la sección Uso de la autenticación Kerberos para el conector HDFS .
Registrarse
En esta sección se describe cómo registrar HDFS en Microsoft Purview mediante el portal de gobernanza de Microsoft Purview.
Pasos para registrarse
Para registrar un nuevo origen de HDFS en el catálogo de datos, siga estos pasos:
- Vaya a su cuenta de Microsoft Purview en el portal de gobernanza de Microsoft Purview.
- Seleccione Mapa de datos en el panel de navegación izquierdo.
- Seleccione Registrar.
- En Registrar orígenes, seleccione HDFS. Seleccione Continuar.
En la pantalla Registrar orígenes (HDFS), siga estos pasos:
Escriba un nombre que indique que el origen de datos aparecerá en el catálogo.
Escriba la dirección URL del clúster del nombre de HDFSNodo en forma de
https://<namenode>:<port>
ohttp://<namenode>:<port>
, por ejemplo,https://namenodeserver.com:50470
ohttp://namenodeserver.com:50070
.Seleccione una colección o cree una nueva (opcional)
Termine de registrar el origen de datos.
Examinar
Siga los pasos siguientes para examinar HDFS para identificar automáticamente los recursos. Para obtener más información sobre el examen en general, consulte nuestra introducción a los exámenes y la ingesta.
Autenticación para un examen
El tipo de autenticación admitido para un origen HDFS es la autenticación Kerberos.
Creación y ejecución de un examen
Para crear y ejecutar un nuevo examen, siga estos pasos:
Asegúrese de que está configurado un entorno de ejecución de integración autohospedado. Si no está configurado, siga estos pasos para crear un entorno de ejecución de integración autohospedado.
Vaya a Orígenes.
Seleccione el origen HDFS registrado.
Seleccione + Nuevo examen.
En la página "Examinar source_name", proporcione los detalles siguientes:
Nombre: nombre del examen
Conectar a través de Integration Runtime: seleccione el entorno de ejecución de integración autohospedado configurado. Consulte requisitos de configuración en la sección Requisitos previos .
Credencial: seleccione la credencial para conectarse al origen de datos. Asegúrese de:
- Seleccione Autenticación Kerberos al crear una credencial.
- Proporcione el nombre de usuario con el formato de
<username>@<domain>.com
en el campo de entrada Nombre de usuario. Obtenga más información en Uso de la autenticación Kerberos para el conector HDFS. - Almacene la contraseña de usuario usada para conectarse a HDFS en la clave secreta.
Seleccione Probar conexión.
Seleccione Continuar.
En la página "Ámbito del examen", seleccione las rutas de acceso que desea examinar.
En la página "Seleccionar un conjunto de reglas de examen", seleccione el conjunto de reglas de examen que desea usar para la extracción y clasificación de esquemas. Puede elegir entre los conjuntos de reglas personalizados predeterminados del sistema existentes o crear un nuevo conjunto de reglas alineado. Obtenga más información en Creación de un conjunto de reglas de examen.
En la página "Establecer un desencadenador de examen", elija el desencadenador de examen. Puede configurar una programación o ejecutar el examen una vez.
Revise el examen y seleccione Guardar y ejecutar.
Visualización de los exámenes y las ejecuciones de examen
Para ver los exámenes existentes:
- Vaya al portal de gobernanza de Microsoft Purview. En el panel izquierdo, seleccione Mapa de datos.
- Seleccione el origen de datos. Puede ver una lista de exámenes existentes en ese origen de datos en Exámenes recientes o puede ver todos los exámenes en la pestaña Exámenes .
- Seleccione el examen que tiene los resultados que desea ver. En el panel se muestran todas las ejecuciones de examen anteriores, junto con el estado y las métricas de cada ejecución de examen.
- Seleccione el identificador de ejecución para comprobar los detalles de la ejecución del examen.
Administrar los exámenes
Para editar, cancelar o eliminar un examen:
Vaya al portal de gobernanza de Microsoft Purview. En el panel izquierdo, seleccione Mapa de datos.
Seleccione el origen de datos. Puede ver una lista de exámenes existentes en ese origen de datos en Exámenes recientes o puede ver todos los exámenes en la pestaña Exámenes .
Seleccione el examen que desea administrar. Después, podrá:
- Edite el examen seleccionando Editar examen.
- Para cancelar un examen en curso, seleccione Cancelar ejecución del examen.
- Para eliminar el examen, seleccione Eliminar examen.
Nota:
- La eliminación del examen no elimina los recursos de catálogo creados a partir de exámenes anteriores.
- El recurso ya no se actualizará con los cambios de esquema si la tabla de origen ha cambiado y vuelve a examinar la tabla de origen después de editar la descripción en la pestaña Esquema de Microsoft Purview.
Uso de la autenticación Kerberos para el conector HDFS
Hay dos opciones para configurar el entorno local para usar la autenticación Kerberos para el conector HDFS. Usted puede elegir el que mejor se adapte a su situación.
- Opción 1: Unirse a una máquina de Integration Runtime autohospedada en el dominio kerberos
- Opción 2: Habilitar la confianza mutua entre el dominio de Windows y el dominio Kerberos
Para cualquiera de las dos opciones, asegúrese de activar webhdfs para el clúster de Hadoop:
Cree la entidad de seguridad HTTP y keytab para webhdfs.
Importante
La entidad de seguridad de Kerberos HTTP debe empezar por "HTTP/" según la especificación HTTP SPNEGO de Kerberos. Obtenga más información aquí.
Kadmin> addprinc -randkey HTTP/<namenode hostname>@<REALM.COM> Kadmin> ktadd -k /etc/security/keytab/spnego.service.keytab HTTP/<namenode hostname>@<REALM.COM>
Opciones de configuración de HDFS: agregue las tres propiedades siguientes en
hdfs-site.xml
.<property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> <property> <name>dfs.web.authentication.kerberos.principal</name> <value>HTTP/_HOST@<REALM.COM></value> </property> <property> <name>dfs.web.authentication.kerberos.keytab</name> <value>/etc/security/keytab/spnego.service.keytab</value> </property>
Opción 1: Unirse a una máquina de Integration Runtime autohospedada en el dominio kerberos
Requisitos
- La máquina del entorno de ejecución de integración autohospedado debe unirse al dominio Kerberos y no puede unirse a ningún dominio de Windows.
Cómo establecer la configuración
En el servidor KDC:
Cree una entidad de seguridad y especifique la contraseña.
Importante
El nombre de usuario no debe contener el nombre de host.
Kadmin> addprinc <username>@<REALM.COM>
En el equipo de Integration Runtime autohospedado:
Ejecute la utilidad Ksetup para configurar el servidor y el dominio del Centro de distribución de claves kerberos (KDC).
La máquina debe configurarse como miembro de un grupo de trabajo, ya que un dominio Kerberos es diferente de un dominio de Windows. Para lograr esta configuración, establezca el dominio kerberos y agregue un servidor KDC mediante la ejecución de los siguientes comandos. Reemplace REALM.COM por su propio nombre de dominio.
C:> Ksetup /setdomain REALM.COM C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
Después de ejecutar estos comandos, reinicie la máquina.
Compruebe la configuración con el
Ksetup
comando . La salida debe ser similar a la siguiente:C:> Ksetup default realm = REALM.COM (external) REALM.com: kdc = <your_kdc_server_address>
En la cuenta de Purview:
- Configure una credencial con el tipo de autenticación Kerberos con el nombre principal y la contraseña de Kerberos para examinar hdfs. Para obtener detalles de configuración, compruebe la parte de configuración de credenciales en la sección Examen.
Opción 2: Habilitar la confianza mutua entre el dominio de Windows y el dominio Kerberos
Requisitos
- La máquina del entorno de ejecución de integración autohospedado debe unirse a un dominio de Windows.
- Necesita permiso para actualizar la configuración del controlador de dominio.
Cómo establecer la configuración
Nota:
Reemplace REALM.COM y AD.COM en el siguiente tutorial por su propio nombre de dominio y controlador de dominio.
En el servidor KDC:
Edite la configuración de KDC en el archivo krb5.conf para permitir que KDC confíe en el dominio de Windows haciendo referencia a la siguiente plantilla de configuración. De forma predeterminada, la configuración se encuentra en /etc/krb5.conf.
[logging] default = FILE:/var/log/krb5libs.log kdc = FILE:/var/log/krb5kdc.log admin_server = FILE:/var/log/kadmind.log [libdefaults] default_realm = REALM.COM dns_lookup_realm = false dns_lookup_kdc = false ticket_lifetime = 24h renew_lifetime = 7d forwardable = true [realms] REALM.COM = { kdc = node.REALM.COM admin_server = node.REALM.COM } AD.COM = { kdc = windc.ad.com admin_server = windc.ad.com } [domain_realm] .REALM.COM = REALM.COM REALM.COM = REALM.COM .ad.com = AD.COM ad.com = AD.COM [capaths] AD.COM = { REALM.COM = . }
Después de configurar el archivo, reinicie el servicio KDC.
Prepare una entidad de seguridad denominada krbtgt/REALM.COM@AD.COM en el servidor KDC con el siguiente comando:
Kadmin> addprinc krbtgt/REALM.COM@AD.COM
En el archivo de configuración del servicio HDFS hadoop.security.auth_to_local , agregue
RULE:[1:$1@$0](.*\@AD.COM)s/\@.*//
.
En el controlador de dominio:
Ejecute los siguientes
Ksetup
comandos para agregar una entrada de dominio:C:> Ksetup /addkdc REALM.COM <your_kdc_server_address> C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
Establezca la confianza del dominio de Windows al dominio Kerberos. [password] es la contraseña de la entidad de seguridad krbtgt/REALM.COM@AD.COM.
C:> netdom trust REALM.COM /Domain: AD.COM /add /realm /password:[password]
Seleccione el algoritmo de cifrado que se usa en Kerberos.
Seleccione Administrador del servidor>directiva de grupo Dominio> de administración >directiva de grupo Objetos>Predeterminado o Directiva de dominio activo y, a continuación, seleccione Editar.
En el panel Editor de administración de directiva de grupo, seleccioneDirectivas> de configuración> del equipoConfiguración de Windows Configuración>de seguridad Opciones> de seguridadDirectivas> localesOpciones de seguridad y, a continuación, configure Seguridad de red: Configurar tipos de cifrado permitidos para Kerberos.
Seleccione el algoritmo de cifrado que desea usar al conectarse al servidor KDC. Puede seleccionar todas las opciones.
Use el
Ksetup
comando para especificar el algoritmo de cifrado que se usará en el dominio de dominio especificado.C:> ksetup /SetEncTypeAttr REALM.COM DES-CBC-CRC DES-CBC-MD5 RC4-HMAC-MD5 AES128-CTS-HMAC-SHA1-96 AES256-CTS-HMAC-SHA1-96
Cree la asignación entre la cuenta de dominio y la entidad de seguridad kerberos, para que pueda usar la entidad de seguridad kerberos en el dominio de Windows.
Seleccione Herramientas> administrativasUsuarios y equipos de Active Directory.
Configure las características avanzadas seleccionando Ver>características avanzadas.
En el panel Características avanzadas , haga clic con el botón derecho en la cuenta en la que desea crear asignaciones y, en el panel Asignaciones de nombres, seleccione la pestaña Nombres de Kerberos .
Agregue una entidad de seguridad desde el dominio.
En el equipo de Integration Runtime autohospedado:
Ejecute los siguientes
Ksetup
comandos para agregar una entrada de dominio.C:> Ksetup /addkdc REALM.COM <your_kdc_server_address> C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
En la cuenta de Purview:
- Configure una credencial con el tipo de autenticación Kerberos con el nombre principal y la contraseña de Kerberos para examinar hdfs. Para obtener detalles de configuración, compruebe la parte de configuración de credenciales en la sección Examen.
Limitaciones conocidas
Actualmente, el conector HDFS no admite la regla de patrón de conjunto de recursos personalizado para el conjunto de recursos avanzado; se aplicarán los patrones de conjunto de recursos integrados.
Todavía no se admite la etiqueta de confidencialidad.
Siguientes pasos
Ahora que ha registrado su origen, siga las guías siguientes para obtener más información sobre Microsoft Purview y sus datos.