Conexión y administración de HDFS en Microsoft Purview

En este artículo se describe cómo registrar Hadoop Distributed File System (HDFS) y cómo autenticar e interactuar con HDFS en Microsoft Purview. Para obtener más información sobre Microsoft Purview, lea el artículo introductorio.

Funciones admitidas

Extracción de metadatos Examen completo Examen incremental Examen con ámbito Clasificación Etiquetar Directiva de acceso Linaje Uso compartido de datos Vista en vivo
No No No No No

Al examinar el origen de HDFS, Microsoft Purview admite la extracción de metadatos técnicos, incluido HDFS:

  • Namenode
  • Folders
  • Archivos
  • Conjuntos de recursos

Al configurar el examen, puede elegir examinar todas las carpetas de HDFS o selectivas. Obtenga información sobre el formato de archivo admitido aquí.

El conector usa el protocolo webhdfs para conectarse a HDFS y recuperar metadatos. No se admite la distribución de MapR Hadoop.

Requisitos previos

Registrarse

En esta sección se describe cómo registrar HDFS en Microsoft Purview mediante el portal de gobernanza de Microsoft Purview.

Pasos para registrarse

Para registrar un nuevo origen de HDFS en el catálogo de datos, siga estos pasos:

  1. Vaya a su cuenta de Microsoft Purview en el portal de gobernanza de Microsoft Purview.
  2. Seleccione Mapa de datos en el panel de navegación izquierdo.
  3. Seleccione Registrar.
  4. En Registrar orígenes, seleccione HDFS. Seleccione Continuar.

En la pantalla Registrar orígenes (HDFS), siga estos pasos:

  1. Escriba un nombre que indique que el origen de datos aparecerá en el catálogo.

  2. Escriba la dirección URL del clúster del nombre de HDFSNodo en forma de https://<namenode>:<port> o http://<namenode>:<port>, por ejemplo, https://namenodeserver.com:50470 o http://namenodeserver.com:50070.

  3. Seleccione una colección o cree una nueva (opcional)

  4. Termine de registrar el origen de datos.

    Captura de pantalla del registro de origen de HDFS en Purview.

Examinar

Siga los pasos siguientes para examinar HDFS para identificar automáticamente los recursos. Para obtener más información sobre el examen en general, consulte nuestra introducción a los exámenes y la ingesta.

Autenticación para un examen

El tipo de autenticación admitido para un origen HDFS es la autenticación Kerberos.

Creación y ejecución de un examen

Para crear y ejecutar un nuevo examen, siga estos pasos:

  1. Asegúrese de que está configurado un entorno de ejecución de integración autohospedado. Si no está configurado, siga estos pasos para crear un entorno de ejecución de integración autohospedado.

  2. Vaya a Orígenes.

  3. Seleccione el origen HDFS registrado.

  4. Seleccione + Nuevo examen.

  5. En la página "Examinar source_name", proporcione los detalles siguientes:

    1. Nombre: nombre del examen

    2. Conectar a través de Integration Runtime: seleccione el entorno de ejecución de integración autohospedado configurado. Consulte requisitos de configuración en la sección Requisitos previos .

    3. Credencial: seleccione la credencial para conectarse al origen de datos. Asegúrese de:

      • Seleccione Autenticación Kerberos al crear una credencial.
      • Proporcione el nombre de usuario con el formato de <username>@<domain>.com en el campo de entrada Nombre de usuario. Obtenga más información en Uso de la autenticación Kerberos para el conector HDFS.
      • Almacene la contraseña de usuario usada para conectarse a HDFS en la clave secreta.

      Captura de pantalla de las configuraciones de examen de HDFS en Purview.

  6. Seleccione Probar conexión.

  7. Seleccione Continuar.

  8. En la página "Ámbito del examen", seleccione las rutas de acceso que desea examinar.

  9. En la página "Seleccionar un conjunto de reglas de examen", seleccione el conjunto de reglas de examen que desea usar para la extracción y clasificación de esquemas. Puede elegir entre los conjuntos de reglas personalizados predeterminados del sistema existentes o crear un nuevo conjunto de reglas alineado. Obtenga más información en Creación de un conjunto de reglas de examen.

  10. En la página "Establecer un desencadenador de examen", elija el desencadenador de examen. Puede configurar una programación o ejecutar el examen una vez.

  11. Revise el examen y seleccione Guardar y ejecutar.

Visualización de los exámenes y las ejecuciones de examen

Para ver los exámenes existentes:

  1. Vaya al portal de gobernanza de Microsoft Purview. En el panel izquierdo, seleccione Mapa de datos.
  2. Seleccione el origen de datos. Puede ver una lista de exámenes existentes en ese origen de datos en Exámenes recientes o puede ver todos los exámenes en la pestaña Exámenes .
  3. Seleccione el examen que tiene los resultados que desea ver. En el panel se muestran todas las ejecuciones de examen anteriores, junto con el estado y las métricas de cada ejecución de examen.
  4. Seleccione el identificador de ejecución para comprobar los detalles de la ejecución del examen.

Administrar los exámenes

Para editar, cancelar o eliminar un examen:

  1. Vaya al portal de gobernanza de Microsoft Purview. En el panel izquierdo, seleccione Mapa de datos.

  2. Seleccione el origen de datos. Puede ver una lista de exámenes existentes en ese origen de datos en Exámenes recientes o puede ver todos los exámenes en la pestaña Exámenes .

  3. Seleccione el examen que desea administrar. Después, podrá:

    • Edite el examen seleccionando Editar examen.
    • Para cancelar un examen en curso, seleccione Cancelar ejecución del examen.
    • Para eliminar el examen, seleccione Eliminar examen.

Nota:

  • La eliminación del examen no elimina los recursos de catálogo creados a partir de exámenes anteriores.
  • El recurso ya no se actualizará con los cambios de esquema si la tabla de origen ha cambiado y vuelve a examinar la tabla de origen después de editar la descripción en la pestaña Esquema de Microsoft Purview.

Uso de la autenticación Kerberos para el conector HDFS

Hay dos opciones para configurar el entorno local para usar la autenticación Kerberos para el conector HDFS. Usted puede elegir el que mejor se adapte a su situación.

Para cualquiera de las dos opciones, asegúrese de activar webhdfs para el clúster de Hadoop:

  1. Cree la entidad de seguridad HTTP y keytab para webhdfs.

    Importante

    La entidad de seguridad de Kerberos HTTP debe empezar por "HTTP/" según la especificación HTTP SPNEGO de Kerberos. Obtenga más información aquí.

    Kadmin> addprinc -randkey HTTP/<namenode hostname>@<REALM.COM>
    Kadmin> ktadd -k /etc/security/keytab/spnego.service.keytab HTTP/<namenode hostname>@<REALM.COM>
    
  2. Opciones de configuración de HDFS: agregue las tres propiedades siguientes en hdfs-site.xml.

    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>
    <property>
        <name>dfs.web.authentication.kerberos.principal</name>
        <value>HTTP/_HOST@<REALM.COM></value>
    </property>
    <property>
        <name>dfs.web.authentication.kerberos.keytab</name>
        <value>/etc/security/keytab/spnego.service.keytab</value>
    </property>
    

Opción 1: Unirse a una máquina de Integration Runtime autohospedada en el dominio kerberos

Requisitos

  • La máquina del entorno de ejecución de integración autohospedado debe unirse al dominio Kerberos y no puede unirse a ningún dominio de Windows.

Cómo establecer la configuración

En el servidor KDC:

Cree una entidad de seguridad y especifique la contraseña.

Importante

El nombre de usuario no debe contener el nombre de host.

Kadmin> addprinc <username>@<REALM.COM>

En el equipo de Integration Runtime autohospedado:

  1. Ejecute la utilidad Ksetup para configurar el servidor y el dominio del Centro de distribución de claves kerberos (KDC).

    La máquina debe configurarse como miembro de un grupo de trabajo, ya que un dominio Kerberos es diferente de un dominio de Windows. Para lograr esta configuración, establezca el dominio kerberos y agregue un servidor KDC mediante la ejecución de los siguientes comandos. Reemplace REALM.COM por su propio nombre de dominio.

    C:> Ksetup /setdomain REALM.COM
    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    

    Después de ejecutar estos comandos, reinicie la máquina.

  2. Compruebe la configuración con el Ksetup comando . La salida debe ser similar a la siguiente:

    C:> Ksetup
    default realm = REALM.COM (external)
    REALM.com:
        kdc = <your_kdc_server_address>
    

En la cuenta de Purview:

  • Configure una credencial con el tipo de autenticación Kerberos con el nombre principal y la contraseña de Kerberos para examinar hdfs. Para obtener detalles de configuración, compruebe la parte de configuración de credenciales en la sección Examen.

Opción 2: Habilitar la confianza mutua entre el dominio de Windows y el dominio Kerberos

Requisitos

  • La máquina del entorno de ejecución de integración autohospedado debe unirse a un dominio de Windows.
  • Necesita permiso para actualizar la configuración del controlador de dominio.

Cómo establecer la configuración

Nota:

Reemplace REALM.COM y AD.COM en el siguiente tutorial por su propio nombre de dominio y controlador de dominio.

En el servidor KDC:

  1. Edite la configuración de KDC en el archivo krb5.conf para permitir que KDC confíe en el dominio de Windows haciendo referencia a la siguiente plantilla de configuración. De forma predeterminada, la configuración se encuentra en /etc/krb5.conf.

    [logging]
     default = FILE:/var/log/krb5libs.log
     kdc = FILE:/var/log/krb5kdc.log
     admin_server = FILE:/var/log/kadmind.log
    
    [libdefaults]
     default_realm = REALM.COM
     dns_lookup_realm = false
     dns_lookup_kdc = false
     ticket_lifetime = 24h
     renew_lifetime = 7d
     forwardable = true
    
    [realms]
     REALM.COM = {
      kdc = node.REALM.COM
      admin_server = node.REALM.COM
     }
    AD.COM = {
     kdc = windc.ad.com
     admin_server = windc.ad.com
    }
    
    [domain_realm]
     .REALM.COM = REALM.COM
     REALM.COM = REALM.COM
     .ad.com = AD.COM
     ad.com = AD.COM
    
    [capaths]
     AD.COM = {
      REALM.COM = .
     }
    

    Después de configurar el archivo, reinicie el servicio KDC.

  2. Prepare una entidad de seguridad denominada krbtgt/REALM.COM@AD.COM en el servidor KDC con el siguiente comando:

    Kadmin> addprinc krbtgt/REALM.COM@AD.COM
    
  3. En el archivo de configuración del servicio HDFS hadoop.security.auth_to_local , agregue RULE:[1:$1@$0](.*\@AD.COM)s/\@.*//.

En el controlador de dominio:

  1. Ejecute los siguientes Ksetup comandos para agregar una entrada de dominio:

    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
    
  2. Establezca la confianza del dominio de Windows al dominio Kerberos. [password] es la contraseña de la entidad de seguridad krbtgt/REALM.COM@AD.COM.

    C:> netdom trust REALM.COM /Domain: AD.COM /add /realm /password:[password]
    
  3. Seleccione el algoritmo de cifrado que se usa en Kerberos.

    1. Seleccione Administrador del servidor>directiva de grupo Dominio> de administración >directiva de grupo Objetos>Predeterminado o Directiva de dominio activo y, a continuación, seleccione Editar.

    2. En el panel Editor de administración de directiva de grupo, seleccioneDirectivas> de configuración> del equipoConfiguración de Windows Configuración>de seguridad Opciones> de seguridadDirectivas> localesOpciones de seguridad y, a continuación, configure Seguridad de red: Configurar tipos de cifrado permitidos para Kerberos.

    3. Seleccione el algoritmo de cifrado que desea usar al conectarse al servidor KDC. Puede seleccionar todas las opciones.

      Captura de pantalla del panel Seguridad de red: Configurar los tipos de cifrado permitidos para Kerberos.

    4. Use el Ksetup comando para especificar el algoritmo de cifrado que se usará en el dominio de dominio especificado.

      C:> ksetup /SetEncTypeAttr REALM.COM DES-CBC-CRC DES-CBC-MD5 RC4-HMAC-MD5 AES128-CTS-HMAC-SHA1-96 AES256-CTS-HMAC-SHA1-96
      
  4. Cree la asignación entre la cuenta de dominio y la entidad de seguridad kerberos, para que pueda usar la entidad de seguridad kerberos en el dominio de Windows.

    1. Seleccione Herramientas> administrativasUsuarios y equipos de Active Directory.

    2. Configure las características avanzadas seleccionando Ver>características avanzadas.

    3. En el panel Características avanzadas , haga clic con el botón derecho en la cuenta en la que desea crear asignaciones y, en el panel Asignaciones de nombres, seleccione la pestaña Nombres de Kerberos .

    4. Agregue una entidad de seguridad desde el dominio.

      Captura de pantalla del panel Asignación de identidades de seguridad.

En el equipo de Integration Runtime autohospedado:

  • Ejecute los siguientes Ksetup comandos para agregar una entrada de dominio.

    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
    

En la cuenta de Purview:

  • Configure una credencial con el tipo de autenticación Kerberos con el nombre principal y la contraseña de Kerberos para examinar hdfs. Para obtener detalles de configuración, compruebe la parte de configuración de credenciales en la sección Examen.

Limitaciones conocidas

Actualmente, el conector HDFS no admite la regla de patrón de conjunto de recursos personalizado para el conjunto de recursos avanzado; se aplicarán los patrones de conjunto de recursos integrados.

Todavía no se admite la etiqueta de confidencialidad.

Siguientes pasos

Ahora que ha registrado su origen, siga las guías siguientes para obtener más información sobre Microsoft Purview y sus datos.