Compartir vía


Conexión y administración de bases de datos de Metastore de Hive en Microsoft Purview

En este artículo se describe cómo registrar bases de datos de Metastore de Hive y cómo autenticar e interactuar con bases de datos de Metastore de Hive en Microsoft Purview. Para obtener más información sobre Microsoft Purview, lea el artículo introductorio.

Funciones admitidas

Extracción de metadatos Examen completo Examen incremental Examen con ámbito Clasificación Etiquetar Directiva de acceso Linaje Uso compartido de datos Vista en vivo
No No No No Sí* No No

* Además del linaje en los recursos del origen de datos, también se admite el linaje si el conjunto de datos se usa como origen o receptor en la canalización de Data Factory o Synapse.

Las versiones admitidas de Hive son de 2.x a 3.x. Las plataformas admitidas son Apache Hadoop, Cloudera y Hortonworks. Si quiere examinar Azure Databricks, se recomienda usar el conector de Azure Databricks , que es más compatible y fácil de usar.

Al examinar el origen de metastore de Hive, Microsoft Purview admite:

  • Extracción de metadatos técnicos, entre los que se incluyen:

    • Servidor
    • Databases
    • Tablas que incluyen las columnas, las claves externas, las restricciones únicas y la descripción del almacenamiento
    • Vistas que incluyen las columnas y la descripción del almacenamiento
  • Captura del linaje estático en las relaciones de recursos entre tablas y vistas.

Al configurar el examen, puede elegir examinar toda una base de datos de metastore de Hive o limitar el examen a un subconjunto de esquemas que coincidan con los nombres o patrones de nombre especificados.

Limitaciones conocidas

Cuando se elimina el objeto del origen de datos, actualmente el examen posterior no quitará automáticamente el recurso correspondiente en Microsoft Purview.

Requisitos previos

  • Debe tener una cuenta de Azure con una suscripción activa. Cree una cuenta de forma gratuita.

  • Debe tener una cuenta de Microsoft Purview activa.

  • Necesita permisos de administrador de origen de datos y lector de datos para registrar un origen y administrarlo en el portal de gobernanza de Microsoft Purview. Para obtener más información sobre los permisos, consulte Control de acceso en Microsoft Purview.

  • Configure el entorno de ejecución de integración autohospedado más reciente. Para obtener más información, consulte Creación y configuración de un entorno de ejecución de integración autohospedado.

    • Asegúrese de que JDK 11 está instalado en la máquina donde está instalado el entorno de ejecución de integración autohospedado. Reinicie la máquina después de instalar recientemente el JDK para que surta efecto.

    • Asegúrese de que Visual C++ Redistributable (versión Visual Studio 2012 Update 4 o posterior) esté instalado en la máquina donde se ejecuta el entorno de ejecución de integración autohospedado. Si no tiene instalada esta actualización, descárguela ahora.

    • Descargue el controlador JDBC de la base de datos de Metastore de Hive en la máquina en la que se ejecuta el entorno de ejecución de integración autohospedado. Por ejemplo, si la base de datos es mssql, descargue el controlador JDBC de Microsoft para SQL Server. Anote la ruta de acceso de la carpeta que usará para configurar el examen.

      Nota:

      El entorno de ejecución de integración autohospedado debe tener acceso al controlador. De forma predeterminada, el entorno de ejecución de integración autohospedado usa la cuenta de servicio local "NT SERVICE\DIAHostService". Asegúrese de que tiene los permisos "Leer y ejecutar" y "Enumerar contenido de carpeta" en la carpeta del controlador.

Registrarse

En esta sección se describe cómo registrar una base de datos de Metastore de Hive en Microsoft Purview mediante el portal de gobernanza de Microsoft Purview.

La única autenticación admitida para una base de datos de Metastore de Hive es la autenticación básica.

  1. Abra el portal de gobernanza de Microsoft Purview:

  2. Seleccione Mapa de datos en el panel izquierdo.

  3. Seleccione Registrar.

  4. En Registrar orígenes, seleccione Hive MetastoreContinue (Continuar de Hive Metastore>).

  5. En la pantalla Registrar orígenes (Metastore de Hive), haga lo siguiente:

    1. En Nombre, escriba un nombre que Microsoft Purview mostrará como origen de datos.

    2. En Url de clúster de Hive, escriba un valor que obtenga de la dirección URL de Ambari. Por ejemplo, escriba hive.azurehdinsight.net.

    3. En Url del servidor de Metastore de Hive, escriba una dirección URL para el servidor. Por ejemplo, escriba sqlserver://hive.database.windows.net.

    4. En Seleccionar una colección, elija una colección de la lista o cree una nueva. Este paso es opcional.

    Captura de pantalla que muestra los cuadros para registrar orígenes de Hive.

  6. Seleccione Finalizar.

Examinar

Sugerencia

Para solucionar cualquier problema con el examen:

  1. Confirme que ha seguido todos los requisitos previos.
  2. Revise nuestra documentación de solución de problemas de examen.

Siga estos pasos para examinar las bases de datos de Hive Metastore para identificar automáticamente los recursos. Para obtener más información sobre el examen en general, consulte Exámenes e ingesta en Microsoft Purview.

  1. En el Centro de administración, seleccione Entornos de ejecución de integración. Asegúrese de que está configurado un entorno de ejecución de integración autohospedado. Si no está configurado, siga los pasos descritos en Creación y administración de un entorno de ejecución de integración autohospedado.

  2. Vaya a Orígenes.

  3. Seleccione la base de datos de Metastore de Hive registrada.

  4. Seleccione + Nuevo examen.

  5. Proporcione los detalles siguientes:

    1. Nombre: escriba un nombre para el examen.

    2. Conectar a través de Integration Runtime: seleccione el entorno de ejecución de integración autohospedado configurado.

    3. Credencial: seleccione la credencial para conectarse al origen de datos. Asegúrese de:

      • Seleccione Autenticación básica al crear una credencial.
      • Proporcione el nombre de usuario de Metastore en el cuadro adecuado.
      • Almacene la contraseña de Metastore en la clave secreta.

      Para obtener más información, consulte Credenciales para la autenticación de origen en Microsoft Purview.

    4. Ubicación del controlador JDBC de Metastore: especifique la ruta de acceso a la ubicación del controlador JDBC en la máquina donde se ejecuta el entorno de ejecución de integración autohospedado, por ejemplo, D:\Drivers\HiveMetastore. Es la ruta de acceso a la ubicación de la carpeta JAR válida. Asegúrese de que el entorno de ejecución de integración autohospedado pueda acceder al controlador y obtenga más información en la sección requisitos previos.

    5. Metastore JDBC Driver Class (Clase de controlador JDBC de Metastore): proporcione el nombre de clase para el controlador de conexión. Por ejemplo, escriba \com.microsoft.sqlserver.jdbc.SQLServerDriver.

    6. Dirección URL de Metastore JDBC: proporcione el valor de dirección URL de conexión y defina la conexión a la dirección URL del servidor de base de datos de Metastore. Por ejemplo: jdbc:sqlserver://hive.database.windows.net;database=hive;encrypt=true;trustServerCertificate=true;create=false;loginTimeout=300.

      Nota:

      Al copiar la dirección URL de hive-site.xml, quite amp; de la cadena o se producirá un error en el examen.

      Descargue el certificado SSL en la máquina del entorno de ejecución de integración autohospedado y actualice la ruta de acceso a la ubicación del certificado SSL en la máquina en la dirección URL.

      Cuando escriba rutas de acceso de archivo locales en la configuración del examen, cambie el carácter separador de ruta de acceso de Windows de una barra diagonal inversa (\) a una barra diagonal (/). Por ejemplo, si coloca el certificado SSL en la ruta de acceso de archivo local D:\Drivers\SSLCert\BaltimoreCyberTrustRoot.crt.pem, cambie el valor del serverSslCert parámetro a D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem.

      El valor de metastore JDBC URL tendrá un aspecto similar al de este ejemplo:

      jdbc:mariadb://samplehost.mysql.database.azure.com:3306/XXXXXXXXXXXXXXXX?useSSL=true&enabledSslProtocolSuites=TLSv1,TLSv1.1,TLSv1.2&serverSslCert=D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem

    7. Nombre de la base de datos de metastore: proporcione el nombre de la base de datos de Metastore de Hive.

    8. Esquema: especifique una lista de esquemas de Hive que se van a importar. Por ejemplo: schema1; schema2.

      Todos los esquemas de usuario se importan si esa lista está vacía. Todos los esquemas del sistema (por ejemplo, SysAdmin) y los objetos se omiten de forma predeterminada.

      Los patrones de nombre de esquema aceptables que usan la sintaxis de expresión SQL LIKE incluyen el signo de porcentaje (%). Por ejemplo, A%; %B; %C%; D significa:

      • Empezar con A o
      • Terminar con B o
      • Contener C o
      • D igual

      El uso de NOT caracteres especiales y no es aceptable.

    9. Memoria máxima disponible: memoria máxima (en gigabytes) disponible en la máquina del cliente para que se usen los procesos de examen. Este valor depende del tamaño de la base de datos de Metastore de Hive que se va a examinar.

      Nota:

      Como regla general, proporcione 1 GB de memoria por cada 1000 tablas.

    Captura de pantalla que muestra los cuadros de los detalles del examen.

  6. Seleccione Continuar.

  7. En Desencadenador de examen, elija si desea configurar una programación o ejecutar el examen una vez.

  8. Revise el examen y seleccione Guardar y ejecutar.

Visualización de los exámenes y las ejecuciones de examen

Para ver los exámenes existentes:

  1. Vaya al portal de gobernanza de Microsoft Purview. En el panel izquierdo, seleccione Mapa de datos.
  2. Seleccione el origen de datos. Puede ver una lista de exámenes existentes en ese origen de datos en Exámenes recientes o puede ver todos los exámenes en la pestaña Exámenes .
  3. Seleccione el examen que tiene los resultados que desea ver. En el panel se muestran todas las ejecuciones de examen anteriores, junto con el estado y las métricas de cada ejecución de examen.
  4. Seleccione el identificador de ejecución para comprobar los detalles de la ejecución del examen.

Administrar los exámenes

Para editar, cancelar o eliminar un examen:

  1. Vaya al portal de gobernanza de Microsoft Purview. En el panel izquierdo, seleccione Mapa de datos.

  2. Seleccione el origen de datos. Puede ver una lista de exámenes existentes en ese origen de datos en Exámenes recientes o puede ver todos los exámenes en la pestaña Exámenes .

  3. Seleccione el examen que desea administrar. Después, podrá:

    • Edite el examen seleccionando Editar examen.
    • Para cancelar un examen en curso, seleccione Cancelar ejecución del examen.
    • Para eliminar el examen, seleccione Eliminar examen.

Nota:

  • La eliminación del examen no elimina los recursos de catálogo creados a partir de exámenes anteriores.
  • El recurso ya no se actualizará con los cambios de esquema si la tabla de origen ha cambiado y vuelve a examinar la tabla de origen después de editar la descripción en la pestaña Esquema de Microsoft Purview.

Linaje

Después de examinar el origen de Hive Metastore, puede examinar el catálogo de datos o buscar en el catálogo de datos para ver los detalles del recurso.

Vaya a la pestaña recurso -> linaje; puede ver la relación de recursos cuando corresponda. Consulte la sección funcionalidades admitidas en los escenarios de linaje de Hive Metastore admitidos. Para obtener más información sobre el linaje en general, consulte guía del usuario de linaje y linaje de datos.

Siguientes pasos

Ahora que ha registrado el origen, use las siguientes guías para obtener más información sobre Microsoft Purview y sus datos: