Conexión y administración de proyectos de Google BigQuery en Microsoft Purview
En este artículo se describe cómo registrar proyectos de Google BigQuery y cómo autenticar e interactuar con Google BigQuery en Microsoft Purview. Para obtener más información sobre Microsoft Purview, lea el artículo introductorio.
Funciones admitidas
Extracción de metadatos | Examen completo | Examen incremental | Examen con ámbito | Clasificación | Etiquetar | Directiva de acceso | Linaje | Compartir datos | Vista en directo |
---|---|---|---|---|---|---|---|---|---|
Sí | Sí | No | Sí | No | No | No | Sí | No | No |
Al examinar el origen de Google BigQuery, Microsoft Purview admite:
Extracción de metadatos técnicos, entre los que se incluyen:
- Projects
- Conjuntos de datos
- Tablas que incluyen las columnas
- Vistas que incluyen las columnas
Captura del linaje estático en las relaciones de recursos entre tablas y vistas.
Al configurar el examen, puede elegir examinar todo un proyecto de Google BigQuery o limitar el examen a un subconjunto de conjuntos de datos que coincidan con los nombres o patrones de nombre especificados.
Limitaciones conocidas
- Actualmente, Microsoft Purview solo admite el examen de conjuntos de datos de Google BigQuery en la ubicación multiregiones de EE. UU. Si el conjunto de datos especificado está en otra ubicación, por ejemplo, us-east1 o UE, observará que el examen se completa, pero no se muestran recursos en Microsoft Purview.
- Cuando se elimina el objeto del origen de datos, actualmente el examen posterior no quitará automáticamente el recurso correspondiente en Microsoft Purview.
Requisitos previos
Una cuenta de Azure con una suscripción activa. Cree una cuenta de forma gratuita.
Una cuenta de Microsoft Purview activa.
Necesita permisos de administrador de origen de datos y lector de datos para registrar un origen y administrarlo en el portal de gobernanza de Microsoft Purview. Para obtener más información sobre los permisos, consulte Control de acceso en Microsoft Purview.
Configure el entorno de ejecución de integración adecuado para el escenario:
-
Para usar un entorno de ejecución de integración autohospedado:
- Siga el artículo para crear y configurar un entorno de ejecución de integración autohospedado.
- Asegúrese de que JDK 11 está instalado en la máquina donde está instalado el entorno de ejecución de integración autohospedado. Reinicie la máquina después de instalar recientemente el JDK para que surta efecto.
- Asegúrese de que Visual C++ Redistributable (versión Visual Studio 2012 Update 4 o posterior) esté instalado en la máquina donde se ejecuta el entorno de ejecución de integración autohospedado. Si no tiene instalada esta actualización, descárguela ahora.
- Descargue y descomprima el controlador JDBC de BigQuery en la máquina donde se ejecuta el entorno de ejecución de integración autohospedado. Anote la ruta de acceso de la carpeta que usará para configurar el examen.
-
Para usar un entorno de ejecución de integración autohospedado compatible con kubernetes:
- Siga el artículo para crear y configurar un entorno de ejecución de integración compatible con Kubernetes.
- Descargue y descomprima el controlador JDBC de BigQuery en la máquina donde se ejecuta el entorno de ejecución de integración autohospedado. Anote la ruta de acceso de la carpeta que usará para configurar el examen.
Nota:
El entorno de ejecución de integración autohospedado debe tener acceso al controlador. De forma predeterminada, el entorno de ejecución de integración autohospedado usa la cuenta de servicio local "NT SERVICE\DIAHostService". Asegúrese de que tiene los permisos "Leer y ejecutar" y "Enumerar contenido de carpeta" en la carpeta del controlador.
-
Para usar un entorno de ejecución de integración autohospedado:
Permisos necesarios para el examen
La cuenta de servicio de Google BigQuery que usa para el examen debe tener los roles IAM Visor de metadatos de BigQuery y Usuario de trabajo de BigQuery en los proyectos que desea examinar. Estos permisos son necesarios porque Microsoft Purview extrae los metadatos leyendo las tablas del sistema de base de datos de Google BigQuery (por ejemplo, INFORMATION_SCHEMA). Y el controlador JDBC de Google BigQuery subyacente crea un trabajo de BigQuery cuando necesita leer de estas tablas del sistema.
Microsoft Purview usa el protocolo Oauth 2.0 para acceder al servicio Google BigQuery. Configure la credencial siguiendo las instrucciones de la sección Crear y ejecutar examen .
Registrarse
En esta sección se describe cómo registrar un proyecto de Google BigQuery en Microsoft Purview mediante el portal de gobernanza de Microsoft Purview.
Pasos para registrarse
Abra el portal de gobernanza de Microsoft Purview:
- Vaya directamente a https://web.purview.azure.com la cuenta de Microsoft Purview y selecciónela.
- Abra el Azure Portal, busque y seleccione la cuenta de Microsoft Purview. Seleccione el botón del portal de gobernanza de Microsoft Purview .
Seleccione Mapa de datos en el panel de navegación izquierdo.
Seleccione Registrar.
En Registrar orígenes, seleccione Google BigQuery . Seleccione Continuar.
En la pantalla Registrar orígenes (Google BigQuery), haga lo siguiente:
Escriba un nombre que indique que el origen de datos aparecerá en el catálogo.
Escriba projectid. Debe ser un identificador de proyecto completo. Por ejemplo, mydomain.com:myProject
Seleccione una colección de la lista.
Seleccione Registrar.
Examinar
Siga los pasos siguientes para examinar un proyecto de Google BigQuery para identificar automáticamente los recursos. Para obtener más información sobre el examen en general, consulte nuestra introducción a los exámenes y la ingesta.
Creación y ejecución de un examen
En el Centro de administración, seleccione Entornos de ejecución de integración. Asegúrese de que está configurado un entorno de ejecución de integración autohospedado. Si no está configurado, use los pasos mencionados en los requisitos previos.
Vaya a Orígenes.
Seleccione el proyecto de BigQuery registrado.
Seleccione + Nuevo examen.
Proporcione los detalles siguientes:
Nombre: nombre del examen
Conectar a través de Integration Runtime: seleccione el entorno de ejecución de integración autohospedado configurado.
Credencial: al configurar las credenciales de BigQuery, asegúrese de:
- Seleccione Autenticación básica como método de autenticación.
- Proporcione el identificador de correo electrónico de la cuenta de servicio en el campo Nombre de usuario. Por ejemplo:
xyz\@developer.gserviceaccount.com
- Siga estos pasos para generar la clave privada, copie todo el archivo de clave JSON y almacénelo como el valor de un secreto de Key Vault.
Para crear una nueva clave privada desde la plataforma en la nube de Google:
- En el menú de navegación, seleccione IAM & Administración -> Cuentas de servicio -> Seleccionar un proyecto ->
- Seleccione la dirección de correo electrónico de la cuenta de servicio para la que desea crear una clave.
- Seleccione la pestaña Claves .
- Seleccione el menú desplegable Agregar clave y, a continuación, seleccione Crear nueva clave.
- Elija formato JSON.
Nota:
El contenido de la clave privada se guarda en un archivo temporal en la máquina virtual cuando se ejecutan procesos de examen. Este archivo temporal se elimina una vez completados correctamente los exámenes. En caso de que se produzca un error de examen, el sistema seguirá reintentar hasta que se realice correctamente. Asegúrese de que el acceso está restringido adecuadamente en la máquina virtual donde se ejecuta SHIR.
Para obtener más información sobre las credenciales, consulte el vínculo aquí.
Ubicación del controlador: especifique la ruta de acceso a la ubicación del controlador JDBC en la máquina donde se ejecuta el entorno de ejecución de integración de autohospedado. Por ejemplo:
D:\Drivers\GoogleBigQuery
.- Para el entorno de ejecución de integración autohospedado en una máquina local:
D:\Drivers\GoogleBigQuery
. Es la ruta de acceso a la ubicación de la carpeta JAR válida. El valor debe ser una ruta de acceso de archivo absoluta válida y no contiene espacio. Asegúrese de que el entorno de ejecución de integración autohospedado pueda acceder al controlador; Obtenga más información en la sección de requisitos previos. - Para el entorno de ejecución de integración autohospedado compatible con Kubernetes:
./drivers/GoogleBigQuery
. Es la ruta de acceso a la ubicación de la carpeta JAR válida. El valor debe ser una ruta de acceso de archivo relativa válida. Consulte la documentación para configurar un examen con controladores externos para cargar controladores de antemano.
- Para el entorno de ejecución de integración autohospedado en una máquina local:
Conjunto de datos: especifique una lista de conjuntos de datos de BigQuery que se van a importar. Por ejemplo,
dataset1;dataset2
. Cuando la lista está vacía, se importan todos los conjuntos de datos disponibles. Los patrones de nombres de conjunto de datos aceptables pueden ser nombres estáticos o contener un carácter comodín %.Ejemplo:
A%;%B;%C%;D
- Empezar con A o
- terminar con B o
- contener C o
- igual a D
El uso de NOT y caracteres especiales no es aceptable.
Memoria máxima disponible: memoria máxima (en GB) disponible en la máquina virtual que usarán los procesos de examen. Esto depende del tamaño del proyecto de Google BigQuery que se va a examinar.
Seleccione Probar conexión.
Seleccione Continuar.
Elija el desencadenador de examen. Puede configurar una programación o ejecutar el examen una vez.
Revise el examen y seleccione Guardar y ejecutar.
Visualización de los exámenes y las ejecuciones de examen
Para ver los exámenes existentes:
- Vaya al portal de Microsoft Purview. En el panel izquierdo, seleccione Mapa de datos.
- Seleccione el origen de datos. Puede ver una lista de exámenes existentes en ese origen de datos en Exámenes recientes o puede ver todos los exámenes en la pestaña Exámenes .
- Seleccione el examen que tiene los resultados que desea ver. En el panel se muestran todas las ejecuciones de examen anteriores, junto con el estado y las métricas de cada ejecución de examen.
- Seleccione el identificador de ejecución para comprobar los detalles de la ejecución del examen.
Administrar los exámenes
Para editar, cancelar o eliminar un examen:
Vaya al portal de Microsoft Purview. En el panel izquierdo, seleccione Mapa de datos.
Seleccione el origen de datos. Puede ver una lista de exámenes existentes en ese origen de datos en Exámenes recientes o puede ver todos los exámenes en la pestaña Exámenes .
Seleccione el examen que desea administrar. Después, podrá:
- Edite el examen seleccionando Editar examen.
- Para cancelar un examen en curso, seleccione Cancelar ejecución del examen.
- Para eliminar el examen, seleccione Eliminar examen.
Nota:
- La eliminación del examen no elimina los recursos de catálogo creados a partir de exámenes anteriores.
Linaje
Después de examinar el origen de Google BigQuery, puede examinar el catálogo de datos o buscar en el catálogo de datos para ver los detalles del recurso.
Vaya a la pestaña recurso -> linaje; puede ver la relación de recursos cuando corresponda. Consulte la sección de funcionalidades admitidas en los escenarios de linaje de Google BigQuery compatibles. Para obtener más información sobre el linaje en general, consulte guía del usuario de linaje y linaje de datos.
Pasos siguientes
Ahora que ha registrado su origen, siga las guías siguientes para obtener más información sobre Microsoft Purview y sus datos.