Compartir a través de


Creación de una canalización de ingesta de datos sin procesar de Google Analytics

Importante

El conector de datos sin procesar de Google Analytics está en versión preliminar pública.

En este artículo se describe cómo crear una canalización de ingesta de datos sin procesar de Google Analytics mediante Databricks Lakeflow Connect y Google BigQuery. Puede crear la canalización mediante la interfaz de usuario de Databricks o las API de Databricks.

Antes de empezar

Para crear una canalización de ingesta, debe cumplir los siguientes requisitos:

  • Su área de trabajo debe estar habilitada para Unity Catalog.

  • La computación sin servidor debe estar habilitada para tu espacio de trabajo. Consulte Activar la computación sin servidor.

  • Si tiene previsto crear una nueva conexión: Debe tener privilegios CREATE CONNECTION en el metastore.

    Si el conector admite la creación de canalizaciones basadas en la interfaz de usuario, puede crear la conexión y la canalización al mismo tiempo completando los pasos de esta página. Sin embargo, si usa la creación de canalizaciones basadas en API, debe crear la conexión en el Explorador de catálogos antes de completar los pasos de esta página. Consulte Conexión a orígenes de ingesta administrados.

  • Si va a utilizar una conexión existente: Debe tener privilegios USE CONNECTION o ALL PRIVILEGES en el objeto de conexión.

  • Debe tener USE CATALOG privilegios en el catálogo de destino.

  • Debe tener privilegios USE SCHEMA y CREATE TABLE en un esquema existente o privilegios CREATE SCHEMA en el catálogo de destino.

Para realizar la ingesta desde GA4 mediante BigQuery, consulte Configuración de Google Analytics 4 y Google BigQuery para la ingesta de Databricks.

Configuración de redes

Si tiene habilitado el control de salida sin servidor, permita las siguientes URL. De lo contrario, omita este paso. Consulte Administración de directivas de red para el control de salida sin servidor.

  • bigquery.googleapis.com
  • oauth2.googleapis.com
  • bigquerystorage.googleapis.com
  • googleapis.com

Creación de la canalización de ingesta

Permisos necesarios:USE CONNECTION o ALL PRIVILEGES en una conexión.

En este paso se describe cómo crear la canalización de ingesta. Cada tabla ingerida se escribe en una tabla de streaming con el mismo nombre.

Interfaz de usuario de Databricks

  1. En la barra lateral del área de trabajo de Azure Databricks, haga clic en Ingesta de datos.

  2. En la página Agregar datos , en Conectores de Databricks, haga clic en Google Analytics 4.

    Se abre el asistente para la ingesta.

  3. En la página Canalización de ingesta del asistente, escriba un nombre único para la canalización.

  4. En el menú desplegable Catálogo de destino , seleccione un catálogo. Los datos ingeridos y los registros de eventos se escribirán en este catálogo. Más adelante, seleccionará un esquema de destino.

  5. Seleccione la conexión de Unity Catalog que almacena las credenciales necesarias para acceder a los datos de origen.

    Si no hay conexiones existentes al origen, haga clic en Crear conexión y escriba los detalles de autenticación que obtuvo en Configuración de Google Analytics 4 y Google BigQuery para la ingesta de Databricks. Debe tener privilegios CREATE CONNECTION en el metastore.

  6. Haga clic en Crear canalización y continúe.

  7. En la página Origen , seleccione las tablas que se van a ingerir en Databricks y, a continuación, haga clic en Siguiente.

  8. En la página Destino , seleccione el catálogo de Unity Catalog y el esquema en los que escribir.

    Si no desea usar un esquema existente, haga clic en Crear esquema. Debe tener privilegios USE CATALOG y CREATE SCHEMA en el catálogo primario.

  9. Haga clic en Guardar canalización y continúe.

  10. (Opcional) En la página Configuración , haga clic en Crear programación. Establezca la frecuencia para actualizar las tablas de destino.

  11. (Opcional) Establezca las notificaciones por correo electrónico para que la operación de canalización se complete correctamente o no.

  12. Haga clic en Guardar y ejecutar canalización.

Notebook de Databricks

  1. Genere un token de acceso personal y copie el token para que pueda pegarlo en un cuaderno más adelante. Consulte Tokens de acceso personal de Azure Databricks para usuarios del área de trabajo.

  2. Importe el cuaderno siguiente en el área de trabajo:

    Creación de una canalización de ingesta de datos sin procesar de Google Analytics

    Obtener el cuaderno

  3. Modifique los valores siguientes en el cuaderno:

    Celda 1:

    • api_token: el token de acceso personal que generó.

    Celda 3:

    • name: un nombre para la canalización
    • connection_name: el nombre de la conexión del catálogo de Unity que creó en el Explorador de Catálogos (Conexiones del Catálogo > Datos Externos >). Si no tiene una conexión existente al origen, puede crear una. Debe tener el privilegio CREATE CONNECTION en el metastore.
    • source_catalog: identificador de proyecto de Google Cloud Platform (GCP). Si no se especifica el catálogo de origen, el conector asume que el proyecto de GCP desde el que se va a ingerir es el mencionado en la cuenta de servicio.
    • source_schema: un nombre de propiedad de Google Analytics con el formato analytics_XXXXXXXX
    • source_table: el nombre de la tabla de origen: events, events_intraday, userso pseudonymous_users
    • destination_catalog: un nombre para el catálogo de destino que contendrá los datos ingeridos
    • destination_schema: un nombre para el esquema de destino que contendrá los datos ingeridos
    • scd_type: método SCD que se va a usar: SCD_TYPE_1 o SCD_TYPE_2. Consulte Seguimiento del historial.
  4. Haga clic en Ejecutar todo.

CLI de Databricks

Para crear la canalización:

databricks pipelines create --json "<pipeline definition or json file path>"

Para editar la canalización:

databricks pipelines update --json "<pipeline definition or json file path>"

Para obtener la definición de la canalización:

databricks pipelines get "<pipeline-id>"

Para eliminar la canalización:

databricks pipelines delete "<pipeline-id>"

Para obtener más información, ejecute:

databricks pipelines --help
databricks pipelines <create|update|get|delete|...> --help

Actualizar la programación y las notificaciones de la canalización

Puede crear una programación para la canalización en la página de detalles de la canalización.

  1. Una vez creada la canalización, vuelva a visitar el área de trabajo de Azure Databricks y, a continuación, haga clic en Canalizaciones.

    La nueva canalización aparece en la lista de canalizaciones.

  2. Para ver los detalles de la canalización, haga clic en el nombre de la canalización.

  3. En la página de detalles de la canalización, puede programar la canalización haciendo clic en Programar.

  4. Para establecer notificaciones en la canalización, haga clic en Configuración y agregue una notificación.

Para cada programación que agregue a una canalización, Lakeflow Connect crea automáticamente un trabajo para ella. La canalización de ingesta es una tarea dentro del trabajo. Opcionalmente, puede agregar más tareas al trabajo.