Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Importante
El conector de datos sin procesar de Google Analytics está en versión preliminar pública.
En este artículo se describe cómo crear una canalización de ingesta de datos sin procesar de Google Analytics mediante Databricks Lakeflow Connect y Google BigQuery. Puede crear la canalización mediante la interfaz de usuario de Databricks o las API de Databricks.
Antes de empezar
Para crear una canalización de ingesta, debe cumplir los siguientes requisitos:
Su área de trabajo debe estar habilitada para Unity Catalog.
La computación sin servidor debe estar habilitada para tu espacio de trabajo. Consulte Activar la computación sin servidor.
Si tiene previsto crear una nueva conexión: Debe tener privilegios
CREATE CONNECTION
en el metastore.Si el conector admite la creación de canalizaciones basadas en la interfaz de usuario, puede crear la conexión y la canalización al mismo tiempo completando los pasos de esta página. Sin embargo, si usa la creación de canalizaciones basadas en API, debe crear la conexión en el Explorador de catálogos antes de completar los pasos de esta página. Consulte Conexión a orígenes de ingesta administrados.
Si va a utilizar una conexión existente: Debe tener privilegios
USE CONNECTION
oALL PRIVILEGES
en el objeto de conexión.Debe tener
USE CATALOG
privilegios en el catálogo de destino.Debe tener privilegios
USE SCHEMA
yCREATE TABLE
en un esquema existente o privilegiosCREATE SCHEMA
en el catálogo de destino.
Para realizar la ingesta desde GA4 mediante BigQuery, consulte Configuración de Google Analytics 4 y Google BigQuery para la ingesta de Databricks.
Configuración de redes
Si tiene habilitado el control de salida sin servidor, permita las siguientes URL. De lo contrario, omita este paso. Consulte Administración de directivas de red para el control de salida sin servidor.
bigquery.googleapis.com
oauth2.googleapis.com
bigquerystorage.googleapis.com
googleapis.com
Creación de la canalización de ingesta
Permisos necesarios:USE CONNECTION
o ALL PRIVILEGES
en una conexión.
En este paso se describe cómo crear la canalización de ingesta. Cada tabla ingerida se escribe en una tabla de streaming con el mismo nombre.
Interfaz de usuario de Databricks
En la barra lateral del área de trabajo de Azure Databricks, haga clic en Ingesta de datos.
En la página Agregar datos , en Conectores de Databricks, haga clic en Google Analytics 4.
Se abre el asistente para la ingesta.
En la página Canalización de ingesta del asistente, escriba un nombre único para la canalización.
En el menú desplegable Catálogo de destino , seleccione un catálogo. Los datos ingeridos y los registros de eventos se escribirán en este catálogo. Más adelante, seleccionará un esquema de destino.
Seleccione la conexión de Unity Catalog que almacena las credenciales necesarias para acceder a los datos de origen.
Si no hay conexiones existentes al origen, haga clic en Crear conexión y escriba los detalles de autenticación que obtuvo en Configuración de Google Analytics 4 y Google BigQuery para la ingesta de Databricks. Debe tener privilegios
CREATE CONNECTION
en el metastore.Haga clic en Crear canalización y continúe.
En la página Origen , seleccione las tablas que se van a ingerir en Databricks y, a continuación, haga clic en Siguiente.
En la página Destino , seleccione el catálogo de Unity Catalog y el esquema en los que escribir.
Si no desea usar un esquema existente, haga clic en Crear esquema. Debe tener privilegios
USE CATALOG
yCREATE SCHEMA
en el catálogo primario.Haga clic en Guardar canalización y continúe.
(Opcional) En la página Configuración , haga clic en Crear programación. Establezca la frecuencia para actualizar las tablas de destino.
(Opcional) Establezca las notificaciones por correo electrónico para que la operación de canalización se complete correctamente o no.
Haga clic en Guardar y ejecutar canalización.
Notebook de Databricks
Genere un token de acceso personal y copie el token para que pueda pegarlo en un cuaderno más adelante. Consulte Tokens de acceso personal de Azure Databricks para usuarios del área de trabajo.
Importe el cuaderno siguiente en el área de trabajo:
Creación de una canalización de ingesta de datos sin procesar de Google Analytics
Modifique los valores siguientes en el cuaderno:
Celda 1:
api_token
: el token de acceso personal que generó.
Celda 3:
name
: un nombre para la canalizaciónconnection_name
: el nombre de la conexión del catálogo de Unity que creó en el Explorador de Catálogos (Conexiones del Catálogo > Datos Externos >). Si no tiene una conexión existente al origen, puede crear una. Debe tener el privilegioCREATE CONNECTION
en el metastore.source_catalog
: identificador de proyecto de Google Cloud Platform (GCP). Si no se especifica el catálogo de origen, el conector asume que el proyecto de GCP desde el que se va a ingerir es el mencionado en la cuenta de servicio.source_schema
: un nombre de propiedad de Google Analytics con el formatoanalytics_XXXXXXXX
source_table
: el nombre de la tabla de origen:events
,events_intraday
,users
opseudonymous_users
destination_catalog
: un nombre para el catálogo de destino que contendrá los datos ingeridosdestination_schema
: un nombre para el esquema de destino que contendrá los datos ingeridosscd_type
: método SCD que se va a usar:SCD_TYPE_1
oSCD_TYPE_2
. Consulte Seguimiento del historial.
Haga clic en Ejecutar todo.
CLI de Databricks
Para crear la canalización:
databricks pipelines create --json "<pipeline definition or json file path>"
Para editar la canalización:
databricks pipelines update --json "<pipeline definition or json file path>"
Para obtener la definición de la canalización:
databricks pipelines get "<pipeline-id>"
Para eliminar la canalización:
databricks pipelines delete "<pipeline-id>"
Para obtener más información, ejecute:
databricks pipelines --help
databricks pipelines <create|update|get|delete|...> --help
Actualizar la programación y las notificaciones de la canalización
Puede crear una programación para la canalización en la página de detalles de la canalización.
Una vez creada la canalización, vuelva a visitar el área de trabajo de Azure Databricks y, a continuación, haga clic en Canalizaciones.
La nueva canalización aparece en la lista de canalizaciones.
Para ver los detalles de la canalización, haga clic en el nombre de la canalización.
En la página de detalles de la canalización, puede programar la canalización haciendo clic en Programar.
Para establecer notificaciones en la canalización, haga clic en Configuración y agregue una notificación.
Para cada programación que agregue a una canalización, Lakeflow Connect crea automáticamente un trabajo para ella. La canalización de ingesta es una tarea dentro del trabajo. Opcionalmente, puede agregar más tareas al trabajo.