Proporcionar datos de lakehouse

Sincronice una tabla de Catálogo de Unity en Postgres y véela junto con los datos operativos.

Pasos:Crear datos analíticos → ② Sincronizar con Lakebase → ③ Encuentra tus datos en Postgres → ④ Consultar en ambos entornos

Note

Este es un inicio rápido. Para obtener documentación completa, consulte Sincronización de tablas.

Antes de empezar

  • Asegúrese de que ha completado La obtención de una base de datos de Postgres. Necesita un proyecto de Lakebase con datos de ejemplo.
  • Un almacén de SQL o un cuaderno para consultas del catálogo de Unity.
  • USE_SCHEMA y CREATE_TABLE en el esquema donde creará la tabla sincronizada.

Paso 1: Crear datos de análisis en el catálogo de Unity

Imagine que el equipo de datos ha creado puntuaciones de segmentación de usuarios en lakehouse. En producción, esto sería una tabla de oro, el resultado de un modelo de aprendizaje automático o un conjunto de datos enriquecido. En esta guía, crearás una pequeña muestra.

En un almacén de SQL o un cuaderno, ejecute:

CREATE TABLE main.default.user_segments AS
SELECT * FROM VALUES
  (1, 'power_user', 0.92),
  (2, 'casual', 0.35),
  (3, 'power_user', 0.88)
AS segments(user_id, segment, engagement_score);

Observe cómo los valores de user_id coinciden con la columna id de su tabla playing_with_lakebase de get-started. Eso es intencionado. Te unirás a ellos en el paso 4.

Más información: Tipos de origen admitidos

Paso 2: Sincronizar la tabla con Lakebase

En el Explorador de catálogos, vaya a su tabla user_segments y cree una tabla sincronizada a partir de ella. Seleccione la databricks_postgres base de datos de su proyecto de Lakebase como destino e Instantánea como modo de sincronización. Snapshot copia los datos una sola vez. Es la opción más sencilla para empezar.

La sincronización se ejecuta automáticamente. Cuando se completa, aparece una nueva tabla de solo lectura en la base de datos de Lakebase. El nombre de esquema del catálogo de Unity se convierte en el nombre del esquema de Postgres y el nombre de la tabla obtiene un _synced sufijo: default.user_segments_synced.

Más información: Crear una tabla sincronizada (procedimiento completo) | Modos de sincronización

Paso 3: Búsqueda de los datos en Postgres

Cambie al Editor de SQL de Lakebase. Los datos de análisis del catálogo de Unity ahora se pueden consultar con Postgres SQL estándar. Busque el usuario 1:

SELECT * FROM "default".user_segments_synced WHERE user_id = 1;

Note

default debe citarse porque es una palabra clave reservada de PostgreSQL. El esquema de tabla sincronizada hereda el nombre del esquema del catálogo de Unity, por lo que si el esquema se denomina default, siempre debe citarlo en las consultas.

Debería ver al usuario 1 con el segmento power_user y una puntuación de compromiso de 0.92. Esta es la misma fila que creaste en Unity Catalog, ahora disponible en Postgres con lecturas de baja latencia.

Más información: Asignación de tipos de datos

Paso 4: Consulta en ambos entornos

Esta es la recompensa. Su tabla playing_with_lakebase contiene datos operativos. Tu tabla user_segments_synced tiene funciones de análisis de lakehouse. Únase a ellos:

SELECT
  p.id,
  p.name,
  p.value,
  s.segment,
  s.engagement_score
FROM playing_with_lakebase p
JOIN "default".user_segments_synced s ON p.id = s.user_id;

La aplicación ahora puede servir datos enriquecidos. Una sola consulta de Postgres combina lo que la aplicación conoce (nombres, valores) con lo que el lakehouse calculó (segmentos, puntuaciones). No hay llamadas API a lakehouse, sin scripts de sincronización ni penalización de latencia.

Más información: Planeamiento de capacidad

Pasos siguientes