Compartir a través de


Creación y uso de tablas de salida en Salas limpias de Databricks

En esta página se presentan tablas de salida, que son tablas de solo lectura temporales generadas por la ejecución de un cuaderno y compartidas en el metastore de Unity Catalog del ejecutor del cuaderno. En este artículo se describe cómo usar un cuaderno para crear tablas de salida y cómo los ejecutores pueden leer estas tablas de salida en su metastore de catálogo de Unity.

Introducción a las tablas de salida

Las tablas de resultados le permiten guardar temporalmente la salida de los cuadernos que se ejecutan en un entorno limpio en un catálogo de resultados de su metastore de Unity Catalog, donde podrá hacer que los datos estén disponibles para los miembros de su equipo que no tienen la capacidad de ejecutar los cuadernos por sí mismos. También puede usar trabajos de Lakeflow para ejecutar cuadernos y realizar tareas en tablas de salida. En combinación con el tipo de tarea de cuaderno de sala limpia y la compatibilidad con los valores de tarea, las tablas de salida permiten crear flujos de trabajo complejos que dependen de cuadernos de sala limpia.

Las tablas de salida son de solo lectura.

Solo la entidad de seguridad específica (usuario, grupo o entidad de servicio) que ejecuta el cuaderno tiene acceso de lectura predeterminado a la tabla de salida. No hay acceso de escritura. Un administrador de metastore puede conceder acceso de lectura a otras entidades de seguridad de su cuenta de Azure Databricks mediante privilegios estándar del catálogo de Unity.

Las tablas de salida se almacenan durante 30 días en la ubicación de almacenamiento predeterminada de la sala limpia central y se comparten al metastore del ejecutor mediante Delta Sharing. Si desea mantener una tabla de salida durante más de 30 días, debe copiarla en el almacenamiento local.

Cada ejecución de cuaderno crea un nuevo esquema en el catálogo de salida. Las nuevas ejecuciones no pueden anexar una tabla de salida existente.

Nota:

Los colaboradores de Databricks en las tres nubes (AWS, Azure y Google Cloud) pueden compartir cuadernos que crean tablas de salida y pueden leer tablas de salida que se generan cuando ejecutan cuadernos compartidos.

Creación de una tabla de salida

Para crear una tabla de salida, use los parámetros cr_output_catalog y cr_output_schema en el espacio de nombres de tabla de tres partes. Cada ejecución del cuaderno genera un nuevo esquema.

En el ejemplo siguiente, la celda del cuaderno crea una tabla de salida denominada overlapping_users en el catálogo de resultados del ejecutor que enumera los usuarios cuya dirección de correo electrónico aparece en las collaborator.advertiser.profiles tablas y creator.publisher.profiles .

CREATE TABLE identifier(:cr_output_catalog || '.' || :cr_output_schema || '.overlapping_users') AS
SELECT collab_profiles.*
FROM collaborator.advertiser.profiles AS collab_profiles
JOIN creator.publisher.profiles AS creator_profiles
ON collab_profiles.email = creator_profiles.email

Lectura de una tabla de salida

Las tablas de salida aparecen en un catálogo compartido en el metastore del ejecutor de cuadernos. En el panel Catálogo del Explorador de catálogos, aparecen en la lista de catálogos compartidos.

Leer una tabla de salida es como leer cualquier otra tabla en Unity Catalog. Debe tener SELECT en la tabla, USE CATALOG en el catálogo de salida compartido y USE SCHEMA en el esquema generado automáticamente. El usuario que ejecutó el cuaderno que creó la tabla tiene estos permisos de forma predeterminada.

Nota:

Al eliminar una sala limpia, se quitan todas las tablas de salida y los datos históricos del catálogo de salida.

Antes de empezar

En esta sección se describen los requisitos de nube, configuración y proceso para leer tablas de salida.

Requisito del catálogo de salida compartido

Para poder leer tablas de salida, un usuario debe crear el catálogo que las contiene. Es necesario realizar este registro solo una vez por sala limpia. El propietario de la sala limpia tiene permiso para leer y administrar el catálogo de salida de forma predeterminada.

Permisos necesarios: EXECUTE CLEAN ROOM TASK

  1. En el área de trabajo de Azure Databricks, haga clic en el icono Datos.Catálogo.
  2. En la página Acceso rápido, haga clic en el botón Salas limpias >.
  3. Seleccione la sala limpia de la lista.
  4. En el panel derecho, en Salida, haga clic en Crear catálogo.
  5. Escriba un nombre de catálogo de salida o acepte el valor predeterminado, que es <clean-room-name>_output.

El catálogo de salida aparece en la lista de catálogos compartidos en el panel Catálogo del Explorador de catálogos. Cada sala limpia en la que participa puede tener un catálogo de salida compartido en su metastore.

Requisitos de proceso

Las consultas en tablas de salida requieren un proceso sin servidor. Consulte Conexión al proceso sin servidor.

Permisos necesarios para leer una tabla de salida

El usuario que ejecutó el cuaderno que creó la tabla de salida y el propietario de la sala limpia tienen permiso para leer y administrar la tabla de salida de forma predeterminada. Todos los demás usuarios deben tener los permisos siguientes concedidos a ellos:

  • SELECT de la tabla
  • USE CATALOG en el catálogo de salida
  • USE SCHEMA en el esquema de salida

Ejecución del cuaderno

Para generar tablas de salida compartidas en el catálogo de resultados, un usuario con acceso a la sala limpia debe ejecutar el cuaderno. Consulte Ejecutar cuadernos en salas limpias. Cada ejecución de cuaderno crea un nuevo esquema de salida y una tabla.

Sugerencia

Puede usar trabajos de Lakeflow para ejecutar cuadernos y realizar tareas en tablas de salida, lo que permite flujos de trabajo complejos. Consulte Uso de trabajos de Lakeflow para ejecutar cuadernos de salas limpias.

Búsqueda y visualización de una tabla de salida

El usuario que ejecuta el cuaderno que crea la tabla de salida puede encontrar un vínculo a la tabla de salida en el historial de ejecución del cuaderno y ejecutar páginas de detalles en la interfaz de usuario de Salas limpias. En ambos casos, el vínculo está en el campo Esquema de salida. Consulte Supervisión de ejecucionesde cuadernos de salas limpias.

Historial de ejecuciones:

vínculo de esquema de salida en el historial de ejecuciones

Detalles de ejecución:

vínculo de esquema de salida en los detalles de ejecución

También puede encontrar el catálogo de salida en la lista de catálogos compartidos en el panel Catálogo del Explorador de catálogos.

Limitaciones

Además de los requisitos enumerados en Información general de las tablas de salida y Antes de comenzar, las tablas de salida tienen las siguientes limitaciones:

  • Las tablas de salida solo se admiten cuando se creó la sala limpia después de que se introdujo la característica de tabla de salida.
  • Solo se admiten tablas. Los volúmenes y vistas, por ejemplo, no son.
  • Está limitado en el número de tablas de salida que puede admitir cada cuaderno. Consulte Límites de los recursos.