Comparteix via


Creación de canalizaciones con dlt-meta

En este artículo se presenta dlt-meta, un proyecto de Databricks Labs que proporciona herramientas para generar canalizaciones a partir de metadatos que se mantienen.

Nota:

El proyecto dlt-meta de código abierto, como todos los proyectos de la cuenta de GitHub de databrickslabs, solo existe con fines de exploración. Azure Databricks no lo admite ni proporciona acuerdos de nivel de servicio (SLA) para él. No presente tickets de soporte de Azure Databricks para problemas relacionados con este proyecto. En su lugar, abra un informe de GitHub, que se revisará cuando el tiempo lo permita.

¿Qué es dlt-meta?

Las canalizaciones declarativas de Spark de Lakeflow permiten especificar mediante declaración una tabla y genera un flujo en una canalización que crea la tabla y la mantiene actualizada a medida que cambian los datos de origen. Sin embargo, si su organización tiene cientos de tablas, la generación y administración de estas canalizaciones consume mucho tiempo y puede provocar prácticas incoherentes.

El proyecto dlt-meta es un marco de metaprogramación controlado por metadatos diseñado para trabajar con canalizaciones declarativas de Spark de Lakeflow. Este marco permite la automatización de canalizaciones de datos bronce y plata aprovechando los metadatos registrados en un conjunto de archivos JSON y YAML. El motor dlt-meta usa código de Python para generar dinámicamente código de canalización para los flujos descritos en los metadatos. Genera los metadatos sobre tus canalizaciones y dlt-meta genera tus canalizaciones.

Con la lógica centralizada en un solo lugar (los metadatos), el sistema es más rápido, reutilizable y fácil de mantener.

Nota:

El proyecto dlt-meta se nombró por la función más antigua Delta Live Tables en Azure Databricks. Delta Live Tables se ha reemplazado por Canalizaciones declarativas de Spark de Lakeflow y dlt-meta funciona con canalizaciones declarativas de Spark de Lakeflow.

Ventajas de dlt-meta

Hay dos casos de uso principales para dlt-meta:

  • Importe y limpie varias tablas de manera simple.
  • Aplique estándares de ingeniería de datos en varias canalizaciones y usuarios.

Entre las ventajas del uso de un enfoque controlado por metadatos se incluyen:

  • El mantenimiento de metadatos se puede realizar sin tener conocimiento del código de Python o SQL.
  • El mantenimiento de metadatos, en lugar del código, requiere menos sobrecarga y reduce los errores.
  • El código se genera mediante dlt-meta, por lo que permanece coherente y tiene menos código personalizado entre canalizaciones y tablas publicadas.
  • Puede agrupar fácilmente tablas en canalizaciones dentro de los metadatos, generando el número de canalizaciones necesarias para actualizar los datos de forma más eficaz.

¿Cómo funciona?

En la imagen siguiente se muestra información general del sistema dlt-meta:

Introducción a dlt-meta

  1. Los archivos de metadatos se crean como entrada para dlt-meta, para especificar los archivos de origen y las salidas, las reglas de calidad y el procesamiento necesario.
  2. El motor dlt-meta compila los archivos de incorporación en una especificación de flujo de datos, denominada DataflowSpec y la almacena para su uso posterior.
  3. El motor dlt-meta usa DataflowSpec para crear canalizaciones que generen las tablas bronze. Esto usa los archivos de metadatos para leer los datos de origen y aplicar las expectativas de datos correctas para que coincidan con las reglas de calidad.
  4. A continuación, el motor dlt-meta usa DataflowSpec para crear canalizaciones adicionales que generen las tablas silver. Esto usa los archivos de metadatos para aplicar las transformaciones adecuadas y otro procesamiento para el sistema.

Ejecuta las canalizaciones generadas por dlt-meta para mantener actualizada la salida a medida que se actualizan los datos de origen.

¿Cómo empecemos?

Para usar dlt-meta, deberás:

  • Implemente y configure la solución dlt-meta.
  • Prepare los metadatos para las tablas de la capa bronce y plata.
  • Cree un trabajo para incorporar los metadatos.
  • Use los metadatos para crear canalizaciones para las tablas.

La documentación de dlt-meta en GitHub tiene un tutorial que le ayudará a empezar a trabajar con este proceso. Para obtener más información, consulte Introducción a dlt-meta en GitHub.

Recursos adicionales