Partager via


Créer des pipelines avec dlt-meta

Cet article présente dlt-meta, un projet Databricks Labs qui fournit des outils pour générer des pipelines à partir de métadonnées que vous gérez.

Note

Le projet dlt-meta open source, comme tous les projets du compte GitHub databrickslabs, existe uniquement à des fins d’exploration. Azure Databricks ne le prend pas en charge ni ne fournit pas de contrats de niveau de service (SLA) pour celui-ci. N’envoyez pas de tickets de support Azure Databricks pour les problèmes liés à ce projet. Au lieu de cela, déposez un problème GitHub, qui sera examiné en tant que permis de temps.

Qu’est-ce que dlt-meta ?

Les pipelines déclaratifs Spark Lakeflow vous permettent de spécifier de manière déclarative une table et de générer un flux dans un pipeline qui crée la table et la conserve à jour au fur et à mesure que les données sources changent. Toutefois, si votre organisation a des centaines de tables, la génération et la gestion de ces pipelines prend du temps et peut entraîner des pratiques incohérentes.

Le projet dlt-meta est une infrastructure de metaprogramming pilotée par les métadonnées conçue pour fonctionner avec des pipelines déclaratifs Spark Lakeflow. Cette infrastructure permet l’automatisation des pipelines de données bronze et argent en tirant parti des métadonnées enregistrées dans un ensemble de fichiers JSON et YAML. Le moteur dlt-meta utilise du code Python pour générer dynamiquement du code de pipeline pour les flux décrits dans vos métadonnées. Vous générez les métadonnées relatives à vos pipelines, et dlt-meta génère vos pipelines.

Avec votre logique centralisée à un seul endroit (les métadonnées), votre système est plus rapide, réutilisable et plus facile à gérer.

Note

Le projet dlt-meta a été nommé pour l’ancienne fonctionnalité Delta Live Tables dans Azure Databricks. Les tables dynamiques Delta ont été remplacées par des pipelines déclaratifs Spark Lakeflow, et dlt-meta fonctionne avec les pipelines déclaratifs Spark Lakeflow.

Avantages de dlt-meta

Il existe deux cas d’usage principaux pour dlt-meta :

  • Ingestion et nettoyage d’un grand nombre de tables simplement.
  • Appliquer des normes d’ingénierie des données sur plusieurs pipelines et utilisateurs.

Les avantages de l’utilisation d’une approche basée sur les métadonnées sont les suivants :

  • La gestion des métadonnées peut être effectuée sans connaissance du code Python ou SQL.
  • La gestion des métadonnées, plutôt que le code, nécessite moins de surcharge et réduit les erreurs.
  • Le code est généré par dlt-meta. Il reste donc cohérent et a moins de code personnalisé entre les pipelines et les tables publiées.
  • Vous pouvez facilement regrouper des tables dans des pipelines au sein des métadonnées, ce qui génère le nombre de pipelines nécessaires pour mettre à jour vos données de manière plus efficace.

Comment fonctionne-t-il ?

L’image suivante montre une vue d’ensemble du système dlt-meta :

vue dlt-meta vue d’ensemble

  1. Vous créez les fichiers de métadonnées comme entrée dans dlt-meta, pour spécifier vos fichiers sources et sorties, règles de qualité et traitement requis.
  2. Le moteur dlt-meta compile les fichiers dlt dans une spécification de flux de données, appelée DataflowSpec et la stocke pour une utilisation ultérieure.
  3. Le moteur dlt-meta utilise DataflowSpec pour créer des pipelines qui génèrent vos tables bronze. Cela utilise vos fichiers de métadonnées pour lire les données sources et appliquer les attentes correctes en matière de données pour correspondre à vos règles de qualité.
  4. Le moteur dlt-meta utilise ensuite DataflowSpec pour créer des pipelines supplémentaires qui génèrent vos tables silver. Cela utilise vos fichiers de métadonnées pour appliquer les transformations appropriées et d’autres traitements pour votre système.

Vous exécutez les pipelines générés par dlt-meta pour conserver la sortie actuelle à mesure que vos données sources sont mises à jour.

Comment puis-je démarrer ?

Pour utiliser dlt-meta, vous devez :

  • Déployez et configurez la solution dlt-meta.
  • Préparez les métadonnées pour vos tables de couche bronze et argent.
  • Créez un travail pour intégrer les métadonnées.
  • Utilisez les métadonnées pour créer des pipelines pour vos tables.

La documentation dlt-meta sur GitHub a un tutoriel pour vous aider à commencer ce processus. Pour plus d’informations, consultez prise en main de dlt-meta sur GitHub.

Ressources supplémentaires