Freigeben über


Erstellen von Pipelines mit dlt-meta

In diesem Artikel wird dlt-meta vorgestellt, ein Databricks Labs-Projekt , das Tools zum Generieren von Pipelines aus Metadaten bereitstellt, die Sie verwalten.

Hinweis

Das Open Source dlt-meta-Projekt, wie alle Projekte im Databrickslabs GitHub-Konto, ist nur für Explorationszwecke vorhanden. Azure Databricks unterstützt sie nicht oder bietet keine Vereinbarungen auf Servicelevel (Service Level Agreements, SLAs) dafür. Übermitteln Sie keine Supporttickets für Azure Databricks für Probleme im Zusammenhang mit diesem Projekt. Geben Sie stattdessen ein GitHub-Problem ein, das als Zeitgenehmigung überprüft wird.

Was ist dlt-meta?

Lakeflow Spark Declarative Pipelines ermöglicht es Ihnen, eine Tabelle deklarativ anzugeben und einen Fluss in einer Pipeline zu generieren, die die Tabelle erstellt und bei Änderungen der Quelldaten auf dem neuesten Stand hält. Wenn Ihre Organisation jedoch Hunderte von Tabellen hat, ist das Generieren und Verwalten dieser Pipelines zeitaufwändig und kann zu inkonsistenten Praktiken führen.

Das dlt-meta-Projekt ist ein metadatengesteuertes Metaprogrammierungsframework, das für die Arbeit mit Lakeflow Spark Declarative Pipelines entwickelt wurde. Dieses Framework ermöglicht die Automatisierung von Bronze- und Silberdatenpipelinen, indem Metadaten in einer Reihe von JSON- und YAML-Dateien genutzt werden. Das dlt-meta-Modul verwendet Python-Code, um Pipelinecode für die in Ihren Metadaten beschriebenen Flüsse dynamisch zu generieren. Sie generieren die Metadaten zu Ihren Pipelines, und dlt-meta generiert Ihre Pipelines.

Mit ihrer zentralen Logik (metadaten) ist Ihr System schneller, wiederverwendbar und einfacher zu verwalten.

Hinweis

Das dlt-meta-Projekt wurde nach der älteren Funktion Delta Live Tables in Azure Databricks benannt. Delta Live Tables wurden durch Lakeflow Spark Declarative Pipelines ersetzt, und dlt-meta arbeitet mit Lakeflow Spark Declarative Pipelines.

Vorteile von dlt-meta

Es gibt zwei Hauptanwendungsfälle für dlt-meta:

  • Einfaches Aufnehmen und Bereinigen einer großen Anzahl von Tabellen.
  • Erzwingen Sie Datentechnikstandards für mehrere Pipelines und Benutzer.

Die Vorteile der Verwendung eines metadatengesteuerten Ansatzes umfassen:

  • Die Verwaltung von Metadaten kann ohne Kenntnisse von Python- oder SQL-Code erfolgen.
  • Die Verwaltung von Metadaten anstelle des Codes erfordert weniger Mehraufwand und reduziert Fehler.
  • Der Code wird von dlt-meta generiert, sodass er konsistent bleibt und weniger benutzerdefinierten Code über Pipelines und veröffentlichte Tabellen verfügt.
  • Sie können Tabellen ganz einfach in Pipelines innerhalb der Metadaten gruppieren und so die Anzahl der Pipelines generieren, die erforderlich sind, um Ihre Daten am effizientesten zu aktualisieren.

Wie funktioniert es?

Die folgende Abbildung zeigt eine Übersicht über das dlt-meta-System:

dlt-meta-Übersicht

  1. Sie erstellen die Metadatendateien als Eingabe für dlt-meta, um Ihre Quelldateien und -ausgaben, Qualitätsregeln und die erforderliche Verarbeitung anzugeben.
  2. Das dlt-meta-Modul kompiliert die Onboardingdateien in einer Datenflussspezifikation namens DataflowSpec und speichert sie zur späteren Verwendung.
  3. Das dlt-meta-Modul verwendet die DataflowSpec, um Pipelines zu erstellen, die Ihre Bronzetabellen generieren. Dies verwendet Ihre Metadatendateien, um die Quelldaten zu lesen und die richtigen Datenerwartungen anzuwenden, um Ihren Qualitätsregeln zu entsprechen.
  4. Das dlt-meta-Modul verwendet als Nächstes die DataflowSpec, um zusätzliche Pipelines zu erstellen, die Ihre Silbertabellen generieren. Dies verwendet Ihre Metadatendateien, um die entsprechenden Transformationen und andere Verarbeitungen für Ihr System anzuwenden.

Sie führen die von dlt-meta generierten Pipelines aus, um die Ausgabe aktuell zu halten, wenn die Quelldaten aktualisiert werden.

Wie beginne ich?

Um dlt-meta zu verwenden, müssen Sie:

  • Stellen Sie die dlt-meta-Lösung bereit und konfigurieren Sie sie.
  • Bereiten Sie die Metadaten für Ihre Bronze- und Silberschichttabellen vor.
  • Erstellen Sie einen Auftrag zum Onboarding der Metadaten.
  • Verwenden Sie die Metadaten, um Pipelines für Ihre Tabellen zu erstellen.

Die dlt-meta-Dokumentation auf GitHub enthält ein Lernprogramm, das Ihnen bei den ersten Schritten mit diesem Prozess hilft. Weitere Informationen finden Sie in den ersten Schritten mit dlt-meta auf GitHub.

Weitere Ressourcen