Freigeben über


Python-Sprachreferenz für Lakeflow Declarative Pipelines

Dieser Abschnitt enthält Details zur Programmierschnittstelle "Lakeflow Declarative Pipelines Python".

dlt Modulübersicht

Lakeflow Declarative Pipelines Python-Funktionen werden im dlt Modul definiert. Ihre mit der Python-API implementierten Pipelines müssen dieses Modul importieren:

import dlt

Funktionen für Datasetdefinitionen

Lakeflow Declarative Pipelines verwendet Python-Dekorateur zum Definieren von Datasets wie materialisierte Ansichten und Streamingtabellen. Informationen zum Definieren von Datasets finden Sie unter "Funktionen".

API-Referenz

Überlegungen zu deklarativen Python Lakeflow-Pipelines

Im Folgenden finden Sie wichtige Überlegungen beim Implementieren von Pipelines mit der Python-Schnittstelle "Lakeflow Declarative Pipelines":

  • Lakeflow Declarative Pipelines wertet den Code aus, der eine Pipeline während der Planung und Pipelineausführung mehrmals definiert. Python-Funktionen, die Datasets definieren, sollten nur den Code enthalten, der zum Definieren der Tabelle oder Ansicht erforderlich ist. Beliebige Python-Logik, die in Datasetdefinitionen enthalten ist, kann zu unerwartetem Verhalten führen.
  • Versuchen Sie nicht, benutzerdefinierte Überwachungslogik in Ihren Datasetdefinitionen zu implementieren. Informationen finden Sie unter Definieren der benutzerdefinierten Überwachung von deklarativen Lakeflow-Pipelines mit Ereignishaken.
  • Die Zum Definieren eines Datasets verwendete Funktion muss einen Spark DataFrame zurückgeben. Fügen Sie keine Logik in Ihre Datasetdefinitionen ein, die nicht mit einem zurückgegebenen DataFrame zusammenhängen.
  • Verwenden Sie niemals Methoden, die als Teil Ihres Lakeflow Declarative Pipelines Datensatzcodes in Dateien oder Tabellen speichern oder schreiben.

Beispiele für Apache Spark-Vorgänge, die niemals im Lakeflow Declarative Pipelines-Code verwendet werden sollten:

  • collect()
  • count()
  • toPandas()
  • save()
  • saveAsTable()
  • start()
  • toTable()