Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Dieser Abschnitt enthält Details zur Programmierschnittstelle "Lakeflow Declarative Pipelines Python".
- Konzeptionelle Informationen und eine Übersicht über die Verwendung von Python für Lakeflow Declarative Pipelines finden Sie unter Entwickeln von Pipelinecode mit Python.
- Eine SQL-Referenz finden Sie in der SQL-Sprachreferenz zu Lakeflow Declarative Pipelines.
- Ausführliche Informationen zum Konfigurieren des automatischen Ladens finden Sie unter Automatisches Laden.
dlt
Modulübersicht
Lakeflow Declarative Pipelines Python-Funktionen werden im dlt
Modul definiert. Ihre mit der Python-API implementierten Pipelines müssen dieses Modul importieren:
import dlt
Funktionen für Datasetdefinitionen
Lakeflow Declarative Pipelines verwendet Python-Dekorateur zum Definieren von Datasets wie materialisierte Ansichten und Streamingtabellen. Informationen zum Definieren von Datasets finden Sie unter "Funktionen".
API-Referenz
- append_flow
- create_auto_cdc_flow
- create_auto_cdc_from_snapshot_flow
- erzeuge_senke
- create_streaming_table
- Erwartungshaltung
- Tabelle
- Sicht
Überlegungen zu deklarativen Python Lakeflow-Pipelines
Im Folgenden finden Sie wichtige Überlegungen beim Implementieren von Pipelines mit der Python-Schnittstelle "Lakeflow Declarative Pipelines":
- Lakeflow Declarative Pipelines wertet den Code aus, der eine Pipeline während der Planung und Pipelineausführung mehrmals definiert. Python-Funktionen, die Datasets definieren, sollten nur den Code enthalten, der zum Definieren der Tabelle oder Ansicht erforderlich ist. Beliebige Python-Logik, die in Datasetdefinitionen enthalten ist, kann zu unerwartetem Verhalten führen.
- Versuchen Sie nicht, benutzerdefinierte Überwachungslogik in Ihren Datasetdefinitionen zu implementieren. Informationen finden Sie unter Definieren der benutzerdefinierten Überwachung von deklarativen Lakeflow-Pipelines mit Ereignishaken.
- Die Zum Definieren eines Datasets verwendete Funktion muss einen Spark DataFrame zurückgeben. Fügen Sie keine Logik in Ihre Datasetdefinitionen ein, die nicht mit einem zurückgegebenen DataFrame zusammenhängen.
- Verwenden Sie niemals Methoden, die als Teil Ihres Lakeflow Declarative Pipelines Datensatzcodes in Dateien oder Tabellen speichern oder schreiben.
Beispiele für Apache Spark-Vorgänge, die niemals im Lakeflow Declarative Pipelines-Code verwendet werden sollten:
collect()
count()
toPandas()
save()
saveAsTable()
start()
toTable()