Verwalten von Python-Abhängigkeiten für Pipelines

Lakeflow Spark Declarative Pipelines unterstützt externe Abhängigkeiten in Ihren Pipelines. Databricks empfiehlt die Verwendung eines von zwei Mustern zum Installieren von Python-Paketen:

Verwenden Sie die Umgebungseinstellungen , um der Pipelineumgebung Pakete für alle Quelldateien in einer Pipeline hinzuzufügen.
Importieren Sie Module oder Bibliotheken aus Quellcode, der in Dateien des Arbeitsbereichs gespeichert ist. Siehe "Importieren von Python-Modulen aus Git-Ordnern oder Arbeitsbereichsdateien".

Pipelines unterstützen auch die Verwendung von globalen und clusterbezogenen Init-Skripts. Diese externen Abhängigkeiten, insbesondere init-Skripts, erhöhen jedoch das Risiko von Problemen mit Runtimeupgrades. Um diese Risiken zu mindern, minimieren Sie die Verwendung von init-Skripts in Ihren Pipelines. Wenn Ihre Verarbeitung init-Skripts erfordert, automatisieren Sie das Testen Ihrer Pipeline, um Probleme frühzeitig zu erkennen. Wenn Sie init-Skripts verwenden, empfiehlt Databricks, ihre Testhäufigkeit zu erhöhen.

Von Bedeutung

Da JVM-Bibliotheken in Pipelines nicht unterstützt werden , verwenden Sie kein init-Skript zum Installieren von JVM-Bibliotheken. Sie können jedoch andere Bibliothekstypen wie Python-Bibliotheken mit einem init-Skript installieren.

Python-Bibliotheken

Um externe Python-Bibliotheken anzugeben, bearbeiten Sie die Umgebung für Ihre Pipeline.

Klicken Sie im Pipeline-Editor auf "Einstellungen".
Wählen Sie unter PipelineumgebungBearbeiten sie die Umgebung.
Klicken Sie auf Abhängigkeit hinzufügen.
Geben Sie den Namen der Abhängigkeit ein. Databricks empfiehlt, die Version der Library festzusetzen. Geben Sie z. B. ein, um eine Abhängigkeit von simplejson Version 3.19,simplejson==3.19.* hinzuzufügen.

Sie können auch ein Python-Wheel-Paket aus einem Unity Catalog-Volume installieren, indem Sie dessen Pfad angeben, z. B. /Volumes/my_catalog/my_schema/my_ldp_volume/ldpfns-1.0-py3-none-any.whl.

Kann ich Scala- oder Java-Bibliotheken in Pipelines verwenden?

Nein, Pipelines unterstützen nur SQL und Python. Sie können JVM-Bibliotheken nicht in einer Pipeline verwenden. Die Installation von JVM-Libraries führt zu unvorhersehbarem Verhalten und kann in zukünftigen Lakeflow Spark Declarative Pipelines-Versionen zu Komplikationen führen. Wenn Ihre Pipeline ein Init-Skript verwendet, müssen Sie auch sicherstellen, dass JVM-Bibliotheken nicht vom Skript installiert werden.

Feedback

War diese Seite hilfreich?

Last updated on 2026-01-21

Teilen über

Verwalten von Python-Abhängigkeiten für Pipelines

Python-Bibliotheken

Kann ich Scala- oder Java-Bibliotheken in Pipelines verwenden?

Feedback

Zusätzliche Ressourcen