Anmerkung
Der Zugriff auf diese Seite erfordert eine Genehmigung. Du kannst versuchen, dich anzumelden oder die Verzeichnisse zu wechseln.
Der Zugriff auf diese Seite erfordert eine Genehmigung. Du kannst versuchen , die Verzeichnisse zu wechseln.
Lakeflow Spark Declarative Pipelines unterstützt externe Abhängigkeiten in Ihren Pipelines. Databricks empfiehlt die Verwendung eines von zwei Mustern zum Installieren von Python-Paketen:
- Verwenden Sie die Umgebungseinstellungen , um der Pipelineumgebung Pakete für alle Quelldateien in einer Pipeline hinzuzufügen.
- Importieren Sie Module oder Bibliotheken aus Quellcode, der in Dateien des Arbeitsbereichs gespeichert ist. Siehe "Importieren von Python-Modulen aus Git-Ordnern oder Arbeitsbereichsdateien".
Pipelines unterstützen auch die Verwendung von globalen und clusterbezogenen Init-Skripts. Diese externen Abhängigkeiten, insbesondere init-Skripts, erhöhen jedoch das Risiko von Problemen mit Runtimeupgrades. Um diese Risiken zu mindern, minimieren Sie die Verwendung von init-Skripts in Ihren Pipelines. Wenn Ihre Verarbeitung init-Skripts erfordert, automatisieren Sie das Testen Ihrer Pipeline, um Probleme frühzeitig zu erkennen. Wenn Sie init-Skripts verwenden, empfiehlt Databricks, ihre Testhäufigkeit zu erhöhen.
Von Bedeutung
Da JVM-Bibliotheken in Pipelines nicht unterstützt werden , verwenden Sie kein init-Skript zum Installieren von JVM-Bibliotheken. Sie können jedoch andere Bibliothekstypen wie Python-Bibliotheken mit einem init-Skript installieren.
Python-Bibliotheken
Um externe Python-Bibliotheken anzugeben, bearbeiten Sie die Umgebung für Ihre Pipeline.
- Klicken Sie im Pipeline-Editor auf "Einstellungen".
- Wählen Sie unter Pipelineumgebung
Bearbeiten sie die Umgebung.
- Klicken Sie auf
Abhängigkeit hinzufügen.
- Geben Sie den Namen der Abhängigkeit ein. Databricks empfiehlt, die Version der Library festzusetzen. Geben Sie z. B. ein, um eine Abhängigkeit von
simplejsonVersion 3.19,simplejson==3.19.*hinzuzufügen.
Sie können auch ein Python-Wheel-Paket aus einem Unity Catalog-Volume installieren, indem Sie dessen Pfad angeben, z. B. /Volumes/my_catalog/my_schema/my_ldp_volume/ldpfns-1.0-py3-none-any.whl.
Kann ich Scala- oder Java-Bibliotheken in Pipelines verwenden?
Nein, Pipelines unterstützen nur SQL und Python. Sie können JVM-Bibliotheken nicht in einer Pipeline verwenden. Die Installation von JVM-Libraries führt zu unvorhersehbarem Verhalten und kann in zukünftigen Lakeflow Spark Declarative Pipelines-Versionen zu Komplikationen führen. Wenn Ihre Pipeline ein Init-Skript verwendet, müssen Sie auch sicherstellen, dass JVM-Bibliotheken nicht vom Skript installiert werden.