Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Lakeflow Spark Declarative Pipelines unterstützt externe Abhängigkeiten in Ihren Pipelines. Databricks empfiehlt die Verwendung eines von zwei Mustern zum Installieren von Python-Paketen:
- Verwenden Sie die Umgebungseinstellungen , um der Pipelineumgebung Pakete für alle Quelldateien in einer Pipeline hinzuzufügen.
- Importieren Sie Module oder Bibliotheken aus Quellcode, der in Dateien des Arbeitsbereichs gespeichert ist. Siehe "Importieren von Python-Modulen aus Git-Ordnern oder Arbeitsbereichsdateien".
Pipelines unterstützen auch die Verwendung von clusterbezogenen Init-Skripts. Diese externen Abhängigkeiten, insbesondere init-Skripts, erhöhen jedoch das Risiko von Problemen mit Runtimeupgrades. Um diese Risiken zu mindern, minimieren Sie die Verwendung von init-Skripts in Ihren Pipelines. Wenn Ihre Verarbeitung init-Skripts erfordert, automatisieren Sie das Testen Ihrer Pipeline, um Probleme frühzeitig zu erkennen. Wenn Sie init-Skripts verwenden, empfiehlt Databricks, ihre Testhäufigkeit zu erhöhen.
Von Bedeutung
Da JVM-Bibliotheken in Pipelines nicht unterstützt werden , verwenden Sie kein init-Skript zum Installieren von JVM-Bibliotheken. Sie können jedoch andere Bibliothekstypen wie Python-Bibliotheken mit einem init-Skript installieren.
Python-Bibliotheken
Um externe Python-Bibliotheken anzugeben, bearbeiten Sie die Umgebung für Ihre Pipeline.
- Klicken Sie im Pipeline-Editor auf "Einstellungen".
- Wählen Sie unter Pipelineumgebung
Bearbeiten sie die Umgebung.
- Klicken Sie auf
Abhängigkeit hinzufügen.
- Geben Sie den Namen der Abhängigkeit ein. Databricks empfiehlt, die Version der Library festzusetzen. Geben Sie z. B. ein, um eine Abhängigkeit von
simplejsonVersion 3.19,simplejson==3.19.*hinzuzufügen.
Sie können auch ein Python-Wheel-Paket aus einem Unity Catalog-Volume installieren, indem Sie dessen Pfad angeben, z. B. /Volumes/my_catalog/my_schema/my_ldp_volume/ldpfns-1.0-py3-none-any.whl.
Umgebungsversion
Standardmäßig stammen die Python Sprachversion und die vorinstallierte Bibliothek, die für Ihre Pipeline verfügbar ist, aus der aktuellen Version des Databricks-Runtime-Kanals. Informationen zu den aktuellen Versionen und den Paketlisten pro Runtime finden Sie in den Versionshinweisen zu Lakeflow Spark Declarative Pipelines und im Prozess für Versionsupgrades.
Von Bedeutung
Dieses Feature befindet sich in der Betaversion. Arbeitsbereichsadministratoren können den Zugriff auf dieses Feature über die Vorschauseite steuern. Siehe Manage Azure Databricks Previews.
Um die Python-Sprachversion und den Satz vorinstallierter Bibliotheken unabhängig von Upgrades der Databricks Runtime festzulegen, konfigurieren Sie für die Pipeline eine Umgebungsversion. Solange eine Umgebungsversion festgelegt ist, ändern Upgrades von Databricks Runtime weder Ihre Python-Sprachversion noch die Versionen der vorinstallierten Bibliotheken, und alle externen Abhängigkeiten, die Sie über die Einstellungen für Environment hinzufügen, werden auf dieser Basis aufgesetzt. Siehe Konfigurieren von Umgebungsversionen für Pipelines.
Kann ich Scala- oder Java-Bibliotheken in Pipelines verwenden?
Nein, Pipelines unterstützen nur SQL und Python. Sie können JVM-Bibliotheken nicht in einer Pipeline verwenden. Die Installation von JVM-Bibliotheken kann zu unvorhersehbarem Verhalten führen und in zukünftigen Versionen von Lakeflow Spark Declarative Pipelines nicht mehr funktionieren. Wenn Ihre Pipeline ein Init-Skript verwendet, müssen Sie auch sicherstellen, dass JVM-Bibliotheken nicht vom Skript installiert werden.