Zarządzanie zależnościami języka Python dla potoków

Lakeflow Spark Declarative Pipelines obsługuje zależności zewnętrzne w twoich potokach. Usługa Databricks zaleca użycie jednego z dwóch wzorców do zainstalowania pakietów języka Python:

  1. Użyj ustawień środowiska , aby dodać pakiety do środowiska potoku dla wszystkich plików źródłowych w potoku.
  2. Zaimportuj moduły lub biblioteki z kodu źródłowego przechowywanego w plikach obszaru roboczego. Zobacz Importowanie modułów Python z folderów Git lub plików obszaru roboczego.

Potoki umożliwiają także korzystanie z skryptów inicjalizacyjnych na poziomie klastra. Jednak te zależności zewnętrzne, szczególnie skrypty inicjowania, zwiększają ryzyko problemów z uaktualnieniami środowiska uruchomieniowego. Aby ograniczyć te zagrożenia, zminimalizuj użycie skryptów inicjowania w potokach. Jeśli proces przetwarzania wymaga skryptów inicjalizacyjnych, zautomatyzuj testowanie potoku przetwarzania, aby wcześnie wykrywać problemy. Jeśli używasz skryptów init, usługa Databricks zaleca zwiększenie częstotliwości testowania.

Ważne

Ponieważ biblioteki JVM nie są obsługiwane w potokach, nie używaj skryptu inicjowania do instalowania bibliotek JVM. Można jednak zainstalować inne typy bibliotek, takie jak biblioteki języka Python, za pomocą skryptu init.

Biblioteki języka Python

Aby określić zewnętrzne biblioteki języka Python, zmodyfikuj środowisko dla pipeline'u.

  1. W edytorze rurociągu kliknij pozycję Ustawienia.
  2. W obszarze Środowisko potoku wybierz ikonę ołówka.Edytuj środowisko.
  3. Kliknij ikonę Plus.Dodaj zależność.
  4. Wpisz nazwę zależności. Usługa Databricks zaleca ustalenie wersji biblioteki. Aby na przykład dodać zależność od simplejson wersji 3.19, wpisz simplejson==3.19.*.

Pakiet wheel Python można również zainstalować z woluminu Unity Catalog, określając jego ścieżkę, taką jak /Volumes/my_catalog/my_schema/my_ldp_volume/ldpfns-1.0-py3-none-any.whl.

Wersja środowiska

Domyślnie wersja języka Python i wstępnie zainstalowana biblioteka dostępna dla potoku pochodzą z bieżącej wersji kanału środowiska Databricks Runtime. Zobacz informacje o wydaniu usługi Lakeflow Spark Declarative Pipelines oraz proces aktualizacji wersji, aby sprawdzić bieżące wersje i listy pakietów dla poszczególnych środowisk uruchomieniowych.

Ważne

Ta funkcja jest dostępna w wersji beta. Administratorzy obszaru roboczego mogą kontrolować dostęp do tej funkcji ze strony Podglądy . Zobacz Zarządzanie wersjami zapoznawczami usługi Azure Databricks.

Aby przypisać na stałe wersję języka Python i zestaw wstępnie zainstalowanych bibliotek niezależnie od aktualizacji Databricks Runtime, skonfiguruj wersję środowiska w potoku. Podczas ustawiania wersji środowiska uaktualnienia środowiska Databricks Runtime nie zmieniają wersji języka Python ani wstępnie zainstalowanych wersji bibliotek, a wszystkie zależności zewnętrzne dodawane za pośrednictwem Environment są nakładane na warstwy na tej podstawie. Zobacz Konfigurowanie wersji środowiska dla potoków.

Czy można używać bibliotek Scala lub Java w potokach?

Pipelines obsługują tylko SQL i Python. W potoku nie można używać bibliotek JVM. Instalowanie bibliotek JVM prowadzi do nieprzewidywalnego działania i może przestać działać w przyszłych wersjach Lakeflow Spark Declarative Pipelines. Jeśli potok przetwarzania używa skryptu inicjalizacyjnego, należy również upewnić się, że biblioteki JVM nie są instalowane przez ten skrypt.