Instalowanie bibliotek z repozytorium pakietów

Usługa Azure Databricks udostępnia narzędzia do instalowania bibliotek z repozytoriów pakietów PyPI, Maven i CRAN. Zobacz Biblioteki o zakresie klastra, aby uzyskać szczegółowe informacje o zgodności biblioteki.

Ważne

Biblioteki można instalować z systemu plików DBFS podczas korzystania z środowiska Databricks Runtime 14.3 LTS i poniżej. Jednak każdy użytkownik obszaru roboczego może modyfikować pliki biblioteki przechowywane w systemie plików DBFS. Aby zwiększyć bezpieczeństwo bibliotek w obszarze roboczym usługi Azure Databricks, przechowywanie plików bibliotek w katalogu głównym systemu plików DBFS jest domyślnie przestarzałe i wyłączone w środowisku Databricks Runtime 15.0 lub nowszym. Zobacz Przechowywanie bibliotek w katalogu głównym systemu plików DBFS jest domyślnie przestarzałe i wyłączone.

Zamiast tego usługa Databricks zaleca przekazywanie wszystkich bibliotek, w tym bibliotek języka Python, plików JAR i łączników platformy Spark, do plików obszaru roboczego lub woluminów wykazu aparatu Unity lub przy użyciu repozytoriów pakietów biblioteki. Jeśli obciążenie nie obsługuje tych wzorców, możesz również użyć bibliotek przechowywanych w magazynie obiektów w chmurze.

Pakiet PyPI

  1. Na liście przycisków Źródło biblioteki wybierz pozycję PyPI.

  2. Wprowadź nazwę pakietu PyPI. Aby zainstalować określoną wersję biblioteki, użyj tego formatu dla biblioteki: <library>==<version>. Na przykład scikit-learn==0.19.1.

    Uwaga

    W przypadku zadań usługa Databricks zaleca określenie wersji biblioteki w celu zapewnienia powtarzalnego środowiska. Jeśli wersja biblioteki nie jest w pełni określona, usługa Databricks używa najnowszej zgodnej wersji. Oznacza to, że różne uruchomienia tego samego zadania mogą używać różnych wersji bibliotek, ponieważ są publikowane nowe wersje. Określanie wersji biblioteki zapobiega nowym, powodującym niezgodność zmian w bibliotekach przed przerywaniem zadań.

  3. (Opcjonalnie) W polu Adres URL indeksu wprowadź adres URL indeksu PyPI.

  4. Kliknij przycisk Zainstaluj.

Pakiet Maven lub Spark

Ważne

Aby zainstalować biblioteki Maven na obliczeniach skonfigurowanych w trybie dostępu współdzielonego, należy dodać współrzędne do listy dozwolonych. Zobacz Allowlist libraries and init scripts on shared compute (Biblioteki dozwolonych i skrypty inicjowania w udostępnionych obliczeniach).

Ważne

W przypadku wersji DBR 14.3 LTS i nowszych usługa Databricks używa platformy Apache Ivy 2.4.0 do rozpoznawania pakietów Maven. W przypadku wersji DBR 15.0 lub nowszej usługa Databricks używa wersji Ivy 2.5.1 lub nowszej, a określona wersja Ivy jest wymieniona w informacjach o wersji i zgodności środowiska Databricks Runtime.

Kolejność instalacji pakietów Maven może mieć wpływ na końcowe drzewo zależności, co może mieć wpływ na kolejność ładowania bibliotek.

  1. Na liście przycisków Źródło biblioteki wybierz pozycję Maven.

  2. Określ współrzędną maven. Wykonaj jedną z następujących czynności:

    • W polu Współrzędna wprowadź współrzędną Maven biblioteki do zainstalowania. Współrzędne maven są w postaci groupId:artifactId:version, na przykład com.databricks:spark-avro_2.10:1.0.0.
    • Jeśli nie znasz dokładnej współrzędności, wprowadź nazwę biblioteki i kliknij pozycję Wyszukaj pakiety. Zostanie wyświetlona lista pasujących pakietów. Aby wyświetlić szczegółowe informacje o pakiecie, kliknij jego nazwę. Pakiety można sortować według nazwy, organizacji i klasyfikacji. Wyniki można również filtrować, pisząc zapytanie na pasku wyszukiwania. Wyniki są odświeżane automatycznie.
      1. Wybierz pozycję Maven Central lub Spark Packages na liście rozwijanej w lewym górnym rogu.
      2. Opcjonalnie wybierz wersję pakietu w kolumnie Wydania.
      3. Kliknij pozycję + Wybierz obok pakietu. Pole Współrzędnych jest wypełnione wybranym pakietem i wersją.
  3. (Opcjonalnie) W polu Repozytorium możesz wprowadzić adres URL repozytorium Maven.

    Uwaga

    Wewnętrzne repozytoria Maven nie są obsługiwane.

  4. W polu Wykluczenia opcjonalnie podaj wartości groupId i artifactId zależności, które chcesz wykluczyć (na przykład log4j:log4j).

    Uwaga

    Narzędzie Maven działa przy użyciu najbliższej wersji głównej, a w przypadku dwóch pakietów wirtualnych dla wersji z różnymi zależnościami kolejność ma znaczenie, więc może zakończyć się niepowodzeniem, gdy pakiet ze starszą zależnością zostanie załadowany jako pierwszy.

    Aby obejść ten proces, wyklucz bibliotekę powodującą konflikt. Na przykład podczas instalowania pakietu ze współrzędną com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.22ustaw pole Wykluczenia na com.nimbusds:oauth2-oidc-sdk:RELEASE wartość , aby najnowsza wersja msAL4J eventhubs została załadowana, a eventhubs zależność jest satysfakcjonująca.

  5. Kliknij przycisk Zainstaluj.

Pakiet CRAN

  1. Na liście przycisków Źródło biblioteki wybierz pozycję CRAN.
  2. W polu Pakiet wprowadź nazwę pakietu.
  3. (Opcjonalnie) W polu Repozytorium możesz wprowadzić adres URL repozytorium CRAN.
  4. Kliknij przycisk Zainstaluj.

Uwaga

Dublowanie CRAN obsługuje najnowszą wersję biblioteki. W związku z tym w przypadku dołączania biblioteki do różnych klastrów w różnych momentach może skończyć się różne wersje pakietu języka R. Aby dowiedzieć się, jak zarządzać i naprawiać wersje pakietów języka R w usłudze Databricks, zobacz bazę wiedzy.