Udostępnij za pośrednictwem


Instalowanie bibliotek z repozytorium pakietów

Usługa Azure Databricks udostępnia narzędzia do instalowania bibliotek z repozytoriów pakietów PyPI, Maven i CRAN. Zobacz Biblioteki o zakresie obliczeniowym, aby uzyskać szczegółowe informacje o zgodności bibliotek.

Ważne

Biblioteki można instalować z systemu plików DBFS podczas korzystania z środowiska Databricks Runtime 14.3 LTS i poniżej. Jednak każdy użytkownik obszaru roboczego może modyfikować pliki biblioteki przechowywane w systemie plików DBFS. Aby zwiększyć bezpieczeństwo bibliotek w obszarze roboczym usługi Azure Databricks, przechowywanie plików bibliotek w katalogu głównym DBFS przeszło w stan przestarzałości i domyślnie jest wyłączone w środowisku Databricks Runtime 15.1 lub nowszym. Zobacz Przechowywanie bibliotek w katalogu głównym systemu plików DBFS jest domyślnie przestarzałe i wyłączone.

Zamiast tego, Databricks rekomenduje przekazywanie wszystkich bibliotek, w tym bibliotek Python, plików JAR i łączników Spark, do plików obszaru roboczego lub woluminów katalogu Unity, albo korzystanie z repozytoriów pakietów bibliotecznych. Jeśli obciążenie nie obsługuje tych wzorców, możesz również użyć bibliotek przechowywanych w magazynie obiektów w chmurze.

Pakiet PyPI

  1. Na liście przycisków Biblioteka źródłowa wybierz pozycję PyPI.

  2. Wprowadź nazwę pakietu PyPI. Aby zainstalować określoną wersję biblioteki, użyj tego formatu dla biblioteki: <library>==<version>. Na przykład scikit-learn==0.19.1.

    Uwaga

    W przypadku zadań usługa Databricks zaleca określenie wersji biblioteki w celu zapewnienia powtarzalnego środowiska. Jeśli wersja biblioteki nie jest w pełni określona, usługa Databricks używa najnowszej zgodnej wersji. Oznacza to, że różne uruchomienia tego samego zadania mogą korzystać z różnych wersji bibliotek, ponieważ publikowane są nowe wersje. Określanie wersji biblioteki zapobiega wprowadzeniu krytycznych zmian w bibliotekach, które mogą zakłócić twoje zadania.

  3. (Opcjonalnie) W polu Adres URL indeksu wprowadź adres URL indeksu PyPI.

  4. Kliknij przycisk Zainstaluj.

Pakiet Maven lub Spark

Ważne

Aby zainstalować biblioteki Maven na obliczeniach skonfigurowanych w trybie dostępu standardowego (dawniej tryb dostępu współdzielonego), należy ustawić uprawnienia CAN ATTACH TO i CAN MANAGE na obliczeniach i dodać współrzędne narzędzia Maven do listy dozwolonych. Zobacz Dodawanie współrzędnych narzędzia Maven do listy dozwolonych.

Ważne

W przypadku wersji DBR 14.3 LTS i nowszych usługa Databricks używa platformy Apache Ivy 2.4.0 do rozpoznawania pakietów Maven. W przypadku wersji DBR 15.0 lub nowszej usługa Databricks używa wersji Ivy 2.5.1 lub nowszej, a określona wersja Ivy jest wymieniona w informacjach o wersji i zgodności środowiska Databricks Runtime.

Kolejność instalacji pakietów Maven może mieć wpływ na końcowe drzewo zależności, co może mieć wpływ na kolejność ładowania bibliotek.

  1. Na liście przycisków Źródła biblioteki wybierz Maven.

  2. Określ współrzędną maven. Wykonaj jedną z następujących czynności:

    • W polu Współrzędne wprowadź koordynaty Maven biblioteki, którą chcesz zainstalować. Współrzędne maven są w postaci groupId:artifactId:version, na przykład com.databricks:spark-avro_2.10:1.0.0.
    • Jeśli nie znasz dokładnej współrzędności, wprowadź nazwę biblioteki i kliknij pozycję Wyszukaj pakiety. Zostanie wyświetlona lista pasujących pakietów. Aby wyświetlić szczegółowe informacje o pakiecie, kliknij jego nazwę. Pakiety można sortować według nazwy, organizacji i klasyfikacji. Wyniki można również filtrować, pisząc zapytanie na pasku wyszukiwania. Wyniki są odświeżane automatycznie.
      1. Wybierz Maven Central lub Pakiety Spark z listy rozwijanej w lewym górnym rogu.
      2. Możesz opcjonalnie wybrać wersję pakietu w kolumnie Wydania.
      3. Kliknij + wybierz obok pakietu. Pole Współrzędnych jest wypełnione wybranym pakietem i wersją.
  3. (Opcjonalnie) W polu Repozytorium możesz wprowadzić adres URL repozytorium Maven.

    Uwaga

    W przypadku wewnętrznych repozytoriów Maven należy wyłączyć domyślny resolver Maven Central przez ustawienie spark.databricks.driver.disableDefaultMavenCentralResolver lub spark.databricks.driver.disableSparkPackagesResolver na true. Ta nowa konfiguracja nie wyłącza spark.databricks.driver.preferredMavenCentralMirrorUrl.

  4. W polu Wykluczenia opcjonalnie podaj wartości groupId i artifactId zależności, które chcesz wykluczyć (na przykład log4j:log4j).

    Uwaga

    Narzędzie Maven działa poprzez użycie najbliższej wersji korzenia, a w przypadku dwóch pakietów konkurujących o wersje z różnymi zależnościami, kolejność ładowania ma znaczenie, więc może się nie udać, gdy pakiet ze starszą zależnością zostanie załadowany jako pierwszy.

    Aby obejść ten proces, wyklucz bibliotekę powodującą konflikt. Na przykład, podczas instalowania pakietu ze współrzędną com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.22, ustaw pole Wykluczenia na com.nimbusds:oauth2-oidc-sdk:RELEASE, aby załadowała się najnowsza wersja eventhubs z biblioteki MSAL4J i zaspokojona została zależność eventhubs.

  5. Kliknij przycisk Zainstaluj.

Pakiet CRAN

  1. Na liście przycisków Źródło bibliotek, wybierz CRAN.
  2. W polu Pakiet wprowadź nazwę pakietu.
  3. (Opcjonalnie) W polu Repozytorium możesz wprowadzić adres URL repozytorium CRAN.
  4. Kliknij przycisk Zainstaluj.

Uwaga

Mirrory CRAN obsługują najnowszą wersję biblioteki. W rezultacie, jeśli dołączasz bibliotekę do różnych klastrów w różnych momentach, mogą wystąpić różne wersje pakietu R. Aby dowiedzieć się, jak zarządzać i naprawiać wersje pakietów języka R w usłudze Databricks, zobacz bazę wiedzy.