Uwaga
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Usługa Azure Databricks udostępnia narzędzia do instalowania bibliotek z repozytoriów pakietów PyPI, Maven i CRAN. Zobacz Biblioteki o zakresie obliczeniowym, aby uzyskać szczegółowe informacje o zgodności bibliotek.
Ważne
Biblioteki można instalować z systemu plików DBFS podczas korzystania z środowiska Databricks Runtime 14.3 LTS i poniżej. Jednak każdy użytkownik obszaru roboczego może modyfikować pliki biblioteki przechowywane w systemie plików DBFS. Aby zwiększyć bezpieczeństwo bibliotek w obszarze roboczym usługi Azure Databricks, przechowywanie plików bibliotek w katalogu głównym DBFS przeszło w stan przestarzałości i domyślnie jest wyłączone w środowisku Databricks Runtime 15.1 lub nowszym. Zobacz Przechowywanie bibliotek w katalogu głównym systemu plików DBFS jest domyślnie przestarzałe i wyłączone.
Zamiast tego, Databricks rekomenduje przekazywanie wszystkich bibliotek, w tym bibliotek Python, plików JAR i łączników Spark, do plików obszaru roboczego lub woluminów katalogu Unity, albo korzystanie z repozytoriów pakietów bibliotecznych. Jeśli obciążenie nie obsługuje tych wzorców, możesz również użyć bibliotek przechowywanych w magazynie obiektów w chmurze.
Pakiet PyPI
Na liście przycisków Biblioteka źródłowa wybierz pozycję PyPI.
Wprowadź nazwę pakietu PyPI. Aby zainstalować określoną wersję biblioteki, użyj tego formatu dla biblioteki:
<library>==<version>
. Na przykładscikit-learn==0.19.1
.Uwaga
W przypadku zadań usługa Databricks zaleca określenie wersji biblioteki w celu zapewnienia powtarzalnego środowiska. Jeśli wersja biblioteki nie jest w pełni określona, usługa Databricks używa najnowszej zgodnej wersji. Oznacza to, że różne uruchomienia tego samego zadania mogą korzystać z różnych wersji bibliotek, ponieważ publikowane są nowe wersje. Określanie wersji biblioteki zapobiega wprowadzeniu krytycznych zmian w bibliotekach, które mogą zakłócić twoje zadania.
(Opcjonalnie) W polu Adres URL indeksu wprowadź adres URL indeksu PyPI.
Kliknij przycisk Zainstaluj.
Pakiet Maven lub Spark
Ważne
Aby zainstalować biblioteki Maven na obliczeniach skonfigurowanych w trybie dostępu standardowego (dawniej tryb dostępu współdzielonego), należy ustawić uprawnienia CAN ATTACH TO i CAN MANAGE na obliczeniach i dodać współrzędne narzędzia Maven do listy dozwolonych. Zobacz Dodawanie współrzędnych narzędzia Maven do listy dozwolonych.
Ważne
W przypadku wersji DBR 14.3 LTS i nowszych usługa Databricks używa platformy Apache Ivy 2.4.0 do rozpoznawania pakietów Maven. W przypadku wersji DBR 15.0 lub nowszej usługa Databricks używa wersji Ivy 2.5.1 lub nowszej, a określona wersja Ivy jest wymieniona w informacjach o wersji i zgodności środowiska Databricks Runtime.
Kolejność instalacji pakietów Maven może mieć wpływ na końcowe drzewo zależności, co może mieć wpływ na kolejność ładowania bibliotek.
Na liście przycisków Źródła biblioteki wybierz Maven.
Określ współrzędną maven. Wykonaj jedną z następujących czynności:
- W polu Współrzędne wprowadź koordynaty Maven biblioteki, którą chcesz zainstalować. Współrzędne maven są w postaci
groupId:artifactId:version
, na przykładcom.databricks:spark-avro_2.10:1.0.0
. - Jeśli nie znasz dokładnej współrzędności, wprowadź nazwę biblioteki i kliknij pozycję Wyszukaj pakiety. Zostanie wyświetlona lista pasujących pakietów. Aby wyświetlić szczegółowe informacje o pakiecie, kliknij jego nazwę. Pakiety można sortować według nazwy, organizacji i klasyfikacji. Wyniki można również filtrować, pisząc zapytanie na pasku wyszukiwania. Wyniki są odświeżane automatycznie.
- Wybierz Maven Central lub Pakiety Spark z listy rozwijanej w lewym górnym rogu.
- Możesz opcjonalnie wybrać wersję pakietu w kolumnie Wydania.
- Kliknij + wybierz obok pakietu. Pole Współrzędnych jest wypełnione wybranym pakietem i wersją.
- W polu Współrzędne wprowadź koordynaty Maven biblioteki, którą chcesz zainstalować. Współrzędne maven są w postaci
(Opcjonalnie) W polu Repozytorium możesz wprowadzić adres URL repozytorium Maven.
Uwaga
W przypadku wewnętrznych repozytoriów Maven należy wyłączyć domyślny resolver Maven Central przez ustawienie
spark.databricks.driver.disableDefaultMavenCentralResolver
lubspark.databricks.driver.disableSparkPackagesResolver
natrue
. Ta nowa konfiguracja nie wyłączaspark.databricks.driver.preferredMavenCentralMirrorUrl
.W polu Wykluczenia opcjonalnie podaj wartości
groupId
iartifactId
zależności, które chcesz wykluczyć (na przykładlog4j:log4j
).Uwaga
Narzędzie Maven działa poprzez użycie najbliższej wersji korzenia, a w przypadku dwóch pakietów konkurujących o wersje z różnymi zależnościami, kolejność ładowania ma znaczenie, więc może się nie udać, gdy pakiet ze starszą zależnością zostanie załadowany jako pierwszy.
Aby obejść ten proces, wyklucz bibliotekę powodującą konflikt. Na przykład, podczas instalowania pakietu ze współrzędną
com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.22
, ustaw pole Wykluczenia nacom.nimbusds:oauth2-oidc-sdk:RELEASE
, aby załadowała się najnowsza wersjaeventhubs
z biblioteki MSAL4J i zaspokojona została zależnośćeventhubs
.Kliknij przycisk Zainstaluj.
Pakiet CRAN
- Na liście przycisków Źródło bibliotek, wybierz CRAN.
- W polu Pakiet wprowadź nazwę pakietu.
- (Opcjonalnie) W polu Repozytorium możesz wprowadzić adres URL repozytorium CRAN.
- Kliknij przycisk Zainstaluj.
Uwaga
Mirrory CRAN obsługują najnowszą wersję biblioteki. W rezultacie, jeśli dołączasz bibliotekę do różnych klastrów w różnych momentach, mogą wystąpić różne wersje pakietu R. Aby dowiedzieć się, jak zarządzać i naprawiać wersje pakietów języka R w usłudze Databricks, zobacz bazę wiedzy.