Uwaga
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Aby udostępnić kod zewnętrzny lub niestandardowy dla notesów i zadań uruchamianych w zasobach obliczeniowych, możesz zainstalować bibliotekę. Biblioteki można pisać w językach Python, Java, Scala i R. Możesz przekazać biblioteki Python, Java i Scala oraz wskazać pakiety zewnętrzne w repozytoriach PyPI, Maven i CRAN.
W usłudze Azure Databricks wiele typowych bibliotek jest zawartych w środowisku Databricks Runtime. Aby wyświetlić biblioteki zawarte w środowisku Databricks Runtime, przejdź do podsekcji Środowisko systemu w artykule Informacje o wersji środowiska uruchomieniowego usługi Databricks dotyczącym wersji środowiska Databricks Runtime, z której korzystasz.
Uwaga
Pomoc techniczna firmy Microsoft pomaga wyizolować i rozwiązać problemy związane z bibliotekami instalowanymi i obsługiwanymi przez usługę Azure Databricks. W przypadku składników innych firm, w tym bibliotek, firma Microsoft zapewnia pomoc techniczną w uzasadnionym ekonomicznie zakresie, aby pomóc w dalszym rozwiązywaniu problemów. Zespół pomocy technicznej firmy Microsoft pomaga w takich przypadkach w miarę możliwości i jest w stanie rozwiązać niektóre problemy. W przypadku projektów i łączników typu open source hostowanych w usłudze GitHub zalecamy zgłaszanie problemów i podejmowanie dalszych działań w usłudze GitHub. Prace programistyczne, takie jak ukrywanie zawartości plików JAR lub tworzenie bibliotek Python, nie są wspierane przez standardowy proces zgłaszania przypadków do pomocy technicznej: wymagają skorzystania z usług konsultingowych, aby uzyskać szybsze rozwiązanie. Pomoc techniczna może poprosić Cię o skorzystanie z innych kanałów dla technologii open-source, gdzie można znaleźć specjalistyczną wiedzę na temat tej technologii. Istnieje kilka witryn społeczności, na przykład strona usługi Azure Databricks w witrynie Microsoft Q&A oraz witryna Stack Overflow.
biblioteki o zakresie obliczeniowym
Biblioteki można instalować na zasobie obliczeniowym, aby mogły być używane przez wszystkie notatniki i zadania uruchomione na zasobie obliczeniowym. Usługa Databricks obsługuje biblioteki Python, JAR i R. Zobacz Biblioteki klastrów.
Bibliotekę o zakresie obliczeniowym można zainstalować bezpośrednio z następujących źródeł:
- Repozytorium pakietów, takie jak PyPI, Maven lub CRAN
- Pliki obszaru roboczego
- Woluminy Katalogu Unity
- Lokalizacja magazynu obiektów w chmurze
- Ścieżka na komputerze lokalnym
Nie wszystkie lokalizacje są obsługiwane dla wszystkich typów bibliotek lub wszystkich konfiguracji obliczeniowych. Zobacz Zalecenia dotyczące przesyłania bibliotek w celu uzyskania rekomendacji konfiguracji.
Ważne
Biblioteki można instalować z systemu plików DBFS podczas korzystania z środowiska Databricks Runtime 14.3 LTS i poniżej. Jednak każdy użytkownik obszaru roboczego może modyfikować pliki biblioteki przechowywane w systemie plików DBFS. Aby zwiększyć bezpieczeństwo bibliotek w obszarze roboczym usługi Azure Databricks, przechowywanie plików bibliotek w katalogu głównym DBFS jest domyślnie niezalecane do użytku i wyłączone w środowisku Databricks Runtime 15.1 lub nowszym. Zobacz Przechowywanie bibliotek w katalogu głównym systemu plików DBFS jest domyślnie przestarzałe i wyłączone.
Zamiast tego usługa Databricks zaleca przekazywanie wszystkich bibliotek, w tym bibliotek języka Python, plików JAR i łączników platformy Spark, do plików obszaru roboczego lub woluminów Unity Catalog albo korzystanie z repozytoriów pakietów bibliotecznych. Jeśli obciążenie nie obsługuje tych wzorców, możesz również użyć bibliotek przechowywanych w magazynie obiektów w chmurze.
Aby uzyskać pełne informacje o obsłudze bibliotek, zobacz Obsługa bibliotek języka Python, obsługa bibliotek Java i Scala oraz obsługa bibliotek języka R.
Zalecenia dotyczące przesyłania bibliotek
Usługa Databricks obsługuje większość instalacji konfiguracji bibliotek Python, JAR i R, ale istnieją nieobsługiwane scenariusze. Zaleca się przekazywanie bibliotek do lokalizacji źródłowych, które obsługują instalację na obliczeniach ze standardowym trybem dostępu (dawniej tryb dostępu współdzielonego), ponieważ jest to zalecany tryb dla wszystkich obciążeń. Zobacz Tryby dostępu. Podczas planowania zadań w standardowym trybie dostępu uruchom zadanie przy użyciu jednostki usługi .
Ważne
Używaj zasobów obliczeniowych z dedykowanym trybem dostępu (dawniej trybem dostępu pojedynczego użytkownika), jeśli wymagane funkcje nie są obsługiwane przez standardowy tryb dostępu. Tryb współdzielonego dostępu bez izolacji na platformie Databricks to starsza konfiguracja, która nie jest zalecana.
Poniższa tabela zawiera zalecenia uporządkowane według wersji środowiska Databricks Runtime i aktywacji katalogu Unity.
Konfigurowanie | Zalecenie |
---|---|
Databricks Runtime 13.3 LTS i wyższe wersje z Unity Catalog | Instalowanie bibliotek na komputerze przy użyciu standardowego trybu dostępu z woluminów katalogu Unity z uprawnieniami do odczytu GRANT dla wymaganych użytkowników. Jeśli ma to zastosowanie, współrzędne narzędzia Maven i ścieżki biblioteki JAR muszą zostać dodane do listy dozwolonych. |
Databricks Runtime 11.3 LTS i nowszy bez Unity Catalog | Zainstaluj biblioteki z plików obszaru roboczego. (Limit rozmiaru pliku wynosi 500 MB). |
Środowisko Databricks Runtime 10.4 LTS i starsze | Zainstaluj biblioteki z chmurowego magazynu obiektów. |
Obsługa biblioteki języka Python
W poniższej tabeli przedstawiono zgodność wersji środowiska Databricks Runtime dla plików Python wheel przy różnych trybach dostępu obliczeniowego, w zależności od lokalizacji źródła biblioteki. Zobacz wersje informacji o wydaniach i zgodności środowiska Databricks Runtime oraz tryby dostępu.
W środowisku Databricks Runtime 15.0 lub nowszym można zarządzać zależnościami języka Python za pomocą plików requirements.txt. Te pliki można przekazać do dowolnej obsługiwanej lokalizacji źródłowej.
Uwaga
Instalowanie plików egg języka Python jest obsługiwane tylko w środowisku Databricks Runtime 13.3 LTS i starszym oraz tylko w trybach dedykowanych lub współdzielonych bez izolacji. Ponadto nie można zainstalować plików jaj języka Python na woluminach lub plikach obszaru roboczego. Zamiast tego użyj plików wheel języka Python lub zainstaluj pakiety z PyPI.
Tryb dostępu standardowego | Tryb dedykowanego dostępu | Tryb współdzielonego dostępu bez izolacji (starsza wersja) | |
---|---|---|---|
PyPI | 13.3 LTS i nowsze | Wszystkie obsługiwane wersje środowiska Databricks Runtime | Wszystkie obsługiwane wersje środowiska Databricks Runtime |
Pliki obszaru roboczego | 13.3 LTS i nowsze | 13.3 LTS i nowsze | 14.1 i nowsze |
woluminy | 13.3 LTS i nowsze | 13.3 LTS i nowsze | Niewspierane |
Magazyn w chmurze | 13.3 LTS i późniejsze wersje | Wszystkie obsługiwane wersje środowiska Databricks Runtime | Wszystkie obsługiwane wersje środowiska Databricks Runtime |
DBFS (niezalecane) | Nieobsługiwane | 14.3 i poniżej | 14.3 i poniżej |
Obsługa bibliotek Java i Scala
W poniższej tabeli przedstawiono zgodność wersji środowiska Databricks Runtime dla plików JAR dla różnych trybów dostępu obliczeniowego na podstawie lokalizacji źródłowej biblioteki. Zobacz notatki o wersji środowiska Databricks Runtime oraz zgodność wersji i tryby dostępu.
Uwaga
Tryb dostępu standardowego wymaga, aby administrator dodał współrzędne i ścieżki Maven dla bibliotek JAR do allowlist
. Zobacz listę dozwolonych bibliotek i skrypty inicjujące dla obliczeń w standardowym trybie dostępu (dawniej znany jako tryb współdzielonego dostępu).
Tryb dostępu standardowego | Tryb dedykowanego dostępu | Brak izolacyjnego trybu dostępu współdzielonego (wersja starsza) | |
---|---|---|---|
Maven | 13.3 LTS i nowsze | Wszystkie obsługiwane wersje środowiska Databricks Runtime | Wszystkie obsługiwane wersje środowiska Databricks Runtime |
Pliki obszaru roboczego | Nie wspierane | Nieobsługiwany | 14.1 i nowsze |
Woluminy | 13.3 LTS i nowsze | 13.3 LTS i nowsze | Nieobsługiwane |
Magazyn w chmurze | 13.3 LTS i nowsze | Wszystkie obsługiwane wersje środowiska Databricks Runtime | Wszystkie obsługiwane wersje środowiska Databricks Runtime |
DBFS (niezalecane) | Niewspierane | 14.3 i poniżej | 14.3 i poniżej |
Obsługa bibliotek języka R
W poniższej tabeli przedstawiono zgodność wersji środowiska Databricks Runtime dla pakietów CRAN dla różnych trybów dostępu obliczeniowego. Zobacz wersje informacji o wersji i zgodność środowiska Databricks Runtime oraz tryby dostępu.
Tryb dostępu standardowego | Tryb dedykowanego dostępu | Brak izolacji przy dostępie współdzielonym (starsza wersja) | |
---|---|---|---|
CRAN | Nie obsługiwane | Wszystkie obsługiwane wersje środowiska Databricks Runtime | Wszystkie obsługiwane wersje środowiska Databricks Runtime |
Tożsamość instalatora
Podczas instalowania biblioteki z plików obszaru roboczego lub woluminów katalogu Unity, tożsamość może być powiązana z instalacją w zależności od trybu dostępu do przetwarzania. Tożsamość musi mieć dostęp do odczytu pliku biblioteki.
Tryb dostępu standardowego | Tryb dedykowanego dostępu | Brak trybu dostępu współdzielonego bez izolacji (starsza wersja) |
---|---|---|
Tożsamość użytkownika, który instaluje bibliotekę | Tożsamość dedykowanego dyrektora | Brak tożsamości |
Biblioteki w zakresie notatnika
Biblioteki dedykowane notesowi, dostępne dla języków Python i R, umożliwiają instalowanie bibliotek i tworzenie środowiska podczas sesji notesu. Te biblioteki nie wpływają na inne notesy działające na tym samym środowisku obliczeniowym. Biblioteki o zakresie notesu nie są zachowywane i muszą być ponownie zainstalowane na każdą sesję. Użyj bibliotek o zasięgu notebooka, jeśli potrzebujesz niestandardowego środowiska dla danego notebooka.
Uwaga
Plików JAR nie można instalować na poziomie notesu.
Ważne
Biblioteki obszarów roboczych zostały przestarzałe i nie powinny być używane. Zobacz Biblioteki przestrzeni roboczej (wersja klasyczna). Jednak przechowywanie bibliotek jako pliki w obszarze roboczym różni się od bibliotek roboczych i nadal jest w pełni obsługiwane. Biblioteki przechowywane jako pliki obszaru roboczego można zainstalować bezpośrednio do zadań obliczeniowych lub do zadań.
Zarządzanie środowiskiem języka Python
Poniższa tabela zawiera omówienie opcji, których można użyć do zainstalowania bibliotek języka Python w usłudze Azure Databricks.
Uwaga
-
Kontenery niestandardowe korzystające ze środowiska opartego na conda nie są zgodne z bibliotekami specyficznymi dla notebooków oraz z bibliotekami obliczeniowymi w Databricks Runtime 10.4 LTS i nowszych wersjach. Zamiast tego usługa Azure Databricks zaleca instalowanie bibliotek bezpośrednio na obrazie lub używanie skryptów inicjowania. Aby nadal korzystać z bibliotek obliczeniowych w tych scenariuszach, możesz ustawić
spark.databricks.driverNfs.clusterWidePythonLibsEnabled
konfiguracji platformy Spark nafalse
. Obsługa konfiguracji platformy Spark zostanie usunięta 31 grudnia 2021 r. lub później.
Źródło pakietu języka Python | Biblioteki ograniczone do notatnika korzystające z %pip | Biblioteki o zakresie notesu z plikiem YAML środowiska podstawowego | biblioteki o zakresie obliczeniowym | Biblioteki zadań z interfejsem API Jobs |
---|---|---|---|---|
PyPI | Użyj %pip install . Zobacz przykład. |
Dodaj nazwę pakietu PyPI do pliku YAML środowiska podstawowego. Zobacz przykład. | Wybierz pozycję PyPI jako źródło. | Dodaj nowy obiekt pypi do bibliotek zadań i określ pole package . |
Prywatny duplikat narzędzia PyPI, taki jak Nexus lub Artifactory | Użyj %pip install z opcją --index-url .
Zarządzanie tajemnicami jest dostępne. Zobacz przykład. |
Dodaj element -–index-url do pliku YAML środowiska podstawowego.
Zarządzanie sekretami jest dostępne. Zobacz przykład. |
Nieobsługiwane. | Nieobsługiwane. |
VCS, na przykład GitHub, z nieprzetworzonym źródłem | Użyj %pip install i określ adres URL repozytorium jako nazwę pakietu. Zobacz przykład. |
Dodaj adres URL repozytorium jako nazwę pakietu do pliku YAML środowiska podstawowego. Zobacz przykład. | Wybierz PyPI jako źródło i określ adres URL repozytorium jako nazwę pakietu. | Dodaj nowy obiekt pypi do bibliotek zadań i określ adres URL repozytorium jako pole package . |
Prywatne VCS z nieprzetworzonym źródłem | Użyj %pip install i określ adres URL repozytorium z uwierzytelnianiem podstawowym jako nazwę pakietu.
Zarządzanie tajemnicami jest dostępne. Zobacz przykład. |
Dodaj repozytorium z uwierzytelnianiem podstawowym jako nazwę pakietu do pliku YAML środowiska podstawowego. Zobacz przykład. | Nieobsługiwane. | Nieobsługiwane. |
Ścieżka pliku | Użyj %pip install . Zobacz przykład. |
Dodaj ścieżkę pliku jako nazwę pakietu do pliku YAML środowiska podstawowego. Zobacz przykład. | Wybierz ścieżkę pliku/ADLS jako źródło. | Dodaj nowy obiekt egg lub obiekt whl do bibliotek zadań i określ pole package ścieżki pliku. |
Azure Data Lake Storage | Użyj %pip install razem ze wstępnie podpisanym adresem URL. Ścieżki z protokołem usługi Azure Data Lake Storage abfss:// nie są obsługiwane. |
Dodaj wstępnie podpisany adres URL jako nazwę pakietu do pliku YAML środowiska podstawowego. Ścieżki z protokołem usługi Azure Data Lake Storage abfss:// nie są obsługiwane. |
Wybierz ścieżkę pliku/ADLS jako źródło. | Dodaj nowy obiekt egg lub whl do bibliotek zadań i określ ścieżkę usługi Azure Data Lake Storage jako pole package . |
Pierwszeństwo biblioteki języka Python
Może wystąpić sytuacja, w której trzeba zastąpić wersję wbudowanej biblioteki lub bibliotekę niestandardową, która powoduje konflikt w nazwie z inną biblioteką zainstalowaną na zasobie obliczeniowym. Po uruchomieniu import <library>
zostanie zaimportowana biblioteka o wysokim pierwszeństwie.
Ważne
Biblioteki przechowywane w plikach obszaru roboczego mają różne pierwszeństwo w zależności od sposobu ich dodawania do języka Python sys.path
. Folder Git w usłudze Databricks dodaje bieżący katalog roboczy do ścieżki przed wszystkimi innymi bibliotekami, natomiast notatniki spoza folderów Git wprowadzają bieżący katalog roboczy do ścieżki po zainstalowaniu innych bibliotek. Jeśli ręcznie dołączysz katalogi obszarów roboczych do ścieżki, zawsze mają one najniższy priorytet.
Następująca lista jest uporządkowana od najwyższego do najniższego. Na tej liście niższa liczba oznacza wyższy priorytet.
- Biblioteki w bieżącym katalogu roboczym (tylko foldery Git).
- Biblioteki w katalogu głównym folderu Git (tylko foldery Git).
- Biblioteki o zakresie zdefiniowanym w zeszytach (
%pip install
w zeszytach). - Biblioteki o zakresie obliczeniowym (przy użyciu interfejsu użytkownika, interfejsu wiersza polecenia lub interfejsu API).
- Biblioteki zawarte w środowisku Databricks Runtime.
- Biblioteki zainstalowane za pomocą skryptów init mogą rozwiązywać problemy przed lub po wbudowanych bibliotekach, w zależności od sposobu ich instalowania. Usługa Databricks nie zaleca instalowania bibliotek za pomocą skryptów inicjowania.
- Biblioteki w bieżącym katalogu roboczym (a nie w folderach Git).
- Pliki z przestrzeni roboczej dołączone do
sys.path
.