Czym są woluminy katalogu Unity?

Woluminy to obiekty Unity Catalog, które umożliwiają zarządzanie zestawami danych innych niż tabelaryczne. Woluminy reprezentują logiczną woluminę magazynową w usłudze magazynowania obiektów w chmurze. Woluminy zapewniają możliwości uzyskiwania dostępu, przechowywania, zarządzania i organizowania plików.

Podczas gdy tabele zarządzają danymi tabelarycznymi, woluminy zarządzają danymi nie tabelarycznymi dowolnego formatu, w tym ustrukturyzowane, częściowo ustrukturyzowane lub nieustrukturyzowane.

Usługa Databricks zaleca używanie woluminów do zarządzania dostępem do wszystkich danych innych niż tabelaryczne. Woluminy są dostępne w dwóch typach:

Woluminy zarządzane: Do prostego przechowywania zarządzanego przez usługę Databricks.
Woluminy zewnętrzne: Aby dodać zarządzanie do istniejących lokalizacji przechowywania obiektów w chmurze.

Przypadki użycia woluminów

Przypadki użycia woluminów obejmują:

Zarejestruj obszary docelowe dla danych pierwotnych generowanych przez systemy zewnętrzne, aby obsługiwać ich przetwarzanie we wczesnych etapach potoków ETL i innych działań inżynieryjnych danych.
Zarejestruj lokalizacje przejściowe na potrzeby pozyskiwania. Na przykład przy użyciu instrukcji Auto Loader, COPY INTOlub CTAS (CREATE TABLE AS).
Udostępniaj lokalizacje przechowywania plików dla analityków danych, analityków danych i inżynierów uczenia maszynowego do użycia w ramach eksploracyjnej analizy danych i innych zadań nauki o danych.
Zapewnij użytkownikom usługi Azure Databricks dostęp do dowolnych plików utworzonych i zdeponowanych w magazynie w chmurze przez inne systemy. Na przykład duże kolekcje danych nieustrukturyzowanych (takich jak obrazy, audio, wideo i pliki PDF) przechwycone przez systemy nadzoru lub urządzenia IoT, lub pliki bibliotek (pliki JAR i pliki Python wheel) wyeksportowane z lokalnych systemów zarządzania zależnościami lub potoków CI/CD.
Przechowywanie danych operacyjnych, takich jak pliki rejestrowania lub tworzenia punktów kontrolnych.

Aby zapoznać się z demonstracją pracy z woluminami, zobacz Upraszczanie pobierania plików, obrazów i danych przy użyciu woluminów katalogu Unity.

Important

Nie można rejestrować plików w woluminach jako tabel w Unity Catalog. Woluminy są przeznaczone wyłącznie do dostępu do danych opartych na ścieżkach. Użyj tabel, gdy chcesz pracować z danymi tabelarycznymi w Unity Catalog.

Zarządzane i zewnętrzne woluminy

Zarządzane i zewnętrzne woluminy oferują niemal identyczne doświadczenia podczas korzystania z narzędzi, interfejsów użytkownika i interfejsów API w usłudze Azure Databricks. Główne różnice dotyczą lokalizacji magazynu, cyklu życia i kontroli:

Funkcja	Woluminy zarządzane	Woluminy zewnętrzne
Lokalizacja usługi Storage	Utworzono wewnątrz magazynu zarządzanego przez UC dla schematu	Zarejestrowane względem istniejącej ścieżki magazynu obiektów w chmurze
Cykl życia danych	UC zarządza układem i usuwaniem (7-dniowe przechowywanie po usunięciu)	Dane pozostają w przechowywaniu w chmurze po odłączeniu woluminu
Kontrola dostępu	Cały dostęp przechodzi przez UC	UC zarządza dostępem, ale narzędzia zewnętrzne mogą używać bezpośrednich identyfikatorów URI
Wymagana migracja?	Nie.	Nie — użyj istniejących ścieżek przechowywania bez zmian
Typowy przypadek użycia	Najprostsza opcja dla obciążeń wyłącznie w usłudze Databricks	Mieszany dostęp do Databricks i systemu zewnętrznego

Dlaczego warto używać woluminów zarządzanych?

Woluminy zarządzane mają następujące korzyści:

Domyślny wybór obciążeń Databricks.
Nie ma potrzeby ręcznego zarządzania poświadczeniami chmury ani ścieżkami przechowywania.
Najprostsza opcja szybkiego tworzenia zarządzanych lokalizacji przechowywania.

Dlaczego warto używać woluminów zewnętrznych?

Woluminy zewnętrzne pozwalają na dodanie zarządzania danymi przy użyciu Unity Catalog do istniejących katalogów w magazynach pamięci obiektów w chmurze. Niektóre przypadki użycia woluminów zewnętrznych obejmują następujące elementy:

Wdrażanie zarządzania tam, gdzie dane już się znajdują, bez konieczności kopiowania danych.
Zarządzanie plikami utworzonymi przez inne systemy, które muszą być pozyskiwane lub uzyskiwane przez usługę Azure Databricks.
Zarządzanie danymi utworzonymi przez usługę Azure Databricks, które muszą być dostępne bezpośrednio z magazynu obiektów w chmurze przez inne systemy.

Usługa Databricks zaleca używanie woluminów zewnętrznych do przechowywania plików danych innych niż tabelaryczne, które są odczytywane lub zapisywane przez systemy zewnętrzne oprócz usługi Azure Databricks. Unity Catalog nie zarządza odczytami i zapisami wykonywanymi bezpośrednio na zasobach obiektowych w chmurze z systemów zewnętrznych. Dlatego należy skonfigurować dodatkowe zasady i poświadczenia na koncie w chmurze, aby zasady zarządzania danymi były przestrzegane także poza usługą Azure Databricks.

Ścieżka dostępu do plików w woluminie

Woluminy znajdują się na trzecim poziomie trójpoziomowej przestrzeni nazw katalogu Unity (catalog.schema.volume):

Diagram modelu obiektów Unity Catalog, skoncentrowany na zbiorach

Ścieżka dostępu do woluminów jest taka sama, jak w przypadku używania platformy Apache Spark, sql, języka Python lub innych języków i bibliotek. Różni się to od starszych wzorców dostępu dla plików w magazynie obiektów powiązanym z obszarem roboczym usługi Azure Databricks.

Ścieżka dostępu do plików w wolumenach ma następujący format:

/Volumes/<catalog>/<schema>/<volume>/<path>/<file-name>

Usługa Azure Databricks obsługuje również opcjonalny dbfs:/ schemat podczas pracy z platformą Apache Spark, więc następująca ścieżka również działa:

dbfs:/Volumes/<catalog>/<schema>/<volume>/<path>/<file-name>

Część /<catalog>/<schema>/<volume> ścieżki odnosi się do trzech nazw obiektów w Unity Catalog dla pliku. Te katalogi są tylko do odczytu i automatycznie zarządzane przez Unity Catalog. Nie można ich tworzyć ani usuwać za pomocą poleceń systemu plików.

Note

Można również uzyskać dostęp do danych na woluminach zewnętrznych, używając URI do przechowywania w chmurze.

Ścieżki zarezerwowane dla woluminów

Woluminy zawierają następujące ścieżki zarezerwowane używane do uzyskiwania dostępu do woluminów:

dbfs:/Volumes
/Volumes

Note

Ścieżki są również zarezerwowane dla potencjalnych literówek w przypadku tych ścieżek z interfejsów API platformy Apache Spark i dbutils, w tym /volumes, /Volume, /volume, niezależnie od tego, czy są poprzedzone przez dbfs:/. Ścieżka /dbfs/Volumes jest również zarezerwowana, ale nie może być używana do uzyskiwania dostępu do woluminów.

Woluminy są obsługiwane tylko w środowisku Databricks Runtime 13.3 LTS i nowszym. W Databricks Runtime 12.2 LTS i wcześniejszych wersjach operacje na ścieżkach /Volumes mogą zakończyć się powodzeniem, ale mogą zapisywać dane tylko na dyskach tymczasowego przechowywania dołączonych do klastrów obliczeniowych, zamiast zachowywać dane w woluminach Unity Catalog zgodnie z oczekiwaniami.

Important

Jeśli masz wstępnie istniejące dane przechowywane w ścieżce zarezerwowanej w katalogu głównym systemu plików DBFS, utwórz bilet pomocy technicznej, aby uzyskać tymczasowy dostęp do tych danych, aby przenieść je do innej lokalizacji.

Wymagania dotyczące obliczeń

Podczas pracy z woluminami należy użyć usługi SQL Warehouse lub klastra z uruchomionym środowiskiem Databricks Runtime 13.3 LTS lub nowszym, chyba że używasz interfejsów użytkownika usługi Azure Databricks, takich jak Eksplorator wykazu.

Aby uzyskać informacje na temat przechowywania punktów kontrolnych ramki danych w woluminach, zobacz Punkty kontrolne ramki danych w woluminach.

Limitations

Aby korzystać z woluminów Unity Catalog, należy użyć zasobów obliczeniowych z obsługą Unity Catalog.

W poniższej tabeli przedstawiono ograniczenia danych katalogu Unity w zależności od wersji Databricks Runtime.

Wersja środowiska uruchomieniowego usługi Databricks	Limitations
Wszystkie obsługiwane wersje środowiska Databricks Runtime	Woluminy nie obsługują `dbutils.fs` poleceń dystrybuowanych do funkcji wykonawczych. Definiowane przez użytkownika funkcje katalogu Unity nie obsługują dostępu do ścieżek plików na woluminach. Nie można uzyskać dostępu do woluminów z RDD. Nie można użyć starszej wersji zadania spark-submit z JAR-ami przechowywanymi w woluminie. Zamiast tego użyj zadania JAR. Zobacz Zadanie JAR dla prac. Nie można zdefiniować zależności do innych bibliotek, do których uzyskiwano dostęp za pośrednictwem ścieżek woluminów wewnątrz koła lub pliku JAR. Nie można wyświetlić listy obiektów Unity Catalog przy użyciu wzorców `/Volumes/<catalog-name>` lub `/Volumes/<catalog-name>/<schema-name>`. Należy użyć w pełni kwalifikowanej ścieżki zawierającej nazwę woluminu w formacie `Volumes/<catalog-name>/<schema-name>/<volume-name>`. Na przykład `dbutils.fs.ls("/Volumes/MyCatalog/MySchema/MyVolume")` `%sh mv` nie jest obsługiwane do przenoszenia plików między woluminami. Użyj polecenia `dbutils.fs.mv` lub `%sh cp` zamiast tego. Nie można utworzyć niestandardowego systemu plików Hadoop z wolumenami. Na przykład użycie polecenia `new Path("dbfs:/Volumes/main/default/test-volume/file.txt")` do utworzenia `org.apache.hadoop.fs.path` obiektu nie będzie działać. Woluminy nie są dostępne w regionach ani obszarach roboczych platformy Azure Government zgodnych z FedRAMP. Musisz użyć formatu ścieżki ze schematem `dbfs:/` w panelu konfiguracji biblioteki Azure Data Factory, na przykład `dbfs:/Volumes/<catalog-name>/<schema-name>/<volume-name>/file`.
14.3 LTS i nowsze	W przypadku obliczeń z dedykowanym trybem dostępu (dawniej trybem dostępu pojedynczego użytkownika) nie można uzyskać dostępu do woluminów z wątków i podprocesów w języku Scala.
14.2 i poniżej	W przypadku komputerów skonfigurowanych w standardowym trybie dostępu (dawniej współdzielonym), nie można używać funkcji zdefiniowanych przez użytkownika do uzyskiwania dostępu do woluminów. Zarówno Python, jak i Scala mają dostęp do FUSE ze sterownika, ale nie z egzekutorów. Kod Scala, który wykonuje operacje we/wy, może być uruchamiany na sterowniku, ale nie na funkcjach wykonawczych. W przypadku obliczeń skonfigurowanych w trybie dedykowanego dostępu nie ma obsługi FUSE w Scala, kodu wejścia/wyjścia w Scala uzyskującego dostęp do danych za pomocą ścieżek woluminów lub Scala UDF. Funkcje zdefiniowane przez użytkownika języka Python są wspierane w trybie dedykowanego dostępu.

Dalsze kroki

Następujące artykuły zawierają więcej informacji na temat pracy z wolumenami:

Opinia

Czy ta strona była pomocna?

Last updated on 2026-04-03