Udostępnij za pośrednictwem


Rekomendacje plików w woluminach i plikach obszaru roboczego

Podczas przekazywania lub zapisywania danych lub plików w usłudze Azure Databricks można przechowywać te pliki przy użyciu woluminów wykazu aparatu Unity lub plików obszaru roboczego. Ten artykuł zawiera zalecenia i wymagania dotyczące korzystania z tych lokalizacji. Aby uzyskać więcej informacji na temat woluminów i plików obszaru roboczego, zobacz Tworzenie woluminów i praca z woluminami oraz Co to są pliki obszaru roboczego?.

Usługa Databricks zaleca używanie woluminów wykazu aparatu Unity do przechowywania danych, bibliotek i artefaktów kompilacji. Przechowuj notesy, zapytania SQL i pliki kodu jako pliki obszaru roboczego. Katalogi plików obszaru roboczego można skonfigurować jako foldery Git do synchronizacji ze zdalnymi repozytoriami Git. Zobacz Integracja usługi Git z folderami Git usługi Databricks. Małe pliki danych używane w scenariuszach testowych mogą być również przechowywane jako pliki obszaru roboczego.

Poniższe tabele zawierają konkretne zalecenia dotyczące plików w zależności od typu pliku lub potrzeb funkcji.

Ważne

System plików usługi Databricks (DBFS) jest również dostępny dla magazynu plików, ale nie jest zalecany, ponieważ wszyscy użytkownicy obszaru roboczego mają dostęp do plików w systemie plików DBFS. Zobacz DBFS.

Typy plików

Poniższa tabela zawiera zalecenia dotyczące magazynu dla typów plików. Usługa Databricks obsługuje wiele formatów plików poza tym, co podano w tej tabeli jako przykłady.

Typ pliku Zalecenie
Obiekty usługi Databricks, takie jak notesy i zapytania Przechowywanie jako plików obszaru roboczego
Pliki danych ze strukturą, takie jak pliki Parquet i pliki ORC Przechowywanie w woluminach wykazu aparatu Unity
Pliki danych częściowo ustrukturyzowanych, takie jak pliki tekstowe (.csv, .txt) i pliki JSON (.json) Przechowywanie w woluminach wykazu aparatu Unity
Pliki danych bez struktury, takie jak pliki obrazów (.png, .svg), pliki audio (.mp3) i pliki dokumentów (.pdf, .docx) Przechowywanie w woluminach wykazu aparatu Unity
Nieprzetworzone pliki danych używane do eksploracji danych adhoc lub wczesnej eksploracji danych Przechowywanie w woluminach wykazu aparatu Unity
Dane operacyjne, takie jak pliki dziennika Przechowywanie w woluminach wykazu aparatu Unity
Duże pliki archiwum, takie jak pliki ZIP (.zip) Przechowywanie w woluminach wykazu aparatu Unity
Pliki kodu źródłowego, takie jak pliki języka Python (.py), pliki Java (.java) i pliki Scala (.scala) Przechowuj jako pliki obszaru roboczego, jeśli ma to zastosowanie, z innymi powiązanymi obiektami, takimi jak notesy i zapytania.

Usługa Databricks zaleca zarządzanie tymi plikami w folderze Git na potrzeby kontroli wersji i śledzenia zmian tych plików.
Tworzenie artefaktów i bibliotek, takich jak koła języka Python (.whl) i pliki JAR (.jar) Przechowywanie w woluminach wykazu aparatu Unity
Pliki konfiguracji Przechowuj pliki konfiguracji potrzebne w obszarach roboczych w woluminach wykazu aparatu Unity, ale przechowuj je jako pliki obszaru roboczego, jeśli są plikami projektu w folderze Git.

Porównanie funkcji

W poniższej tabeli porównaliśmy oferty funkcji plików obszarów roboczych i woluminów wykazu aparatu Unity.

Funkcja Pliki obszaru roboczego Woluminy wykazu aparatu Unity
Dostęp do plików Pliki obszaru roboczego są dostępne tylko dla siebie w tym samym obszarze roboczym. Pliki są globalnie dostępne w różnych obszarach roboczych.
Dostęp programowy Dostęp do plików można uzyskać przy użyciu:

* Interfejsy API platformy Spark
* BEZPIECZNIK
* dbutils
* Interfejs API REST
* Zestawy SDK usługi Databricks
* Interfejs wiersza polecenia usługi Databricks
Dostęp do plików można uzyskać przy użyciu:

* Interfejsy API platformy Spark
* BEZPIECZNIK
* dbutils
* Interfejs API REST
* Zestawy SDK usługi Databricks
* Połączenie ory SQL usługi Databricks
* Interfejs wiersza polecenia usługi Databricks
* Dostawca narzędzia Terraform usługi Databricks
Pakiety zasobów usługi Databricks Domyślnie wszystkie pliki w pakiecie, w tym biblioteki i obiekty usługi Databricks, takie jak notesy i zapytania, są wdrażane bezpiecznie jako pliki obszaru roboczego. Uprawnienia są definiowane w konfiguracji pakietu. Pakiety można dostosować tak, aby zawierały biblioteki już w woluminach, gdy biblioteki przekraczają limit rozmiaru plików obszaru roboczego. Zobacz Zależności biblioteki pakietów zasobów usługi Databricks.
Poziom uprawnień do pliku Uprawnienia są na poziomie folderu Git, jeśli plik znajduje się w folderze Git, w przeciwnym razie uprawnienia są ustawione na poziomie pliku. Uprawnienia są na poziomie woluminu.
Zarządzanie uprawnieniami Uprawnienia są zarządzane przez listy ACL obszaru roboczego i są ograniczone do zawierającego obszaru roboczego. Metadane i uprawnienia są zarządzane przez wykaz aparatu Unity. Te uprawnienia mają zastosowanie we wszystkich obszarach roboczych, które mają dostęp do katalogu.
Instalacja magazynu zewnętrznego Nie obsługuje instalowania magazynu zewnętrznego Udostępnia opcję wskazywania wstępnie istniejących zestawów danych w magazynie zewnętrznym przez utworzenie woluminu zewnętrznego. Zobacz Tworzenie woluminu zewnętrznego.
Obsługa funkcji zdefiniowanej przez użytkownika Nieobsługiwane Zapisywanie z funkcji zdefiniowanych przez użytkownika jest obsługiwane przy użyciu woluminów FUSE
Rozmiar pliku Przechowuj mniejsze pliki mniejsze niż 500 MB, takie jak pliki kodu źródłowego (.py, .md, .yml) potrzebne razem z notesami. Przechowuj bardzo duże pliki danych w limitach określonych przez dostawców usług w chmurze.
Przekazywanie i pobieranie Obsługa przekazywania i pobierania do 10 MB. Obsługa przekazywania i pobierania do 5 GB.
Obsługa tworzenia tabel Nie można utworzyć tabel z plikami obszaru roboczego jako lokalizacją. Tabele można tworzyć na podstawie plików w woluminie, uruchamiając polecenie COPY INTO, Autoloader lub inne opcje opisane w temacie Pozyskiwanie danych do usługi Databricks Lakehouse.
Struktura katalogów i ścieżki plików Pliki są zorganizowane w katalogach zagnieżdżonych, z których każdy ma własny model uprawnień:

* Katalogi główne użytkownika, jeden dla każdego użytkownika i jednostki usługi w obszarze roboczym
* Foldery Git
*Udostępnionych
Pliki są zorganizowane w katalogach zagnieżdżonych wewnątrz woluminu

Zobacz Jak uzyskać dostęp do danych w wykazie aparatu Unity?.
Historia plików Użyj folderu Git w obszarach roboczych, aby śledzić zmiany plików. Dzienniki inspekcji są dostępne.