hierarchiczna przestrzeń nazw Azure Data Lake Storage Gen2

Kluczowy mechanizm, który umożliwia Azure Data Lake Storage Gen2 zapewnienie wydajności systemu plików w skali magazynu obiektów, a ceny to dodanie hierarchicznej przestrzeni nazw. Dzięki temu kolekcja obiektów/plików w ramach konta może być zorganizowana w hierarchię katalogów i zagnieżdżonych podkatalogów w taki sam sposób, w jaki system plików na komputerze jest zorganizowany. Po włączeniu hierarchicznej przestrzeni nazw konto magazynu może zapewnić skalowalność i opłacalność magazynu obiektów, dzięki semantyce systemu plików znanej aparatom analitycznym i strukturom.

Zalety hierarchicznej przestrzeni nazw

Następujące korzyści są skojarzone z systemami plików, które implementują hierarchiczną przestrzeń nazw na danych obiektów blob:

  • Manipulowanie katalogami niepodzielnych: Obiekt przechowuje przybliżoną hierarchię katalogów, przyjmując konwencję osadzania ukośników (/) w nazwie obiektu w celu określenia segmentów ścieżki. Podczas gdy ta konwencja działa na potrzeby organizowania obiektów, konwencja nie zapewnia pomocy dla akcji, takich jak przenoszenie, zmienianie nazw lub usuwanie katalogów. Bez rzeczywistych katalogów aplikacje muszą przetwarzać potencjalnie miliony pojedynczych obiektów blob w celu osiągnięcia zadań na poziomie katalogu. Z kolei hierarchiczna przestrzeń nazw przetwarza te zadania, aktualizując pojedynczy wpis (katalog nadrzędny).

    Ta dramatyczna optymalizacja jest szczególnie znacząca w przypadku wielu struktur analizy danych big data. Narzędzia takie jak Hive, Spark itp. często zapisuj dane wyjściowe w lokalizacjach tymczasowych, a następnie zmień nazwę lokalizacji na zakończenie zadania. Bez hierarchicznej przestrzeni nazw ta zmiana nazwy może często trwać dłużej niż sam proces analizy. Mniejsze opóźnienie zadania jest równe niższemu całkowitemu kosztowi posiadania (TCO) dla obciążeń analitycznych.

  • Znany styl interfejsu: Systemy plików są dobrze zrozumiałe dla deweloperów i użytkowników. Nie ma potrzeby uczenia się nowego paradygmatu magazynowania podczas przechodzenia do chmury, ponieważ interfejs systemu plików udostępniany przez Data Lake Storage Gen2 jest tym samym paradygmatem używanym przez komputery, duże i małe.

Jednym z powodów, dla których magazyny obiektów nie obsługują historycznie hierarchicznej przestrzeni nazw, jest to, że hierarchiczna przestrzeń nazw ogranicza skalę. Jednak Data Lake Storage Gen2 hierarchiczna przestrzeń nazw jest skalowana liniowo i nie obniża wydajności ani pojemności danych.

Decydowanie, czy włączyć hierarchiczną przestrzeń nazw

Po włączeniu hierarchicznej przestrzeni nazw na koncie nie można przywrócić jej z powrotem do płaskiej przestrzeni nazw. Dlatego należy rozważyć, czy warto włączyć hierarchiczną przestrzeń nazw na podstawie charakteru obciążeń magazynu obiektów. Aby ocenić wpływ włączenia hierarchicznej przestrzeni nazw na obciążenia, aplikacje, koszty, integracje usług, narzędzia, funkcje i dokumentację, zobacz Uaktualnianie Azure Blob Storage z możliwościami Azure Data Lake Storage Gen2.

Niektóre obciążenia mogą nie przynieść korzyści dzięki włączeniu hierarchicznej przestrzeni nazw. Przykłady obejmują kopie zapasowe, magazyn obrazów i inne aplikacje, w których organizacja obiektów jest przechowywana oddzielnie od samych obiektów (na przykład w oddzielnej bazie danych).

Ponadto, chociaż obsługa funkcji usługi Blob Storage i ekosystemu usług platformy Azure nadal rośnie, nadal istnieją pewne funkcje i usługi platformy Azure, które nie są jeszcze obsługiwane na kontach, które mają hierarchiczną przestrzeń nazw. Zobacz Znane problemy.

Ogólnie rzecz biorąc, zaleca się włączenie hierarchicznej przestrzeni nazw dla obciążeń magazynu przeznaczonych dla systemów plików, które manipulują katalogami. Obejmuje to wszystkie obciążenia, które są przeznaczone głównie do przetwarzania analiz. Zestawy danych, które wymagają wysokiego stopnia organizacji, będą również korzystne dzięki włączeniu hierarchicznej przestrzeni nazw.

Przyczyny włączenia hierarchicznej przestrzeni nazw są określane przez analizę TCO. Ogólnie rzecz biorąc, ulepszenia opóźnienia obciążeń ze względu na przyspieszenie magazynu będą wymagały zasobów obliczeniowych przez krótszy czas. Opóźnienie dla wielu obciążeń może zostać ulepszone z powodu manipulowania katalogami niepodzielnymi, które jest włączone przez hierarchiczną przestrzeń nazw. W wielu obciążeniach zasób obliczeniowy reprezentuje > 85% całkowitego kosztu, a więc nawet niewielkie zmniejszenie opóźnienia obciążenia oznacza znaczną ilość oszczędności całkowitego kosztu posiadania. Nawet w przypadkach, gdy włączenie hierarchicznej przestrzeni nazw zwiększa koszty magazynowania, koszt posiadania jest nadal obniżany ze względu na mniejsze koszty obliczeniowe.

Aby przeanalizować różnice w cenach magazynowania danych, cenach transakcji i cenach rezerwacji pojemności magazynu między kontami z płaską hierarchiczną przestrzenią nazw a hierarchiczną przestrzenią nazw, zobacz Azure Data Lake Storage Gen2 cennik.

Następne kroki