Hierarchiczna przestrzeń nazw usługi Azure Data Lake Storage
Kluczowy mechanizm, który umożliwia usłudze Azure Data Lake Storage zapewnienie wydajności systemu plików w skali magazynu obiektów, a ceny są dodatkiem hierarchicznej przestrzeni nazw. Dzięki temu kolekcja obiektów/plików w ramach konta może być zorganizowana w hierarchię katalogów i zagnieżdżonych podkatalogów w taki sam sposób, w jaki system plików na komputerze jest zorganizowany. Po włączeniu hierarchicznej przestrzeni nazw konto magazynu staje się w stanie zapewnić skalowalność i opłacalność magazynu obiektów z semantykami systemu plików, które są znane aparatom analitycznym i strukturom.
Zalety hierarchicznej przestrzeni nazw
Następujące korzyści są skojarzone z systemami plików, które implementują hierarchiczną przestrzeń nazw na danych obiektów blob:
Manipulowanie katalogami niepodzielnych: obiekt przechowuje przybliżoną hierarchię katalogów, przyjmując konwencję osadzania ukośników (/) w nazwie obiektu w celu określenia segmentów ścieżki. Chociaż ta konwencja działa w przypadku organizowania obiektów, konwencja nie zapewnia pomocy dla akcji, takich jak przenoszenie, zmienianie nazw lub usuwanie katalogów. Bez rzeczywistych katalogów aplikacje muszą przetwarzać potencjalnie miliony pojedynczych obiektów blob w celu osiągnięcia zadań na poziomie katalogu. Z kolei hierarchiczna przestrzeń nazw przetwarza te zadania, aktualizując pojedynczy wpis (katalog nadrzędny).
Ta dramatyczna optymalizacja jest szczególnie znacząca w przypadku wielu struktur analizy danych big data. Narzędzia takie jak Hive, Spark itp. często zapisują dane wyjściowe w lokalizacjach tymczasowych, a następnie zmień nazwę lokalizacji na zakończenie zadania. Bez hierarchicznej przestrzeni nazw ta zmiana nazwy może często trwać dłużej niż sam proces analizy. Mniejsze opóźnienie zadania jest równe niższemu całkowitemu kosztowi posiadania (TCO) dla obciążeń analitycznych.
Znany styl interfejsu: systemy plików są dobrze zrozumiałe dla deweloperów i użytkowników. Nie ma potrzeby uczenia się nowego paradygmatu magazynu podczas przechodzenia do chmury, ponieważ interfejs systemu plików udostępniany przez usługę Data Lake Storage jest tym samym paradygmatem używanym przez komputery, duże i małe.
Jednym z powodów, dla których magazyny obiektów nie obsługują historycznie hierarchicznej przestrzeni nazw, jest to, że hierarchiczna przestrzeń nazw ogranicza skalę. Jednak hierarchiczna przestrzeń nazw usługi Data Lake Storage jest skalowana liniowo i nie obniża wydajności ani pojemności danych.
Podejmowanie decyzji, czy włączyć hierarchiczną przestrzeń nazw
Po włączeniu hierarchicznej przestrzeni nazw na koncie nie można przywrócić jej z powrotem do płaskiej przestrzeni nazw. Dlatego należy rozważyć, czy warto włączyć hierarchiczną przestrzeń nazw na podstawie charakteru obciążeń magazynu obiektów. Aby ocenić wpływ włączenia hierarchicznej przestrzeni nazw dla obciążeń, aplikacji, kosztów, integracji usług, narzędzi, funkcji i dokumentacji, zobacz Uaktualnianie usługi Azure Blob Storage za pomocą funkcji usługi Azure Data Lake Storage.
Niektóre obciążenia mogą nie przynieść żadnych korzyści dzięki włączeniu hierarchicznej przestrzeni nazw. Przykłady obejmują kopie zapasowe, magazyn obrazów i inne aplikacje, w których organizacja obiektów jest przechowywana oddzielnie od samych obiektów (na przykład w oddzielnej bazie danych).
Ponadto, chociaż obsługa funkcji usługi Blob Storage i ekosystemu usług platformy Azure nadal rośnie, nadal istnieją pewne funkcje i usługi platformy Azure, które nie są jeszcze obsługiwane na kontach, które mają hierarchiczną przestrzeń nazw. Zobacz Znane problemy.
Ogólnie rzecz biorąc, zalecamy włączenie hierarchicznej przestrzeni nazw dla obciążeń magazynu przeznaczonych dla systemów plików, które manipulują katalogami. Obejmuje to wszystkie obciążenia, które są przeznaczone głównie do przetwarzania analiz. Zestawy danych, które wymagają wysokiego stopnia organizacji, będą również korzystne dzięki włączeniu hierarchicznej przestrzeni nazw.
Przyczyny włączenia hierarchicznej przestrzeni nazw są określane przez analizę TCO. Ogólnie rzecz biorąc, ulepszenia opóźnienia obciążeń ze względu na przyspieszenie magazynu będą wymagały zasobów obliczeniowych przez krótszy czas. Opóźnienie wielu obciążeń może zostać ulepszone z powodu manipulowania katalogami niepodzielnymi, które jest włączone przez hierarchiczną przestrzeń nazw. W wielu obciążeniach zasób obliczeniowy reprezentuje > 85% całkowitego kosztu, a więc nawet niewielkie zmniejszenie opóźnienia obciążenia oznacza znaczną ilość oszczędności całkowitego kosztu posiadania. Nawet w przypadkach, gdy włączenie hierarchicznej przestrzeni nazw zwiększa koszty magazynowania, koszt TCO jest nadal obniżany z powodu zmniejszonych kosztów obliczeniowych.
Aby przeanalizować różnice w cenach magazynu danych, cenach transakcji i cenach rezerwacji pojemności magazynu między kontami, które mają płaską hierarchiczną przestrzeń nazw a hierarchiczną przestrzenią nazw, zobacz Cennik usługi Azure Data Lake Storage.
Następne kroki
- Włącz hierarchiczną przestrzeń nazw podczas tworzenia nowego konta magazynu. Zobacz Tworzenie konta magazynu do użycia z usługą Azure Data Lake Storage.
- Włącz hierarchiczną przestrzeń nazw na istniejącym koncie magazynu. Zobacz Uaktualnianie usługi Azure Blob Storage przy użyciu funkcji usługi Azure Data Lake Storage.