Wprowadzenie do usługi Azure Data Lake Storage

Artykuł
09/02/2024

Usługa Azure Data Lake Storage to zestaw funkcji przeznaczonych do analizy danych big data opartych na usłudze Azure Blob Storage.

Usługa Azure Data Lake Storage konwersuje możliwości usługi Azure Data Lake Storage Gen1 z usługą Azure Blob Storage. Na przykład usługa Data Lake Storage zapewnia semantyka systemu plików, zabezpieczenia na poziomie plików i skalowanie. Ponieważ te możliwości są oparte na usłudze Blob Storage, można również uzyskać niski koszt magazynu warstwowego z wysoką dostępnością/odzyskiwaniem po awarii.

Usługa Data Lake Storage sprawia, że usługa Azure Storage stanowi podstawę do tworzenia magazynów danych przedsiębiorstwa na platformie Azure. Zaprojektowano od początku do obsługi wielu petabajtów informacji przy jednoczesnym utrzymaniu setek gigabitów przepływności, usługa Data Lake Storage umożliwia łatwe zarządzanie ogromnymi ilościami danych.

Co to jest usługa Data Lake?

Usługa Data Lake to pojedyncze, scentralizowane repozytorium, w którym można przechowywać wszystkie dane, zarówno ustrukturyzowane, jak i bez struktury. Usługa Data Lake umożliwia organizacji szybkie i łatwiejsze przechowywanie, uzyskiwanie dostępu i analizowanie szerokiej gamy danych w jednej lokalizacji. W przypadku magazynu data lake nie musisz dostosowywać danych do istniejącej struktury. Zamiast tego dane można przechowywać w formacie nieprzetworzonym lub natywnym, zwykle jako pliki lub jako obiekty binarne (obiekty blob).

Usługa Azure Data Lake Storage to oparte na chmurze rozwiązanie typu data lake przedsiębiorstwa. Jest ona zaprojektowana do przechowywania ogromnych ilości danych w dowolnym formacie i ułatwiania obciążeń analitycznych danych big data. Służy do przechwytywania danych dowolnego typu i szybkości pozyskiwania w jednej lokalizacji w celu łatwego dostępu i analizy przy użyciu różnych struktur.

Data Lake Storage

Usługa Azure Data Lake Storage nie jest dedykowaną usługą ani typem konta. Zamiast tego jest implementowany jako zestaw funkcji używanych z usługą Blob Storage konta usługi Azure Storage. Te możliwości można odblokować, włączając ustawienie hierarchicznej przestrzeni nazw.

Usługa Data Lake Storage oferuje następujące możliwości.

√ Dostęp zgodny z platformą Hadoop

√ Hierarchiczna struktura katalogów

√ Zoptymalizowany koszt i wydajność

√ Model zabezpieczeń bardziej szczegółowego

√ Ogromna skalowalność

Dostęp zgodny z usługą Hadoop

Usługa Azure Data Lake Storage jest przeznaczona głównie do pracy z usługą Hadoop i wszystkimi strukturami korzystającymi z rozproszonego systemu plików Apache Hadoop (HDFS) jako warstwy dostępu do danych. Dystrybucje usługi Hadoop obejmują sterownik systemu plików obiektów blob platformy Azure (ABFS ), który umożliwia wielu aplikacjom i strukturom bezpośredni dostęp do danych usługi Azure Blob Storage. Sterownik ABFS jest zoptymalizowany specjalnie pod kątem analizy danych big data. Odpowiednie interfejsy API REST są udostępniane za pośrednictwem punktu końcowego dfs.core.windows.net.

Struktury analizy danych korzystające z systemu plików HDFS jako warstwy dostępu do danych mogą uzyskiwać bezpośredni dostęp do danych usługi Azure Data Lake Storage za pośrednictwem systemu ABFS. Aparat analizy platformy Apache Spark i aparat zapytań Presto SQL to przykłady takich struktur.

Aby uzyskać więcej informacji na temat obsługiwanych usług i platform, zobacz Usługi platformy Azure obsługujące usługę Azure Data Lake Storage i platformy typu open source obsługujące usługę Azure Data Lake Storage.

Hierarchiczna struktura katalogów

Hierarchiczna przestrzeń nazw to kluczowa funkcja, która umożliwia usłudze Azure Data Lake Storage zapewnienie wysokiej wydajności dostępu do danych w skali i cenie magazynu obiektów. Ta funkcja umożliwia organizowanie wszystkich obiektów i plików w ramach konta magazynu w hierarchię katalogów i zagnieżdżonych podkatalogów. Innymi słowy, dane usługi Azure Data Lake Storage są zorganizowane w taki sam sposób, jak pliki są zorganizowane na komputerze.

Operacje, takie jak zmiana nazwy lub usunięcie katalogu, stają się pojedynczymi operacjami metadanych niepodzielnych w katalogu. Nie ma potrzeby wyliczania i przetwarzania wszystkich obiektów, które współużytkują prefiks nazwy katalogu.

Zoptymalizowany koszt i wydajność

Usługa Azure Data Lake Storage jest wyceniona na poziomach usługi Azure Blob Storage. Opiera się ona na funkcjach usługi Azure Blob Storage, takich jak automatyczne zarządzanie zasadami cyklu życia i warstwowanie na poziomie obiektu w celu zarządzania kosztami magazynowania danych big data.

Wydajność jest zoptymalizowana, ponieważ nie trzeba kopiować ani przekształcać danych jako wymagań wstępnych do analizy. Hierarchiczna funkcja przestrzeni nazw usługi Azure Data Lake Storage umożliwia wydajny dostęp i nawigację. Ta architektura oznacza, że przetwarzanie danych wymaga mniejszej liczby zasobów obliczeniowych, co zmniejsza szybkość i koszt uzyskiwania dostępu do danych.

Bardziej precyzyjny model zabezpieczeń

Model kontroli dostępu usługi Azure Data Lake Storage obsługuje listy kontroli dostępu opartej na rolach (Azure RBAC) i przenośnego interfejsu systemu operacyjnego dla systemu UNIX (POSIX). Istnieje również kilka dodatkowych ustawień zabezpieczeń specyficznych dla usługi Azure Data Lake Storage. Uprawnienia można ustawić na poziomie katalogu lub na poziomie pliku. Wszystkie przechowywane dane są szyfrowane w spoczynku przy użyciu kluczy szyfrowania zarządzanych przez firmę Microsoft lub zarządzanych przez klienta.

Ogromna skalowalność

Usługa Azure Data Lake Storage oferuje ogromny magazyn i akceptuje wiele typów danych na potrzeby analizy. Nie nakłada żadnych ograniczeń dotyczących rozmiarów kont, rozmiarów plików ani ilości danych, które mogą być przechowywane w usłudze Data Lake. Poszczególne pliki mogą mieć rozmiary z zakresu od kilku kilobajtów (KB) do kilku petabajtów (PB). Przetwarzanie jest wykonywane przy niemal stałym opóźnieniu poszczególnych żądań, które są mierzone na poziomie usługi, konta i pliku.

Ten projekt oznacza, że usługa Azure Data Lake Storage może łatwo i szybko skalować w górę, aby sprostać najbardziej wymagającym obciążeniom. Może również równie łatwo skalować w dół, gdy zapotrzebowanie spadnie.

Oparta na usłudze Azure Blob Storage

Pozyskane dane są utrwalane jako obiekty blob na koncie magazynu. Usługa, która zarządza obiektami blob, jest usługą Azure Blob Storage. Usługa Data Lake Storage opisuje możliwości lub "ulepszenia" tej usługi, które zaspokajają wymagania obciążeń analitycznych danych big data.

Ponieważ te funkcje są oparte na usłudze Blob Storage, funkcje takie jak rejestrowanie diagnostyczne, warstwy dostępu i zasady zarządzania cyklem życia są dostępne dla Twojego konta. Większość funkcji usługi Blob Storage jest w pełni obsługiwana, ale niektóre funkcje mogą być obsługiwane tylko na poziomie wersji zapoznawczej i istnieje kilka z nich, które nie są jeszcze obsługiwane. Aby uzyskać pełną listę instrukcji pomocy technicznej, zobacz Obsługa funkcji usługi Blob Storage na kontach usługi Azure Storage. Stan każdej wymienionej funkcji zmieni się wraz z upływem czasu, ponieważ wsparcie będzie nadal rozszerzane.

Dokumentacja i terminologia

Spis treści usługi Azure Blob Storage zawiera dwie sekcje zawartości. Sekcja zawartości usługi Data Lake Storage zawiera najlepsze rozwiązania i wskazówki dotyczące korzystania z funkcji usługi Data Lake Storage. Sekcja Usługi Blob Storage zawartości zawiera wskazówki dotyczące funkcji kont, które nie są specyficzne dla usługi Data Lake Storage.

Podczas przechodzenia między sekcjami możesz zauważyć niewielkie różnice w terminologii. Na przykład zawartość polecana w dokumentacji usługi Blob Storage będzie używać terminu blob zamiast pliku. Technicznie pliki pozyskiwane na konto magazynu stają się obiektami blob na twoim koncie. W związku z tym termin jest poprawny. Jednak termin blob może powodować nieporozumienie, jeśli używasz go do pliku terminowego. Zobaczysz również termin kontener używany do odwoływania się do systemu plików. Należy wziąć pod uwagę te terminy jako synonimy.

Udostępnij za pośrednictwem