Badanie usługi Azure Data Lake Gen2

Ukończone

Usługa Azure Data Lake Storage Gen2 to zestaw funkcji przeznaczonych do analizy danych big data opartych na usłudze Azure Blob Storage.

Usługa Data Lake Storage Gen2 konwersuje możliwości usługi Azure Data Lake Storage Gen1 z usługą Azure Blob Storage. Na przykład usługa Data Lake Storage Gen2 zapewnia semantyka systemu plików, zabezpieczenia na poziomie plików i skalowanie. Ponieważ te możliwości są oparte na usłudze Blob Storage, można również uzyskać niski koszt magazynu warstwowego z wysoką dostępnością/odzyskiwaniem po awarii.

Usługa Data Lake Storage Gen2 sprawia, że usługa Azure Storage stanowi podstawę do tworzenia magazynów danych przedsiębiorstwa na platformie Azure. Zaprojektowana od początku do obsługi wielu petabajtów informacji przy jednoczesnym utrzymaniu setek gigabitów przepływności, usługa Data Lake Storage Gen2 umożliwia łatwe zarządzanie ogromnymi ilościami danych.

Co to jest usługa Data Lake?

Usługa Data Lake to pojedyncze, scentralizowane repozytorium, w którym można przechowywać wszystkie dane, zarówno ustrukturyzowane, jak i bez struktury. Usługa Data Lake umożliwia organizacji szybkie i łatwiejsze przechowywanie, uzyskiwanie dostępu i analizowanie szerokiej gamy danych w jednej lokalizacji. W przypadku magazynu data lake nie musisz dostosowywać danych do istniejącej struktury. Zamiast tego dane można przechowywać w formacie nieprzetworzonym lub natywnym, zwykle jako pliki lub jako obiekty binarne (obiekty blob).

Usługa Azure Data Lake Storage to oparte na chmurze rozwiązanie typu data lake przedsiębiorstwa. Jest ona zaprojektowana do przechowywania ogromnych ilości danych w dowolnym formacie i ułatwiania obciążeń analitycznych danych big data. Służy do przechwytywania danych dowolnego typu i szybkości pozyskiwania w jednej lokalizacji w celu łatwego dostępu i analizy przy użyciu różnych struktur.

Usługa Data Lake Storage 2. generacji

Usługa Azure Data Lake Storage Gen2 odnosi się do bieżącej implementacji rozwiązania Azure Data Lake Storage. Poprzednia implementacja usługi Azure Data Lake Storage Gen1 została wycofana 29 lutego 2024 r.

W przeciwieństwie do usługi Data Lake Storage Gen1 usługa Data Lake Storage Gen2 nie jest dedykowaną usługą ani typem konta. Zamiast tego jest implementowany jako zestaw funkcji używanych z usługą Blob Storage konta usługi Azure Storage. Te możliwości można odblokować, włączając ustawienie hierarchicznej przestrzeni nazw.

Usługa Data Lake Storage Gen2 oferuje następujące możliwości.

  • Dostęp zgodny z usługą Hadoop
  • Hierarchiczna struktura katalogów
  • Zoptymalizowany koszt i wydajność
  • Bardziej precyzyjny model zabezpieczeń
  • Ogromna skalowalność

Dostęp zgodny z usługą Hadoop

Usługa Azure Data Lake Storage Gen2 jest przeznaczona głównie do pracy z usługą Hadoop i wszystkimi strukturami korzystającymi z rozproszonego systemu plików Apache Hadoop (HDFS) jako warstwy dostępu do danych. Dystrybucje usługi Hadoop obejmują sterownik systemu plików obiektów blob platformy Azure (ABFS), który umożliwia wielu aplikacjom i strukturom bezpośredni dostęp do danych usługi Azure Blob Storage. Sterownik ABFS jest zoptymalizowany specjalnie pod kątem analizy danych big data. Odpowiednie interfejsy API REST są udostępniane za pośrednictwem punktu końcowego dfs.core.windows.net.

Struktury analizy danych korzystające z systemu plików HDFS jako warstwy dostępu do danych mogą uzyskiwać bezpośredni dostęp do danych usługi Azure Data Lake Storage Gen2 za pośrednictwem systemu ABFS. Aparat analizy platformy Apache Spark i aparat zapytań Presto SQL to przykłady takich struktur.

Hierarchiczna struktura katalogów

Hierarchiczna przestrzeń nazw jest kluczową funkcją, która umożliwia usłudze Azure Data Lake Storage Gen2 zapewnienie dostępu do danych o wysokiej wydajności w skali i cenie magazynu obiektów. Ta funkcja umożliwia organizowanie wszystkich obiektów i plików w ramach konta magazynu w hierarchię katalogów i zagnieżdżonych podkatalogów. Innymi słowy, dane usługi Azure Data Lake Storage Gen2 są zorganizowane w taki sam sposób, jak pliki są zorganizowane na komputerze.

Operacje, takie jak zmiana nazwy lub usunięcie katalogu, stają się pojedynczymi operacjami metadanych niepodzielnych w katalogu. Nie ma potrzeby wyliczania i przetwarzania wszystkich obiektów, które współużytkują prefiks nazwy katalogu.

Zoptymalizowany koszt i wydajność

Usługa Azure Data Lake Storage Gen2 jest wyceniona na poziomach usługi Azure Blob Storage. Opiera się ona na funkcjach usługi Azure Blob Storage, takich jak automatyczne zarządzanie zasadami cyklu życia i warstwowanie na poziomie obiektu w celu zarządzania kosztami magazynowania danych big data.

Wydajność jest zoptymalizowana, ponieważ nie trzeba kopiować ani przekształcać danych jako wymagań wstępnych do analizy. Hierarchiczna funkcja przestrzeni nazw usługi Azure Data Lake Storage umożliwia wydajny dostęp i nawigację. Ta architektura oznacza, że przetwarzanie danych wymaga mniejszej liczby zasobów obliczeniowych, co zmniejsza szybkość i koszt uzyskiwania dostępu do danych.

Bardziej precyzyjny model zabezpieczeń

Model kontroli dostępu usługi Azure Data Lake Storage Gen2 obsługuje zarówno kontrolę dostępu opartą na rolach platformy Azure (Azure RBAC) jak i przenośny interfejs systemu operacyjnego dla list kontroli dostępu (POSIX) system UNIX (ACL). Istnieje również kilka dodatkowych ustawień zabezpieczeń specyficznych dla usługi Azure Data Lake Storage Gen2. Uprawnienia można ustawić na poziomie katalogu lub na poziomie pliku. Wszystkie przechowywane dane są szyfrowane w spoczynku przy użyciu kluczy szyfrowania zarządzanych przez firmę Microsoft lub zarządzanych przez klienta.

Ogromna skalowalność

Usługa Azure Data Lake Storage Gen2 oferuje ogromny magazyn i akceptuje wiele typów danych na potrzeby analizy. Nie nakłada żadnych ograniczeń dotyczących rozmiarów kont, rozmiarów plików ani ilości danych, które mogą być przechowywane w usłudze Data Lake. Poszczególne pliki mogą mieć rozmiary z zakresu od kilku kilobajtów (KB) do kilku petabajtów (PB). Przetwarzanie jest wykonywane przy niemal stałym opóźnieniu poszczególnych żądań, które są mierzone na poziomie usługi, konta i pliku.

Ten projekt oznacza, że usługa Azure Data Lake Storage Gen2 może łatwo i szybko skalować w górę, aby sprostać najbardziej wymagającym obciążeniom. Może również równie łatwo skalować w dół, gdy zapotrzebowanie spadnie.

Oparta na usłudze Azure Blob Storage

Pozyskane dane są utrwalane jako obiekty blob na koncie magazynu. Usługa, która zarządza obiektami blob, jest usługą Azure Blob Storage. Usługa Data Lake Storage Gen2 opisuje możliwości lub "ulepszenia" tej usługi, które zaspokajają wymagania obciążeń analitycznych danych big data.

Ponieważ te funkcje są oparte na usłudze Blob Storage, funkcje takie jak rejestrowanie diagnostyczne, warstwy dostępu i zasady zarządzania cyklem życia są dostępne dla Twojego konta.