Wprowadzenie do usługi Azure Data Lake Storage Gen2

Azure Data Lake Storage Gen2 to zestaw funkcji przeznaczonych do analizy danych big data, opartych na Azure Blob Storage.

Data Lake Storage Gen2 zbieżne możliwości Azure Data Lake Storage Gen1 z Azure Blob Storage. Na przykład Data Lake Storage Gen2 zapewnia semantyka systemu plików, zabezpieczenia na poziomie plików i skalowanie. Ponieważ te możliwości są oparte na usłudze Blob Storage, można również uzyskać niski koszt, warstwowy magazyn z wysoką dostępnością/możliwościami odzyskiwania po awarii.

Data Lake Storage Gen2 sprawia, że usługa Azure Storage stanowi podstawę do tworzenia magazynów danych przedsiębiorstwa na platformie Azure. Zaprojektowana od początku do obsługi wielu petabajtów informacji przy jednoczesnym utrzymaniu setek gigabitów przepływności, Data Lake Storage Gen2 umożliwia łatwe zarządzanie ogromnymi ilościami danych.

Co to jest usługa Data Lake?

Usługa Data Lake to pojedyncze, scentralizowane repozytorium, w którym można przechowywać wszystkie dane, zarówno ustrukturyzowane, jak i nieustrukturyzowane. Usługa Data Lake umożliwia organizacji szybkie i łatwiejsze przechowywanie, uzyskiwanie dostępu i analizowanie szerokiej gamy danych w jednej lokalizacji. W przypadku usługi Data Lake nie musisz dostosowywać danych do istniejącej struktury. Zamiast tego dane można przechowywać w formacie nieprzetworzonym lub natywnym, zwykle jako pliki lub jako obiekty binarne (obiekty blob).

Azure Data Lake Storage to oparte na chmurze rozwiązanie typu data lake dla przedsiębiorstw. Jest ona zaprojektowana do przechowywania ogromnych ilości danych w dowolnym formacie i ułatwiania obciążeń analitycznych danych big data. Służy do przechwytywania danych dowolnego typu i szybkości pozyskiwania w jednej lokalizacji w celu łatwego dostępu i analizy przy użyciu różnych struktur.

Data Lake Storage Gen2

Azure Data Lake Storage Gen2 odnosi się do bieżącej implementacji rozwiązania Data Lake Storage platformy Azure. Poprzednia implementacja Azure Data Lake Storage Gen1 zostanie wycofana 29 lutego 2024 r.

W przeciwieństwie do Data Lake Storage Gen1, Data Lake Storage Gen2 nie jest dedykowanym typem usługi ani konta. Zamiast tego jest on implementowany jako zestaw funkcji używanych z usługą Blob Storage konta usługi Azure Storage. Te możliwości można odblokować, włączając ustawienie hierarchicznej przestrzeni nazw.

Data Lake Storage Gen2 obejmuje następujące możliwości.

√ Dostęp zgodny z usługą Hadoop

√ Hierarchiczna struktura katalogów

√ Zoptymalizowany koszt i wydajność

√ Model zabezpieczeń szczegółowszego ziarna

√ Ogromna skalowalność

Dostęp zgodny z usługą Hadoop

Azure Data Lake Storage Gen2 jest przeznaczona głównie do pracy z usługą Hadoop i wszystkimi platformami korzystającymi z rozproszonego systemu plików Apache Hadoop (HDFS) jako warstwy dostępu do danych. Dystrybucje hadoop obejmują sterownik systemu plików obiektów blob platformy Azure (ABFS), który umożliwia wielu aplikacjom i strukturom bezpośredni dostęp do danych Azure Blob Storage. Sterownik ABFS jest zoptymalizowany specjalnie pod kątem analizy danych big data. Odpowiednie interfejsy API REST są wyświetlane za pośrednictwem punktu końcowego dfs.core.windows.net.

Struktury analizy danych, które używają systemu plików HDFS jako warstwy dostępu do danych, mogą bezpośrednio uzyskiwać dostęp do danych Azure Data Lake Storage Gen2 za pośrednictwem usługi ABFS. Aparat analityczny platformy Apache Spark i aparat zapytań Presto SQL to przykłady takich struktur.

Aby uzyskać więcej informacji na temat obsługiwanych usług i platform, zobacz Usługi platformy Azure, które obsługują platformy Azure Data Lake Storage Gen2 i open source, które obsługują Azure Data Lake Storage Gen2.

Hierarchiczna struktura katalogów

Hierarchiczna przestrzeń nazw to kluczowa funkcja, która umożliwia Azure Data Lake Storage Gen2 zapewnienie wysokiej wydajności dostępu do danych w skali i cenie magazynu obiektów. Tej funkcji można używać do organizowania wszystkich obiektów i plików na koncie magazynu w hierarchii katalogów i zagnieżdżonych podkatalogów. Innymi słowy, dane Azure Data Lake Storage Gen2 są zorganizowane w taki sam sposób, jak pliki są zorganizowane na komputerze.

Operacje, takie jak zmienianie nazw lub usuwanie katalogu, stają się operacjami pojedynczej niepodzielnej metadanych w katalogu. Nie ma potrzeby wyliczania i przetwarzania wszystkich obiektów, które współużytkują prefiks nazwy katalogu.

Zoptymalizowany koszt i wydajność

Azure Data Lake Storage Gen2 jest wyceniany na Azure Blob Storage poziomach. Opiera się ona na Azure Blob Storage możliwościach, takich jak automatyczne zarządzanie zasadami cyklu życia i warstwowanie na poziomie obiektu w celu zarządzania kosztami magazynowania danych big data.

Wydajność jest zoptymalizowana, ponieważ nie trzeba kopiować ani przekształcać danych jako wymagań wstępnych do analizy. Hierarchiczna funkcja przestrzeni nazw Azure Data Lake Storage umożliwia wydajny dostęp i nawigację. Ta architektura oznacza, że przetwarzanie danych wymaga mniejszej liczby zasobów obliczeniowych, co zmniejsza szybkość i koszt uzyskiwania dostępu do danych.

Bardziej precyzyjny model zabezpieczeń ziarna

Model kontroli dostępu Azure Data Lake Storage Gen2 obsługuje zarówno listy kontroli dostępu opartej na rolach (RBAC) platformy Azure i przenośnego interfejsu systemu operacyjnego dla systemu UNIX (POSIX). Istnieje również kilka dodatkowych ustawień zabezpieczeń specyficznych dla Azure Data Lake Storage Gen2. Uprawnienia można ustawić na poziomie katalogu lub na poziomie pliku. Wszystkie przechowywane dane są szyfrowane w spoczynku przy użyciu kluczy szyfrowania zarządzanych przez firmę Microsoft lub zarządzanych przez klienta.

Ogromna skalowalność

Azure Data Lake Storage Gen2 oferuje ogromny magazyn i akceptuje wiele typów danych na potrzeby analizy. Nie nakłada żadnych ograniczeń dotyczących rozmiarów kont, rozmiarów plików ani ilości danych, które mogą być przechowywane w usłudze Data Lake. Poszczególne pliki mogą mieć rozmiary z zakresu od kilku kilobajtów (KBs) do kilku petabajtów (PB). Przetwarzanie jest wykonywane z opóźnieniem niemal stałej na żądanie, które są mierzone na poziomie usługi, konta i pliku.

Ten projekt oznacza, że Azure Data Lake Storage Gen2 można łatwo i szybko skalować w górę, aby sprostać najbardziej wymagającym obciążeniom. Może również równie łatwo skalować w dół, gdy zapotrzebowanie spadnie.

Oparte na Azure Blob Storage

Pozyskane dane są utrwalane jako obiekty blob na koncie magazynu. Usługa zarządzana obiektami blob jest usługą Azure Blob Storage. Data Lake Storage Gen2 opisuje możliwości lub "ulepszenia" tej usługi, które zaspokajają wymagania obciążeń analitycznych danych big data.

Ponieważ te funkcje są oparte na usłudze Blob Storage, dostępne są funkcje, takie jak rejestrowanie diagnostyczne, warstwy dostępu i zasady zarządzania cyklem życia. Większość funkcji usługi Blob Storage jest w pełni obsługiwana, ale niektóre funkcje mogą być obsługiwane tylko na poziomie wersji zapoznawczej i istnieje kilka z nich, które nie są jeszcze obsługiwane. Aby uzyskać pełną listę instrukcji pomocy technicznej, zobacz Obsługa funkcji usługi Blob Storage na kontach usługi Azure Storage. Stan każdej wymienionej funkcji zmieni się wraz z upływem czasu, ponieważ obsługa będzie nadal rozszerzana.

Dokumentacja i terminologia

Spis treści Azure Blob Storage zawiera dwie sekcje zawartości. Sekcja Data Lake Storage Gen2 zawartości zawiera najlepsze rozwiązania i wskazówki dotyczące korzystania z funkcji Data Lake Storage Gen2. Sekcja zawartość usługi Blob Storage zawiera wskazówki dotyczące funkcji kont, które nie są specyficzne dla Data Lake Storage Gen2.

W miarę przechodzenia między sekcjami możesz zauważyć pewne niewielkie różnice w terminologii. Na przykład zawartość polecana w dokumentacji usługi Blob Storage będzie używać terminu blob zamiast pliku. Technicznie pliki pozyskane do konta magazynu stają się obiektami blob na twoim koncie. W związku z tym termin jest poprawny. Jednak termin blob może spowodować zamieszanie, jeśli do pliku terminów jest używany. Zobaczysz również termin kontener używany do odwoływania się do systemu plików. Należy wziąć pod uwagę te terminy jako synonimy.

Zobacz też