Wybieranie technologii magazynu danych big data na platformie Azure

2025-04-17

W tym artykule porównano opcje przechowywania danych dla rozwiązań big data — w szczególności na potrzeby masowego pozyskiwania danych i przetwarzania wsadowego, w przeciwieństwie do analitycznych magazynów danych lub pozyskiwania danych przesyłanych strumieniowo w czasie rzeczywistym.

Jakie są opcje wyboru magazynu danych na platformie Azure?

Istnieje kilka opcji pozyskiwania danych na platformie Azure, w zależności od potrzeb.

Ujednolicony magazyn danych logicznych:

OneLake w usłudze Microsoft Fabric

Magazyn plików:

Bazy danych NoSQL:

Analityczne bazy danych:

Azure Data Explorer

OneLake w sieci szkieletowej

OneLake w ramach Fabric to ujednolicone i logiczne jezioro danych dostosowane do całej organizacji. Pełni ona rolę centralnego centrum dla wszystkich danych analitycznych i jest dołączana do każdej dzierżawy usługi Microsoft Fabric. Usługa OneLake w platformie Fabric jest zbudowana na bazie Data Lake Storage Gen2.

OneLake w ramach platformy Fabric.

Obsługuje typy plików ze strukturą i bez struktury.
Przechowuje wszystkie dane tabelaryczne w formacie Delta Parquet.
Udostępnia pojedyncze jezioro danych w granicach dzierżawy, które są zarządzane zgodnie z domyślnymi zasadami.
Obsługuje tworzenie obszarów roboczych w ramach dzierżawy, dzięki czemu organizacja może dystrybuować własność i zasady dostępu.
Obsługuje tworzenie różnych elementów danych, takich jak magazyny typu lakehouse i magazyny, z których można uzyskiwać dostęp do danych.

Usługa OneLake w Fabric służy jako wspólna lokalizacja magazynu do pozyskiwania, przekształcania, informacji w czasie rzeczywistym oraz wizualizacji analizy biznesowej. Centralizuje różne usługi Sieci szkieletowej i przechowuje elementy danych używane przez wszystkie obciążenia w sieci szkieletowej. Aby wybrać odpowiedni magazyn danych dla obciążeń Fabric, zobacz Przewodnik po decyzjach dotyczących Fabric: wybieranie magazynu danych.

Obiekty blob usługi Azure Storage

Azure Storage to zarządzana usługa magazynu, która jest wysoce dostępna, bezpieczna, trwała, skalowalna i nadmiarowa. Firma Microsoft zajmuje się konserwacją oraz rozwiązywaniem krytycznych problemów. Usługa Azure Storage jest najbardziej wszechobecnym rozwiązaniem magazynu zapewnianym przez platformę Azure ze względu na liczbę usług i narzędzi, które mogą być z nią używane.

Istnieją różne usługi Azure Storage, których można użyć do przechowywania danych. Najbardziej elastyczną opcją przechowywania obiektów blob z wielu źródeł danych jest usługa Blob Storage. Obiekty blob są zasadniczo plikami. Przechowują obrazy, dokumenty, pliki HTML, wirtualne dyski twarde (VHD), dane big data, takie jak dzienniki, kopie zapasowe bazy danych — prawie wszystko. Obiekty blob są przechowywane w kontenerach, które są podobne do folderów. Kontener zapewnia grupowanie zbioru blobów. Konto magazynowe może zawierać nieograniczoną liczbę kontenerów, a kontener może przechowywać nieograniczoną liczbę obiektów blob.

Usługa Azure Storage jest dobrym wyborem dla rozwiązań do analizy i danych big data ze względu na jego elastyczność, wysoką dostępność i niski koszt. Zapewnia warstwy magazynowania Gorąca, Chłodna i Archiwum dla różnych przypadków użycia. Aby uzyskać więcej informacji, zobacz Azure Blob Storage: Warstwy magazynowania Gorąca, Chłodna i Archiwum.

Dostęp do usługi Azure Blob Storage można uzyskać z usługi Hadoop (dostępnej za pośrednictwem usługi HDInsight). Usługa HDInsight może używać kontenera obiektów blob w usłudze Azure Storage jako domyślnego systemu plików dla klastra. Za pośrednictwem interfejsu rozproszonego systemu plików Hadoop (HDFS) udostępnianego przez sterownik WASB pełny zestaw składników w usłudze HDInsight może działać bezpośrednio na danych ze strukturą lub bez struktury przechowywanych jako obiekty blob. Dostęp do usługi Azure Blob Storage można również uzyskać za pośrednictwem usługi Azure Synapse Analytics przy użyciu jej funkcji PolyBase.

Inne funkcje, które sprawiają, że usługa Azure Storage jest dobrym wyborem, to:

Wiele strategii współbieżności.
Opcje odzyskiwania po awarii i wysokiej dostępności.
Szyfrowanie danych w stanie spoczynku.
Kontrola dostępu oparta na rolach (RBAC) na platformie Azure w celu kontrolowania dostępu przy użyciu użytkowników i grup firmy Microsoft Entra.

Usługa Data Lake Storage 2. generacji

Usługa Data Lake Storage Gen2 to pojedyncze, scentralizowane repozytorium, w którym można przechowywać wszystkie dane, zarówno ustrukturyzowane, jak i nieustrukturyzowane. Usługa Data Lake umożliwia organizacji szybkie i łatwiejsze przechowywanie, uzyskiwanie dostępu i analizowanie szerokiej gamy danych w jednej lokalizacji. W przypadku zbiornika danych nie musisz dopasowywać danych do istniejącej struktury. Zamiast tego dane można przechowywać w formacie nieprzetworzonym lub natywnym, zwykle jako pliki lub jako obiekty binarne (obiekty blob).

Usługa Data Lake Storage Gen2 konwersuje możliwości usługi Azure Data Lake Storage Gen1 z usługą Azure Blob Storage. Na przykład usługa Data Lake Storage Gen2 zapewnia semantyka systemu plików, zabezpieczenia na poziomie plików i skalowanie. Ponieważ te możliwości są oparte na usłudze Blob Storage, można również uzyskać niski koszt magazynu warstwowego z wysoką dostępnością/odzyskiwaniem po awarii.

Usługa Data Lake Storage Gen2 sprawia, że usługa Azure Storage stanowi podstawę do tworzenia magazynów danych przedsiębiorstwa na platformie Azure. Zaprojektowana od początku do obsługi wielu petabajtów informacji przy jednoczesnym utrzymaniu setek gigabitów przepływności, usługa Data Lake Storage Gen2 umożliwia łatwe zarządzanie ogromnymi ilościami danych.

Azure Cosmos DB (Usługa bazodanowa firmy Microsoft)

Azure Cosmos DB to globalnie rozproszona wielomodelowa baza danych firmy Microsoft. Usługa Azure Cosmos DB gwarantuje opóźnienia liczone w jednocyfrowych milisekundach w 99. centylu w dowolnym miejscu na świecie, zapewnia wiele dobrze zdefiniowanych modeli spójności do precyzyjnego dostosowania wydajności oraz gwarancję wysokiej dostępności dzięki funkcjom wielodostępowym.

Usługa Azure Cosmos DB jest niezależna od schematu. Automatycznie indeksuje wszystkie dane bez konieczności zajmowania się zarządzaniem schematem i indeksem. Jest to również wielomodelowy system, który natywnie obsługuje modele danych dokumentu, klucz-wartość, grafowe i rodzinę danych kolumnowych.

Funkcje usługi Azure Cosmos DB:

Geo-replication (Replikacja geograficzna)
Elastyczne skalowanie przepływności i magazynu na całym świecie
Pięć dokładnie zdefiniowanych poziomów spójności

Usługa HBase w usłudze HDInsight

Apache HBase to baza danych NoSQL typu open source oparta na platformie Hadoop i modelowana po google BigTable. Baza HBase zapewnia dostęp losowy i silną spójność dla dużych ilości danych bez struktury i częściowo ustrukturyzowanych w bez schematowej bazie danych zorganizowanej według rodzin kolumn.

Dane są przechowywane w wierszach tabeli, a dane w obrębie wiersza są zgrupowane według rodziny kolumn. Baza HBase jest bez schematu w tym sensie, że ani kolumny, ani typ przechowywanych w nich danych nie muszą być zdefiniowane przed ich użyciem. Kod typu open source zapewnia skalowanie liniowe, umożliwiając obsługę petabajtów danych na tysiącach węzłów. Baza może wykorzystywać nadmiarowość danych, przetwarzanie wsadowe i inne funkcje, które są dostarczane przez aplikacje rozproszone w ekosystemie Hadoop.

Implementacja usługi HDInsight używa architektury HBase skalowanej w poziomie w celu zapewnienia automatycznego fragmentowania tabel, silnej spójności operacji odczytu i zapisu oraz automatycznego przełączenia awaryjnego. Wydajność jest zwiększona dzięki buforowaniu w pamięci operacji odczytu i przesyłaniu strumieniowemu o wysokiej przepustowości obejmującemu operacje zapisu. W większości przypadków chcesz utworzyć klaster HBase wewnątrz sieci wirtualnej, aby inne klastry i aplikacje usługi HDInsight mogły uzyskiwać bezpośredni dostęp do tabel.

Azure Data Explorer (Eksplorator Danych Azure)

Azure Data Explorer to szybka i wysoce skalowalna usługa eksploracji danych na potrzeby danych dzienników i danych telemetrycznych. Ułatwia ona obsługę wielu strumieni danych emitowanych przez nowoczesne oprogramowanie, dzięki czemu można zbierać, przechowywać i analizować dane. Usługa Azure Data Explorer to idealne rozwiązanie do analizowania dużych ilości zróżnicowanych danych z dowolnego źródła danych, takiego jak witryny internetowe, aplikacje, urządzenia IoT i inne. Te dane są używane na potrzeby diagnostyki, monitorowania, raportowania, uczenia maszynowego i dodatkowych możliwości analizy. Usługa Azure Data Explorer ułatwia pozyskiwanie tych danych i umożliwia wykonywanie złożonych nieplanowanych zapytań dotyczących danych w sekundach.

Narzędzie Azure Data Explorer można liniowo skalować poziomo, aby zwiększyć przepustowość pozyskiwania danych i przetwarzania zapytań. Klaster usługi Azure Data Explorer można wdrożyć w sieci wirtualnej w celu włączenia sieci prywatnych.

Kluczowe kryteria wyboru

Aby zawęzić opcje, zacznij od udzielenia odpowiedzi na następujące pytania:

Czy potrzebujesz ujednoliconego jeziora danych z obsługą wielu chmur, solidnym zarządzaniem i bezproblemową integracją z narzędziami analitycznymi? Jeśli tak, wybierz OneLake w ramach Fabric, aby uprościć zarządzanie danymi i zwiększoną współpracę.
Czy potrzebujesz zarządzanego, szybkiego, opartego na chmurze magazynu dla dowolnego typu danych tekstowych lub binarnych? Jeśli tak, wybierz jedną z opcji magazynu plików lub analizy.
Czy potrzebujesz magazynu plików, który został zoptymalizowany do obsługi równoległych obciążeń analitycznych oraz wysokiej przepustowości/IOPS? Jeśli tak, wybierz opcję dostosowaną do wydajności obciążeń analitycznych.
Czy musisz przechowywać dane bez struktury lub częściowo ustrukturyzowane w bazie danych bez schematu? Jeśli tak, wybierz jedną z opcji nierelacyjnych lub analitycznych. Porównanie opcji indeksowania i modeli baz danych. W zależności od typu danych, które należy przechowywać, podstawowe modele baz danych mogą być największym czynnikiem.
Czy możesz używać usługi w twoim regionie? Sprawdź dostępność regionalną dla każdej usługi platformy Azure. Aby uzyskać więcej informacji, zobacz Dostępność produktów według regionów.

Macierz możliwości

W poniższych tabelach podsumowano kluczowe różnice w możliwościach.

Funkcje usługi OneLake w Fabric

Zdolność	OneLake w sieci szkieletowej
Ujednolicony data lake	Zapewnia pojedyncze, ujednolicone magazyny danych w całej organizacji, co eliminuje silosy danych.
Obsługa wielu chmur	Obsługuje integrację i zgodność z różnymi platformami w chmurze.
Zarządzanie danymi	Obejmuje funkcje, takie jak pochodzenie danych, ochrona danych, certyfikacja i integracja katalogu.
Scentralizowane centrum danych	Działa jako scentralizowane centrum do odnajdywania i zarządzania danymi.
Obsługa aparatu analitycznego	Zgodność z wieloma aparatami analitycznymi. Ta zgodność umożliwia wykonywanie różnych narzędzi i technologii na tych samych danych.
Zabezpieczenia i zgodność	Zapewnia, że poufne dane pozostają bezpieczne, a dostęp jest ograniczony tylko do autoryzowanych użytkowników.
Łatwość użycia	Zapewnia przyjazny dla użytkownika interfejs, który jest automatycznie dostępny dla każdego najemcy Fabric i nie wymaga konfiguracji.
Skalowalność	Możliwość obsługi dużych ilości danych z różnych źródeł.

Możliwości magazynu plików

Zdolność	Usługa Data Lake Storage 2. generacji	Kontenery usługi Azure Blob Storage
Cel	Zoptymalizowany magazyn dla obciążeń analizy danych big data	Magazyn obiektów ogólnego przeznaczenia dla szerokiej gamy scenariuszy magazynowania
Przypadki użycia	Batch, analiza strumieni danych i dane związane z uczeniem maszynowym, takie jak pliki dzienników, dane IoT, strumienie kliknięć, duże zbiory danych	Dowolny typ danych tekstowych lub binarnych, takich jak zaplecze aplikacji, dane kopii zapasowej, magazyn multimediów do przesyłania strumieniowego i dane ogólnego przeznaczenia
Struktura	Hierarchiczny system plików	Magazyn obiektów z płaską przestrzenią nazw
Uwierzytelnianie	Oparte na tożsamościach firmy Microsoft	Na podstawie udostępnionych tajemnic Klucze dostępu konta oraz Klucze sygnatury dostępu udostępnionego, a także kontrola dostępu oparta na rolach (Azure RBAC)
Protokół uwierzytelniania	Otwarte Autoryzacje (OAuth) 2.0. Wywołania muszą zawierać prawidłowy token JWT (JSON web token) wystawiony przez Microsoft Entra ID.	Kod uwierzytelniania komunikatów oparty na skrótach (HMAC). Wywołania muszą zawierać zakodowany w formacie Base64 skrót SHA-256 dotyczący części żądania HTTP.
Autoryzacja	Listy kontroli dostępu (ACL) przenośnego interfejsu systemu operacyjnego (POSIX). Listy ACL oparte na tożsamościach Microsoft Entra można ustawić na poziomie pliku i folderu.	W przypadku autoryzacji na poziomie konta użyj kluczy dostępu do konta. W przypadku konta, kontenera lub autoryzacji obiektu blob użyj Kluczy Sygnatur Dostępu Współdzielonego.
Inspekcja	Dostępny.	Dostępny
Szyfrowanie w spoczynku	Przezroczysta, po stronie serwera	Przezroczysta, po stronie serwera; Szyfrowanie po stronie klienta
Zestawy SDK dla deweloperów	.NET, Java, Python, Node.js	.NET, Java, Python, Node.js, C++, Ruby
Wydajność obciążenia analitycznego	Zoptymalizowana wydajność pod kątem równoległych obciążeń analitycznych, wysokiej przepustowości i liczby operacji we/wy na sekundę	Nie zoptymalizowane pod kątem obciążeń analitycznych
Limity rozmiarów	Brak ograniczeń dotyczących rozmiarów kont, rozmiarów plików ani liczby plików	Określone limity udokumentowane tutaj
Nadmiarowość geograficzna	Nadmiarowość lokalna (lokalnie nadmiarowa pamięć masowa (LRS)), nadmiarowość globalna (geograficznie nadmiarowa pamięć masowa (GRS)), globalna nadmiarowość z dostępem do odczytu (geograficznie nadmiarowa pamięć masowa z dostępem do odczytu (RA-GRS)), nadmiarowość strefowa (strefowo nadmiarowa pamięć masowa (ZRS)).	Lokalnie redundantny (LRS), globalnie redundantny (GRS), globalnie redundantny z dostępem do odczytu (RA-GRS), strefowo redundantny (ZRS). Aby uzyskać więcej informacji, zobacz Nadmiarowość usługi Azure Storage

Możliwości bazy danych NoSQL

Zdolność	Azure Cosmos DB (Usługa bazodanowa firmy Microsoft)	Usługa HBase w usłudze HDInsight
Podstawowy model bazy danych	Magazyn dokumentów, graf, magazyn klucz-wartość, szeroki magazyn kolumn	Szeroki magazyn kolumn
Indeksy pomocnicze	Tak	Nie.
Obsługa języka SQL	Tak	Tak (przy użyciu sterownika Phoenix JDBC)
Spójność	Silna, ograniczona nieaktualność, sesja, spójny prefiks, ostateczna spójność	Silny
Natywna integracja usługi Azure Functions	Tak	Nie.
Automatyczna dystrybucja globalna	Tak	Może być skonfigurowana replikacja klastra HBase w różnych regionach z zachowaniem spójności ostatecznej
Model ustalania cen	Elastycznie skalowalne jednostki żądań (RU) naliczane na sekundę zgodnie z potrzebami, elastycznie skalowalny magazyn	Ceny minutowe dla klastra usługi HDInsight (skalowanie w poziomie węzłów), przechowywania

Możliwości analitycznej bazy danych

Zdolność	Azure Data Explorer (Eksplorator Danych Azure)
Podstawowy model bazy danych	Relacyjny (magazyn kolumn), telemetria i magazyn szeregów czasowych
Obsługa języka SQL	Tak
Model ustalania cen	Skalowalne elastycznie instancje klastra
Uwierzytelnianie	Oparte na tożsamościach firmy Microsoft
Szyfrowanie w spoczynku	Obsługiwane klucze zarządzane przez klienta
Wydajność obciążenia analitycznego	Zoptymalizowana wydajność obciążeń analizy równoległej
Limity rozmiarów	Skalowalne liniowo

Współautorzy

Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.

Główny autor:

Zoiner Tejada | Dyrektor generalny i architekt