Wybieranie technologii magazynu danych big data na platformie Azure
Uwaga
29 lutego 2024 Azure Data Lake Storage Gen1 zostanie wycofana. Więcej informacji znajdziesz w oficjalnym ogłoszeniu. Jeśli używasz Azure Data Lake Storage Gen1, pamiętaj, aby przeprowadzić migrację do Azure Data Lake Storage Gen2 przed tą datą. Aby dowiedzieć się, jak to zrobić, zobacz Migrowanie Azure Data Lake Storage z gen1 do 2. generacji przy użyciu Azure Portal.
Jeśli nie masz już konta usługi Azure Data Lake Storage Gen1, nie można tworzyć nowych.
W tym temacie porównano opcje magazynowania danych dla rozwiązań do obsługi danych big data — w szczególności magazyn danych na potrzeby zbiorczego pozyskiwania danych i przetwarzania wsadowego, w przeciwieństwie do magazynów danych analitycznych lub pozyskiwania danych przesyłanych strumieniowo w czasie rzeczywistym.
Jakie opcje są dostępne podczas wybierania magazynu danych na platformie Azure?
Istnieje kilka opcji pozyskiwania danych na platformie Azure, w zależności od potrzeb.
Magazyn plików:
Bazy danych NoSQL:
Analityczne bazy danych:
Obiekty blob usługi Azure Storage
Azure Storage to zarządzana usługa magazynu, która jest wysoce dostępna, bezpieczna, trwała, skalowalna i nadmiarowa. Firma Microsoft zajmuje się konserwacją oraz rozwiązywaniem krytycznych problemów. Usługa Azure Storage jest najbardziej wszechobecnym rozwiązaniem magazynu zapewnianym przez platformę Azure ze względu na liczbę usług i narzędzi, z których można korzystać.
Istnieją różne usługi Azure Storage, których można użyć do przechowywania danych. Najbardziej elastyczną opcją przechowywania obiektów blob z wielu źródeł danych jest usługa Blob Storage. Obiekty blob to zasadniczo pliki. Przechowują obrazy, dokumenty, pliki HTML, wirtualne dyski twarde (VHD), dane big data, takie jak dzienniki, kopie zapasowe bazy danych — prawie wszystko. Obiekty blob są przechowywane w kontenerach, które są podobne do folderów. Kontener udostępnia grupowanie zestawu obiektów blob. Konto magazynu może zawierać nieograniczoną liczbę kontenerów, a każdy kontener może zawierać nieograniczoną liczbę obiektów blob.
Usługa Azure Storage jest dobrym wyborem w przypadku rozwiązań do analizy i danych big data ze względu na elastyczność, wysoką dostępność i niski koszt. Zapewnia warstwy magazynowania Gorąca, Chłodna i Archiwum dla różnych przypadków użycia. Aby uzyskać więcej informacji, zobacz Azure Blob Storage: Warstwy magazynowania Gorąca, Chłodna i Archiwum.
Dostęp do usługi Azure Blob Storage można uzyskać z usługi Hadoop (dostępnej za pośrednictwem usługi HDInsight). Usługa HDInsight może używać kontenera obiektów blob w usłudze Azure Storage jako domyślnego systemu plików dla klastra. Dzięki interfejsowi rozproszonego systemu plików Hadoop (HDFS) udostępnianego przez sterownik WASB pełny zestaw składników w usłudze HDInsight może działać bezpośrednio na danych strukturalnych lub nieustrukturyzowanych przechowywanych jako obiekty blob. Dostęp do usługi Azure Blob Storage można również uzyskać za pośrednictwem usługi Azure Synapse Analytics przy użyciu funkcji PolyBase.
Inne funkcje, które sprawiają, że usługa Azure Storage jest dobrym wyborem:
- Wiele strategii współbieżności.
- Odzyskiwanie po awarii i opcje wysokiej dostępności.
- Szyfrowanie danych magazynowanych.
- Kontrola dostępu oparta na rolach (RBAC) na platformie Azure w celu kontrolowania dostępu przy użyciu użytkowników i grup usługi Azure Active Directory.
Usługa Azure Data Lake Storage 1. generacji
Azure Data Lake Storage Gen1 to repozytorium hiperskala dla całego przedsiębiorstwa dla obciążeń analitycznych danych big data. Usługa Data Lake umożliwia przechwytywanie danych o dowolnym rozmiarze, typie i szybkości pozyskiwania w jednej bezpiecznej lokalizacji na potrzeby analizy operacyjnej i eksploracyjnej.
Azure Data Lake Storage Gen1 nie nakłada żadnych ograniczeń dotyczących rozmiarów kont, rozmiarów plików ani ilości danych, które mogą być przechowywane w usłudze Data Lake. Dane są przechowywane trwale przez tworzenie wielu kopii i nie ma limitu czasu przechowywania danych w usłudze Data Lake. Oprócz tworzenia wielu kopii plików w celu ochrony przed nieoczekiwanymi awariami usługa Data Lake rozkłada części pliku na wiele pojedynczych serwerów magazynu. Zwiększa to przepływność odczytu podczas odczytywania pliku równolegle w celu wykonywania analizy danych.
Azure Data Lake Storage Gen1 można uzyskać dostęp z usługi Hadoop (dostępnej za pośrednictwem usługi HDInsight) przy użyciu interfejsów API REST zgodnych z systemem plików WebHDFS. Możesz rozważyć użycie tej funkcji jako alternatywy dla usługi Azure Storage, jeśli rozmiary poszczególnych lub połączonych plików przekraczają ten, który jest obsługiwany przez usługę Azure Storage. Istnieją jednak wytyczne dotyczące dostrajania wydajności, które należy stosować podczas korzystania z usługi Azure Data Lake Storage Gen1 jako magazynu podstawowego dla klastra usługi HDInsight, z określonymi wytycznymi dotyczącymi platform Spark, Hive i MapReduce. Należy również sprawdzić dostępność regionalną usługi Azure Data Lake Storage Gen1, ponieważ nie jest ona dostępna w tylu regionach, jak usługa Azure Storage, i musi znajdować się w tym samym regionie co klaster usługi HDInsight.
W połączeniu z usługą Azure Data Lake Analytics usługa Azure Data Lake Storage Gen1 została zaprojektowana w celu umożliwienia analizy przechowywanych danych i dostrojenia pod kątem wydajności scenariuszy analizy danych. dostęp do Azure Data Lake Storage Gen1 można również uzyskać za pośrednictwem Azure Synapse przy użyciu funkcji PolyBase.
Azure Cosmos DB
Usługa Azure Cosmos DB to globalnie rozproszona wielomodelowa baza danych firmy Microsoft. Usługa Azure Cosmos DB gwarantuje jednocyfrowe opóźnienia w milisekundach na poziomie 99. percentylu w dowolnym miejscu na świecie, oferuje wiele dobrze zdefiniowanych modeli spójności w celu dostosowania wydajności i gwarantuje wysoką dostępność dzięki możliwościom wielu homingów.
Usługa Azure Cosmos DB jest niezależna od schematu. Automatycznie indeksuje wszystkie dane bez konieczności zarządzania schematami i indeksami. Jest to również model wielomodelowy, natywnie obsługujący dokument, klucz-wartość, graf i modele danych rodziny kolumn.
Funkcje usługi Azure Cosmos DB:
- Replikacja geograficzna
- Elastyczne skalowanie przepływności i magazynu na całym świecie
- Pięć dokładnie zdefiniowanych poziomów spójności
Usługa HBase w usłudze HDInsight
Apache HBase to baza danych NoSQL typu open source, która jest oparta na platformie Hadoop i modelowana po bigtable firmy Google. Baza HBase zapewnia dostęp losowy i silną spójność dla dużych ilości danych bez struktury i częściowo ustrukturyzowanych w bez schematowej bazie danych zorganizowanej według rodzin kolumn.
Dane są przechowywane w wierszach tabeli, a dane w obrębie wiersza są zgrupowane według rodziny kolumn. Baza HBase jest bez schematu w tym sensie, że ani kolumny, ani typ przechowywanych w nich danych nie muszą być zdefiniowane przed ich użyciem. Kod typu open source zapewnia skalowanie liniowe, umożliwiając obsługę petabajtów danych na tysiącach węzłów. Baza może wykorzystywać nadmiarowość danych, przetwarzanie wsadowe i inne funkcje, które są dostarczane przez aplikacje rozproszone w ekosystemie Hadoop.
Implementacja usługi HDInsight wykorzystuje architekturę skalowania w poziomie bazy danych HBase w celu zapewnienia automatycznego fragmentowania tabel, silnej spójności operacji odczytu i zapisu oraz automatycznego przechodzenia w tryb failover. Wydajność jest zwiększona dzięki buforowaniu w pamięci operacji odczytu i przesyłaniu strumieniowemu o wysokiej przepustowości obejmującemu operacje zapisu. W większości przypadków należy utworzyć klaster HBase w sieci wirtualnej , aby inne klastry i aplikacje usługi HDInsight mogły bezpośrednio uzyskiwać dostęp do tabel.
Azure Data Explorer
Usługa Azure Data Explorer to szybka i wysoce skalowalna usługa eksploracji danych na potrzeby danych dzienników i telemetrii. Ułatwia ona obsługę wielu strumieni danych emitowanych przez nowoczesne oprogramowanie, dzięki czemu można zbierać, przechowywać i analizować dane. Usługa Azure Data Explorer to idealne rozwiązanie do analizowania dużych ilości zróżnicowanych danych z dowolnego źródła danych, takiego jak witryny internetowe, aplikacje, urządzenia IoT i inne. Te dane są używane na potrzeby diagnostyki, monitorowania, raportowania, uczenia maszynowego i dodatkowych możliwości analizy. Usługa Azure Data Explorer ułatwia pozyskiwanie tych danych i umożliwia wykonywanie złożonych zapytań ad hoc dotyczących danych w sekundach.
Usługa Azure Data Explorer może być skalowana liniowo w poziomie w celu zwiększenia przepływności pozyskiwania i przetwarzania zapytań. Klaster usługi Azure Data Explorer można wdrożyć w Virtual Network w celu włączenia sieci prywatnych.
Kluczowe kryteria wyboru
Aby zawęzić opcje, zacznij od udzielenia odpowiedzi na następujące pytania:
Czy potrzebujesz zarządzanego, szybkiego, opartego na chmurze magazynu dla dowolnego typu danych tekstowych lub binarnych? Jeśli tak, wybierz jedną z opcji magazynu plików lub analizy.
Czy potrzebujesz magazynu plików zoptymalizowanego pod kątem obciążeń analizy równoległej i wysokiej przepływności/liczby operacji we/wy na sekundę? Jeśli tak, wybierz opcję dostosowaną do wydajności obciążeń analitycznych.
Czy musisz przechowywać dane bez struktury lub częściowo ustrukturyzowane w bez schematowej bazie danych? Jeśli tak, wybierz jedną z opcji nierelacyjnych lub analitycznych. Porównanie opcji indeksowania i modeli bazy danych. W zależności od typu danych, które należy przechowywać, podstawowe modele baz danych mogą być największym czynnikiem.
Czy możesz używać usługi w twoim regionie? Sprawdź dostępność regionalną dla każdej usługi platformy Azure. Zobacz Dostępność produktów według regionów.
Macierz możliwości
W poniższych tabelach podsumowano kluczowe różnice w możliwościach.
Możliwości magazynu plików
Możliwość | Usługa Azure Data Lake Storage 1. generacji | kontenery Azure Blob Storage |
---|---|---|
Przeznaczenie | Zoptymalizowany magazyn pod kątem obciążeń analizy danych big data | Magazyn obiektów ogólnego przeznaczenia dla szerokiej gamy scenariuszy magazynowania |
Przypadki zastosowań | Usługa Batch, analiza przesyłania strumieniowego i dane uczenia maszynowego, takie jak pliki dziennika, dane IoT, strumienie kliknięć, duże zestawy danych | Dowolny typ danych tekstowych lub binarnych, takich jak zaplecze aplikacji, dane kopii zapasowej, magazyn multimediów do przesyłania strumieniowego i dane ogólnego przeznaczenia |
Struktura | Hierarchiczny system plików | Magazyn obiektów z płaską przestrzenią nazw |
Authentication | Oparte na tożsamościach usługi Azure Active Directory | Na podstawie udostępnionych wpisów tajnych klucze dostępu konta i klucze sygnatur dostępu współdzielonego oraz kontrola dostępu oparta na rolach platformy Azure (Azure RBAC) |
Protokół uwierzytelniania | OAuth 2.0. Wywołania muszą zawierać prawidłowy token internetowy JWT (JSON) wystawiony przez usługę Azure Active Directory | Kod uwierzytelniania komunikatów oparty na skrótach (HMAC). Wywołania muszą zawierać skrót SHA-256 zakodowany w formacie Base64 w ramach żądania HTTP. |
Autoryzacja | Listy kontroli dostępu poSIX (ACL). Listy ACL oparte na tożsamościach usługi Azure Active Directory można ustawić na poziomie plików i folderów. | W przypadku autoryzacji na poziomie konta użyj kluczy dostępu do konta. W przypadku kont, kontenerów lub autoryzacji obiektów blob użyj kluczy sygnatur dostępu współdzielonego. |
Inspekcja | Dostępne. | Dostępne |
Szyfrowanie danych magazynowanych | Przezroczysta, po stronie serwera | Przezroczysta, po stronie serwera; Szyfrowanie po stronie klienta |
Zestawy SDK dla deweloperów | .NET, Java, Python, Node.js | .NET, Java, Python, Node.js, C++, Ruby |
Wydajność obciążenia analitycznego | Zoptymalizowana wydajność pod kątem obciążeń analizy równoległej, wysokiej przepływności i liczby operacji we/wy na sekundę | Niezoptymalizowane pod kątem obciążeń analitycznych |
Limity rozmiaru | Brak ograniczeń dotyczących rozmiarów kont, rozmiarów plików lub liczby plików | Określone limity udokumentowane tutaj |
Nadmiarowość geograficzna | Lokalnie nadmiarowe (LRS), globalnie nadmiarowe (GRS), dostęp do odczytu globalnie nadmiarowy (RA-GRS), strefowo nadmiarowy (ZRS). | Lokalnie nadmiarowe (LRS), globalnie nadmiarowe (GRS), dostęp do odczytu globalnie nadmiarowy (RA-GRS), strefowo nadmiarowy (ZRS). Więcej informacji można znaleźć tutaj |
Możliwości bazy danych NoSQL
Możliwość | Azure Cosmos DB | Usługa HBase w usłudze HDInsight |
---|---|---|
Podstawowy model bazy danych | Magazyn dokumentów, graf, magazyn klucz-wartość, szeroki magazyn kolumn | Szeroki magazyn kolumn |
Indeksy pomocnicze | Tak | Nie |
Obsługa języka SQL | Tak | Tak (przy użyciu sterownika Phoenix JDBC) |
Spójność | Silna, powiązana nieaktualność, sesja, spójny prefiks, ostateczna | Silna |
Integracja natywnej Azure Functions | Tak | Nie |
Automatyczna dystrybucja globalna | Tak | Niemożna skonfigurować replikacji klastra HBase w różnych regionach ze spójnością ostateczną |
Model cen | Elastycznie skalowalne jednostki żądań (RU) są naliczane zgodnie z potrzebami, elastycznie skalowalny magazyn | Ceny za minutę dla klastra usługi HDInsight (skalowanie w poziomie węzłów), magazyn |
Możliwości analitycznej bazy danych
Możliwość | Azure Data Explorer |
---|---|
Podstawowy model bazy danych | Relacyjny (magazyn kolumn), telemetria i magazyn szeregów czasowych |
Obsługa języka SQL | Tak |
Model cen | Elastyczne skalowalne wystąpienia klastra |
Authentication | Na podstawie tożsamości usługi Azure Active Directory |
Szyfrowanie danych magazynowanych | Obsługiwane klucze zarządzane przez klienta |
Wydajność obciążenia analitycznego | Zoptymalizowana wydajność dla obciążeń analizy równoległej |
Limity rozmiaru | Skalowalne liniowo |
Współautorzy
Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.
Główny autor:
- Zoiner Tejada | Dyrektor generalny i architekt
Następne kroki
- Rozwiązania i usługi azure Cloud Storage
- Przeglądanie opcji magazynowania
- Wprowadzenie do usługi Azure Storage
- Wprowadzenie do usługi Azure Data Explorer