Auswählen einer Big Data-Speichertechnologie in Azure

Hinweis

Am 29. Februar 2024 wird Azure Data Lake Storage Gen1 eingestellt. Weitere Informationen finden Sie in der offiziellen Ankündigung. Wenn Sie Azure Data Lake Storage Gen1 verwenden, stellen Sie sicher, dass Sie vor diesem Datum zu Azure Data Lake Storage Gen2 migrieren. Wie das geht, erfahren Sie unter Migrieren von Azure Data Lake Storage von Gen1 nach Gen2 mithilfe des Azure-Portals.

Wenn Sie nicht bereits über ein Azure Data Lake Storage Gen1-Konto verfügen, können Sie keine neuen Konten erstellen.

In diesem Thema werden Datenspeicheroptionen für Big Data-Lösungen verglichen – insbesondere Datenspeicher für die Massendatenerfassung und Batchverarbeitung (im Gegensatz zu Analysedatenspeichern oder Echtzeit-Streamingerfassung).

Welche Datenspeicheroptionen stehen in Azure zur Verfügung?

Daten können auf verschiedene Arten in Azure erfasst werden. Für welche Option Sie sich entscheiden, hängt ganz von Ihren Anforderungen ab.

Dateispeicher:

NoSQL-Datenbanken:

Analytische Datenbanken:

Azure Data Explorer

Azure Storage-Blobs

Azure Storage ist ein verwalteter, hochverfügbarer, sicherer, stabiler, skalierbarer und redundanter Speicherdienst. Microsoft übernimmt die Wartung und behandelt kritische Probleme für Sie. Die große Menge von Diensten und Tools, die mit dieser Lösung verwendet werden können, macht Azure Storage zur am weitesten verbreiteten Speicherlösung von Azure.

Für die Datenspeicherung stehen verschiedene Azure Storage-Dienste zur Verfügung. Die flexibelste Option zum Speichern von Blobs aus vielen Datenquellen ist Blob Storage. Blobs sind im Grunde Dateien. Sie eignen sich unter anderem zum Speichern von Bildern, Dokumenten, HTML-Dateien, virtuellen Festplatten (Virtual Hard Disks, VHDs) und Big Data wie Protokollen und Datenbanksicherungen. Blobs werden in Containern gespeichert, die Ordnern ähneln. Ein Container stellt eine Gruppierung eines Blob-Satzes bereit. Ein Speicherkonto kann eine unbegrenzte Anzahl von Containern enthalten, und in einem Container kann eine unbegrenzte Anzahl von Blobs gespeichert werden.

Azure Storage ist flexibel, hochverfügbar und kostengünstig – und somit eine gute Wahl für Big Data- und Analyselösungen. Die Lösung bietet eine heiße und eine kalte Speicherebene sowie eine Archivspeicherebene für verschiedene Anwendungsfälle. Weitere Informationen finden Sie unter Azure Blob Storage: Speicherebenen „Heiß“ (Hot), „Kalt“ (Cool) und „Archiv“.

Auf Azure Blob Storage kann über Hadoop (verfügbar über HDInsight) zugegriffen werden. In HDInsight kann ein Blobcontainer in Azure Storage als Standarddateisystem für den Cluster verwendet werden. Über eine durch einen WASB-Treiber bereitgestellte HDFS-Schnittstelle (Hadoop Distributed File System) können sämtliche Komponenten in HDInsight direkt mit strukturierten oder unstrukturierten Daten arbeiten, die als Blobs gespeichert sind. Auf Azure Blob Storage kann auch über das PolyBase-Feature von Azure Synapse Analytics zugegriffen werden.

Darüber hinaus sprechen folgende Features für Azure Storage:

Azure Data Lake Storage Gen1

Azure Data Lake Storage Gen1 ist ein unternehmensweites Hyperscalerepository für Big Data-Analyseworkloads. Mit Data Lake können Sie Daten von beliebiger Größe, Art und Erfassungsgeschwindigkeit zur Durchführung operativer und explorativer Analysen an einem zentralen, sicheren Ort erfassen.

Bei Azure Data Lake Storage Gen1 gelten keinerlei Einschränkungen in Bezug auf die Kontogröße, die Dateigröße oder die Menge an Daten, die in einem Data Lake gespeichert werden kann. Daten werden dauerhaft gespeichert, indem mehrere Kopien erstellt werden, und können für unbegrenzte Zeit im Data Lake verbleiben. Zusätzlich zur Erstellung mehrerer Kopien zum Schutz vor unerwarteten Ausfällen verteilt Data Lake auch Teile einer Datei auf mehrere einzelne Speicherserver. Dies verbessert den Lesedurchsatz, wenn die Datei zum Ausführen von Datenanalysen parallel gelesen wird.

Auf Azure Data Lake Storage Gen1 kann über Hadoop (verfügbar über HDInsight) unter Verwendung der WebHDFS-kompatiblen REST-APIs zugegriffen werden. Dies ist ggf. eine geeignete Alternative zu Azure Storage, wenn die Größe individueller Dateien oder aller Dateien die von Azure Storage unterstützte Größe übersteigt. Wenn Sie Azure Data Lake Storage Gen1 als primären Speicher für einen HDInsight-Cluster verwenden, sollten Sie allerdings diese Richtlinien zur Leistungsoptimierung berücksichtigen – insbesondere die spezifischen Richtlinien für Spark, Hive und MapReduce. Informieren Sie sich außerdem über die regionale Verfügbarkeit von Azure Data Lake Storage Gen1, da diese Lösung in weniger Regionen verfügbar ist als Azure Storage und in der gleichen Region vorliegen muss wie Ihr HDInsight-Cluster.

In Verbindung mit Azure Data Lake Analytics wurde Azure Data Lake Storage Gen1 speziell zur Analyse der gespeicherten Daten konzipiert und für Datenanalyseszenarien optimiert. Auf Azure Data Lake Storage Gen1 kann auch über das PolyBase-Feature von Azure Synapse zugegriffen werden.

Azure Cosmos DB

Azure Cosmos DB ist eine global verteilte Datenbank von Microsoft mit mehreren Modellen. Azure Cosmos DB garantiert Wartezeiten im einstelligen Millisekundenbereich im 99. Perzentil an jedem Ort der Welt, bietet mehrere gut definierte Konsistenzmodelle zur Optimierung der Leistung und garantiert Hochverfügbarkeit mit Multihostingfunktionen.

Azure Cosmos DB ist schemaunabhängig. Die Lösung indiziert automatisch alle Daten, sodass Sie sich nicht mit der Schema- und Indexverwaltung befassen müssen. Außerdem unterstützt sie nativ mehrere Datenmodelle wie Dokumente, Schlüssel-Wert-Paare, Diagramme und spaltenbasierte Daten.

Features von Azure Cosmos DB:

HBase in HDInsight

Apache HBase ist eine Open-Source-NoSQL-Datenbank, die auf Hadoop basiert und nach dem Vorbild von Google BigTable erstellt wurde. HBase bietet wahlfreien Zugriff und starke Konsistenz für große Mengen unstrukturierter und teilweise strukturierter Daten in einer schemalosen Datenbank, die nach Spaltenfamilien gegliedert ist.

Daten werden in den Zeilen einer Tabelle gespeichert und die Daten in einer Zeile zu einer Spaltenfamilie zusammengefasst. HBase ist insofern schemalos, als weder die Spalten noch der Typ der darin gespeicherten Daten vor der Verwendung definiert werden müssen. Der Open-Source-Code lässt sich linear skalieren, sodass Petabytes von Daten auf Tausenden von Knoten verarbeitet werden können. HBase nutzt Datenredundanz, Stapelverarbeitung und andere Funktionen, die von verteilten Anwendungen im Hadoop-Ökosystem zur Verfügung gestellt werden.

Die HDInsight-Implementierung nutzt die Architektur mit horizontaler Skalierung von HBase für automatisches Sharding von Tabellen, für starke Konsistenz bei Lese- und Schreibvorgängen sowie für automatisches Failover. Die Leistung wird durch speicherinterne Zwischenspeicherung für Lesevorgänge und Schreibvorgänge mit hohem Durchsatz optimiert. In den meisten Fällen sollten Sie den HBase-Cluster in einem virtuellen Netzwerk erstellen, damit andere HDInsight-Cluster und Anwendungen direkt auf die Tabellen zugreifen können.

Azure-Daten-Explorer

Azure Data Explorer ist ein schneller und hochgradig skalierbarer Dienst zur Untersuchung von Protokoll- und Telemetriedaten. Er bietet die Möglichkeit, zahlreiche Datenströme moderner Software zu verarbeiten, um Daten zu sammeln, zu speichern und zu analysieren. Azure-Daten-Explorer ist ideal zum Analysieren von großen Mengen unterschiedlicher Daten aus beliebigen Datenquellen geeignet, z.B. Websites, Anwendungen, IoT-Geräte und mehr. Diese Daten werden für die Diagnose, Überwachung, Berichterstellung, Machine Learning und weitere Analysefunktionen verwendet. Azure Data Explorer ermöglicht das einfache Erfassen dieser Daten, und Sie können komplexe Ad-hoc-Abfragen der Daten innerhalb von Sekunden ausführen.

Azure Data Explorer kann linear aufskaliert werden, um den Durchsatz bei der Erfassung und Abfrageverarbeitung zu erhöhen. Ein Azure Data Explorer-Cluster kann in einem virtuellen Netzwerk bereitgestellt werden, um private Netzwerke zu unterstützen.

Wichtige Auswahlkriterien

Beantworten Sie die folgenden Fragen, um die Auswahl einzuschränken:

  • Benötigen Sie verwalteten, cloudbasierten Hochgeschwindigkeitsspeicher für Text- oder Binärdaten? Falls ja, wählen Sie eine der Dateispeicher- oder Analyseoptionen aus.

  • Benötigen Sie Dateispeicher, der für parallele Analyseworkloads und hohen Durchsatz/hohe IOPS optimiert ist? Falls ja, entscheiden Sie sich für eine Option, deren Leistung für Analyseworkloads optimiert ist.

  • Müssen Sie unstrukturierte oder teilweise strukturierte Daten in einer schemalosen Datenbank speichern? Falls ja, entscheiden Sie sich für eine der nicht relationalen Optionen oder Analyseoptionen. Vergleichen Sie die Optionen für die Indizierung und die Datenbankmodelle. Abhängig von der Art der Daten, die Sie speichern möchten, sind die primären Datenbankmodelle unter Umständen der wichtigste Faktor.

  • Können Sie den Dienst in Ihrer Region verwenden? Überprüfen Sie die regionale Verfügbarkeit der einzelnen Azure-Dienste. Weitere Informationen finden Sie unter Verfügbare Produkte nach Region.

Funktionsmatrix

In den folgenden Tabellen sind die Hauptunterschiede der Funktionen zusammengefasst:

Dateispeicherfunktionen

Funktion Azure Data Lake Storage Gen1 Azure Blob Storage-Container
Zweck Optimierter Speicher für Big Data-Analyseworkloads Universell einsetzbarer Objektspeicher für eine Vielzahl von Speicherszenarien
Anwendungsfälle Batch-, Streaming Analytics- und Machine Learning-Daten wie Protokolldateien, IoT-Daten, Clickstreams, große Datasets Jede Art von Text- oder Binärdaten, beispielsweise Daten des Anwendungs-Back-Ends, Sicherungsdaten, Medienspeicher für Streaming und universelle Daten
Struktur Hierarchisches Dateisystem Objektspeicher mit flachem Namespace
Authentifizierung Basierend auf Microsoft Entra-Identitäten Basierend auf gemeinsam genutzten Geheimnissen – Kontozugriffsschlüssel, Shared Access Signature-Schlüssel und rollenbasierte Zugriffssteuerung in Azure (Azure Role-Based Access Control, Azure RBAC)
Authentifizierungsprotokoll OAuth 2.0. Aufrufe müssen ein gültiges, über Microsoft Entra ID ausgestelltes JSON Web Token (JWT) enthalten. Hashbasierter Nachrichtenauthentifizierungscode (Hashed Message Authentication Code, HMAC). Aufrufe müssen einen Base64-codierten SHA-256-Hash über einen Teil der HTTP-Anforderung enthalten.
Authorization POSIX-Zugriffssteuerungslisten (Access Control Lists, ACLs). Auf Microsoft Entra-Identitäten basierende Zugriffssteuerungslisten (Access Control List, ACL) können auf Datei- und Ordnerebene festgelegt werden. Verwenden Sie Zugriffsschlüssel für die Autorisierung auf Kontoebene. Verwenden Sie Shared Access Signature-Schlüssel für die Konto-, Container- oder Blobautorisierung.
Überwachung Verfügbar. Verfügbar
Verschlüsselung ruhender Daten Transparent, serverseitig Transparent, serverseitig; clientseitige Verschlüsselung
Entwickler-SDKs .NET, Java, Python, Node.js .NET, Java, Python, Node.js, C++, Ruby
Leistung von Analyseworkloads Optimierte Leistung für parallele Analyseworkloads, hohen Durchsatz und hohe IOPS Nicht für Analyseworkloads optimiert.
Größenbeschränkungen Keine Beschränkungen für Kontogrößen, Dateigrößen oder die Anzahl von Dateien. Die geltenden Einschränkungen sind hier
Georedundanz Lokal redundant (LRS), global redundant (GRS), global redundant mit Lesezugriff (RA-GRS), zonenredundant (ZRS). Lokal redundant (LRS), global redundant (GRS), global redundant mit Lesezugriff (RA-GRS), zonenredundant (ZRS). Weitere Informationen finden Sie hier .

NoSQL-Datenbankfunktionen

Funktion Azure Cosmos DB HBase in HDInsight
Primäres Datenbankmodell Dokumentspeicher, Diagramm, Schlüssel-Wert-Speicherung, Wide Columnstore Wide Columnstore
Sekundäre Indizes Ja Nein
SQL-Sprachunterstützung Ja Ja (mit dem Phoenix-JDBC-Treiber)
Konsistenz Stark, begrenzte Veraltung, Sitzung, Präfixkonsistenz, letztlich STARK (Strong)
Native Azure Functions-Integration Ja Nein
Automatische globale Verteilung Ja Nein. Die HBase-Clusterreplikation kann regionsübergreifend mit letztlicher Konsistenz konfiguriert werden.
Preismodell Flexibel skalierbare Anforderungseinheiten (Request Units, RUs), die nach Bedarf pro Sekunde berechnet werden; flexibel skalierbarer Speicher Minutenpreise für HDInsight-Cluster (horizontale Skalierung von Knoten), Speicher

Funktionen analytischer Datenbanken

Funktion Azure-Daten-Explorer
Primäres Datenbankmodell Relationaler Speicher (Spaltenspeicher), Telemetrie- und Zeitreihenspeicher
SQL-Sprachunterstützung Ja
Preismodell Elastisch skalierbare Clusterinstanzen
Authentifizierung Basierend auf Microsoft Entra-Identitäten
Verschlüsselung ruhender Daten Unterstützt, kundenseitig verwaltete Schlüssel
Leistung von Analyseworkloads Optimierte Leistung für parallele Analyseworkloads
Größenbeschränkungen Linear skalierbar

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautor:

Nächste Schritte