Freigeben über


Auswählen einer Big Data-Speichertechnologie in Azure

In diesem Artikel werden Datenspeicheroptionen für Big Data-Lösungen verglichen – insbesondere Datenspeicher für die Massendatenerfassung und Batchverarbeitung (im Gegensatz zu Analysedatenspeichern oder Streamingerfassung in Echtzeit).

Welche Datenspeicheroptionen stehen in Azure zur Verfügung?

Daten können auf verschiedene Arten in Azure erfasst werden. Für welche Option Sie sich entscheiden, hängt ganz von Ihren Anforderungen ab.

Einheitlicher logischer Data Lake:

Dateispeicher:

NoSQL-Datenbanken:

Analytische Datenbanken:

OneLake in Fabric

OneLake in Fabric ist ein einheitlicher und logischer Data Lake, der auf die gesamte Organisation zugeschnitten ist. Er dient als zentraler Hub für alle Analysedaten und ist in jedem Microsoft Fabric-Mandanten enthalten. OneLake in Fabric basiert auf der Grundlage von Data Lake Storage Gen2.

OneLake in Fabric:

  • unterstützt strukturierte und unstrukturierte Dateitypen.
  • speichert alle tabellarischen Daten im Delta Parquet-Format.
  • stellt einen einzelnen Data Lake innerhalb von Mandantengrenzen bereit, der standardmäßig gesteuert wird.
  • unterstützt die Erstellung von Arbeitsbereichen innerhalb eines Mandanten, sodass eine Organisation Besitz- und Zugriffsrichtlinien verteilen kann.
  • unterstützt die Erstellung verschiedener Datenelemente, z. B. Lakehouses und Warehouses, über die Sie auf Daten zugreifen können.

OneLake in Fabric dient als gemeinsamer Speicherort für Erfassung, Transformation, Echtzeiterkenntnisse und Business Intelligence-Visualisierungen. Er zentralisiert verschiedene Fabric-Dienste und speichert Datenelemente, die von allen Workloads in Fabric verwendet werden. Informationen dazu, wie Sie den passenden Datenspeicher für Ihre Fabric-Workloads auswählen, finden Sie unter Microsoft Fabric-Entscheidungsleitfaden: Auswählen eines Datenspeichers.

Azure Storage-Blobs

Azure Storage ist ein verwalteter, hochverfügbarer, sicherer, stabiler, skalierbarer und redundanter Speicherdienst. Microsoft übernimmt die Wartung und behandelt kritische Probleme für Sie. Die große Menge von Diensten und Tools, die mit dieser Lösung verwendet werden können, macht Azure Storage zur am weitesten verbreiteten Speicherlösung von Azure.

Für die Datenspeicherung stehen verschiedene Azure Storage-Dienste zur Verfügung. Die flexibelste Option zum Speichern von Blobs aus vielen Datenquellen ist Blob Storage. Blobs sind im Grunde Dateien. Sie eignen sich unter anderem zum Speichern von Bildern, Dokumenten, HTML-Dateien, virtuellen Festplatten (Virtual Hard Disks, VHDs) und Big Data wie Protokollen und Datenbanksicherungen. Blobs werden in Containern gespeichert, die Ordnern ähneln. Ein Container stellt eine Gruppierung eines Blob-Satzes bereit. Ein Speicherkonto kann eine unbegrenzte Anzahl von Containern enthalten, und in einem Container kann eine unbegrenzte Anzahl von Blobs gespeichert werden.

Azure Storage ist flexibel, hochverfügbar und kostengünstig – und somit eine gute Wahl für Big Data- und Analyselösungen. Die Lösung bietet eine heiße und eine kalte Speicherebene sowie eine Archivspeicherebene für verschiedene Anwendungsfälle. Weitere Informationen finden Sie unter Azure Blob Storage: Speicherebenen „Heiß“ (Hot), „Kalt“ (Cool) und „Archiv“.

Auf Azure Blob Storage kann über Hadoop (verfügbar über HDInsight) zugegriffen werden. In HDInsight kann ein Blobcontainer in Azure Storage als Standarddateisystem für den Cluster verwendet werden. Über eine durch einen WASB-Treiber bereitgestellte Hadoop Distributed File System (HDFS)-Schnittstelle können sämtliche Komponenten in HDInsight direkt mit strukturierten oder unstrukturierten Daten arbeiten, die als Blobs gespeichert sind. Auf Azure Blob Storage kann auch über das PolyBase-Feature von Azure Synapse Analytics zugegriffen werden.

Darüber hinaus sprechen folgende Features für Azure Storage:

Data Lake Storage Gen2

Data Lake Storage Gen2 ist ein einzelnes, zentralisiertes Repository, in dem Sie alle Ihre Daten speichern können, sowohl strukturierte als auch unstrukturierte. Mit einem Data Lake kann Ihre Organisation eine Vielzahl von Daten schnell und einfach an einem zentralen Ort speichern, darauf zugreifen und sie analysieren. Mit einem Data Lake müssen Sie Ihre Daten nicht an eine vorhandene Struktur anpassen. Stattdessen können Sie Ihre Daten im Rohformat oder nativen Format speichern, in der Regel als Dateien oder als Binary Large Objects (Blobs).

Data Lake Storage Gen2 vereint die Funktionen von Azure Data Lake Storage Gen1 und Azure Blob Storage. Beispielsweise bietet Data Lake Storage Gen2 Dateisystemsemantik, Sicherheit auf Dateiebene und Skalierung. Da diese Funktionen auf Blob Storage basieren, profitieren Sie gleichzeitig von kostengünstigem, mehrstufigem Speicher mit Hochverfügbarkeit und Notfallwiederherstellungsfunktionen.

Mit Data Lake Storage Gen2 wird Azure Storage zur Grundlage für das Erstellen von Enterprise Data Lakes in Azure. Data Lake Storage Gen2 wurde eigens für die Verarbeitung mehrerer Petabyte an Informationen bei gleichzeitiger Unterstützung eines Durchsatzes von Hunderten von Gigabit konzipiert und bietet Ihnen eine einfache Möglichkeit, riesige Datenmengen zu verwalten.

Azure Cosmos DB

Azure Cosmos DB ist eine global verteilte Datenbank von Microsoft mit mehreren Modellen. Azure Cosmos DB garantiert Wartezeiten im einstelligen Millisekundenbereich im 99. Perzentil an jedem Ort der Welt, bietet mehrere gut definierte Konsistenzmodelle zur Optimierung der Leistung und garantiert Hochverfügbarkeit mit Multihostingfunktionen.

Azure Cosmos DB ist schemaunabhängig. Die Lösung indiziert automatisch alle Daten, sodass Sie sich nicht mit der Schema- und Indexverwaltung befassen müssen. Außerdem unterstützt sie nativ mehrere Datenmodelle wie Dokumente, Schlüssel-Wert-Paare, Diagramme und spaltenbasierte Daten.

Features von Azure Cosmos DB:

HBase in HDInsight

Apache HBase ist eine Open-Source-NoSQL-Datenbank, die auf Hadoop basiert und nach dem Vorbild von Google BigTable erstellt wurde. HBase bietet wahlfreien Zugriff und starke Konsistenz für große Mengen unstrukturierter und teilweise strukturierter Daten in einer schemalosen Datenbank, die nach Spaltenfamilien gegliedert ist.

Daten werden in den Zeilen einer Tabelle gespeichert und die Daten in einer Zeile zu einer Spaltenfamilie zusammengefasst. HBase ist insofern schemalos, als weder die Spalten noch der Typ der darin gespeicherten Daten vor der Verwendung definiert werden müssen. Der Open-Source-Code lässt sich linear skalieren, sodass Petabytes von Daten auf Tausenden von Knoten verarbeitet werden können. HBase nutzt Datenredundanz, Stapelverarbeitung und andere Funktionen, die von verteilten Anwendungen im Hadoop-Ökosystem zur Verfügung gestellt werden.

Die HDInsight-Implementierung verwendet die horizontal skalierte Architektur von HBase für ein automatisches Sharding von Tabellen, eine robuste Konsistenz bei Lese- und Schreibvorgängen sowie ein automatisches Failover. Die Leistung wird durch speicherinterne Zwischenspeicherung für Lesevorgänge und Schreibvorgänge mit hohem Durchsatz optimiert. In den meisten Fällen sollten Sie den HBase-Cluster in einem virtuellen Netzwerk erstellen, damit andere HDInsight-Cluster und Anwendungen direkt auf die Tabellen zugreifen können.

Azure-Daten-Explorer

Azure Data Explorer ist ein schneller und hochgradig skalierbarer Dienst zur Untersuchung von Protokoll- und Telemetriedaten. Er bietet die Möglichkeit, zahlreiche Datenströme moderner Software zu verarbeiten, um Daten zu sammeln, zu speichern und zu analysieren. Azure-Daten-Explorer ist ideal zum Analysieren von großen Mengen unterschiedlicher Daten aus beliebigen Datenquellen geeignet, z.B. Websites, Anwendungen, IoT-Geräte und mehr. Diese Daten werden für die Diagnose, Überwachung, Berichterstellung, Machine Learning und weitere Analysefunktionen verwendet. Azure Data Explorer ermöglicht das einfache Erfassen dieser Daten, und Sie können komplexe ungeplante Abfragen der Daten innerhalb von Sekunden ausführen.

Azure Data Explorer kann linear aufskaliert werden, um den Durchsatz bei der Erfassung und Abfrageverarbeitung zu erhöhen. Ein Azure Data Explorer-Cluster kann in einem virtuellen Netzwerk bereitgestellt werden, um private Netzwerke zu unterstützen.

Wichtige Auswahlkriterien

Beantworten Sie die folgenden Fragen, um die Auswahl einzuschränken:

  • Benötigen Sie einen einheitlichen Data Lake mit Multicloudunterstützung, stabiler Governance und nahtloser Integration in Analysetools? Falls ja, entscheiden Sie sich für OneLake in Fabric für vereinfachte Datenverwaltung und verbesserte Zusammenarbeit.

  • Benötigen Sie verwalteten, cloudbasierten Hochgeschwindigkeitsspeicher für Text- oder Binärdaten? Falls ja, entscheiden Sie sich für eine der Dateispeicher- oder Analyseoptionen.

  • Benötigen Sie Dateispeicher, der für parallele Analyseworkloads und hohen Durchsatz/hohe IOPS optimiert ist? Falls ja, entscheiden Sie sich für eine Option, deren Leistung für Analyseworkloads optimiert ist.

  • Müssen Sie unstrukturierte oder teilweise strukturierte Daten in einer schemalosen Datenbank speichern? Falls ja, entscheiden Sie sich für eine der nicht relationalen Optionen oder Analyseoptionen. Vergleichen Sie die Optionen für die Indizierung und die Datenbankmodelle. Abhängig von der Art der Daten, die Sie speichern möchten, sind die primären Datenbankmodelle unter Umständen der wichtigste Faktor.

  • Können Sie den Dienst in Ihrer Region verwenden? Überprüfen Sie die regionale Verfügbarkeit der einzelnen Azure-Dienste. Weitere Informationen finden Sie unter Verfügbare Produkte nach Region.

Funktionsmatrix

In den folgenden Tabellen sind die Hauptunterschiede der Funktionen zusammengefasst:

OneLake in Fabric-Funktionen

Funktion OneLake in Fabric
Einheitlicher Data Lake Bereitstellung eines einzigen, einheitlichen Data Lakes für die gesamte Organisation, wodurch Datensilos eliminiert werden
Multicloudunterstützung Unterstützung von Integration in und Kompatibilität mit verschiedenen Cloudplattformen
Datengovernance Features wie Datenherkunft, Datenschutz, Zertifizierung und Katalogintegration
Zentraler Datenhub Zentraler Hub für die Datenermittlung und -verwaltung
Unterstützung für die Analyse-Engine Kompatibilität mit mehreren Analyse-Engines. Diese Kompatibilität ermöglicht es verschiedenen Tools und Technologien, dieselben Daten zu verarbeiten.
Sicherheit und Compliance Sorgt dafür, dass vertrauliche Daten geschützt bleiben und der Zugriff nur auf autorisierte Benutzer beschränkt ist
Einfache Bedienung Stellt ein benutzerfreundliches Design bereit, das automatisch für jeden Fabric-Mandanten verfügbar ist und keine Einrichtung erfordert
Skalierbarkeit Kann große Datenmengen aus verschiedenen Quellen verarbeiten

Dateispeicherfunktionen

Funktion Data Lake Storage Gen2 Azure Blob Storage-Container
Zweck Optimierter Speicher für Big Data-Analyseworkloads Universell einsetzbarer Objektspeicher für eine Vielzahl von Speicherszenarien
Anwendungsfälle Batch-, Streaming Analytics- und Machine Learning-Daten wie Protokolldateien, IoT-Daten, Clickstreams, große Datasets Jede Art von Text- oder Binärdaten, beispielsweise Daten des Anwendungs-Back-Ends, Sicherungsdaten, Medienspeicher für Streaming und universelle Daten
Struktur Hierarchisches Dateisystem Objektspeicher mit flachem Namespace
Authentifizierung Basierend auf Microsoft Entra-Identitäten Basierend auf gemeinsam genutzten Geheimnissen – Kontozugriffsschlüssel, Shared Access Signature-Schlüssel und rollenbasierte Zugriffssteuerung in Azure (Azure Role-Based Access Control, Azure RBAC)
Authentifizierungsprotokoll Open Authorization (OAuth) 2.0. Aufrufe müssen ein gültiges, über Microsoft Entra ID ausgestelltes JSON Web Token (JWT) enthalten. Hash-based Message Authentication Code (HMAC). Aufrufe müssen einen Base64-codierten SHA-256-Hash über einen Teil der HTTP-Anforderung enthalten.
Autorisierung Zugriffssteuerungslisten (ACLs) für Portable Operating System Interface (POSIX). Auf Microsoft Entra-Identitäten basierende Zugriffssteuerungslisten (Access Control List, ACL) können auf Datei- und Ordnerebene festgelegt werden. Verwenden Sie Zugriffsschlüssel für die Autorisierung auf Kontoebene. Verwenden Sie Shared Access Signature-Schlüssel für die Konto-, Container- oder Blobautorisierung.
Überwachung Verfügbar. Verfügbar
Verschlüsselung ruhender Daten Transparent, serverseitig Transparent, serverseitig; clientseitige Verschlüsselung
Entwickler-SDKs .NET, Java, Python, Node.js .NET, Java, Python, Node.js, C++, Ruby
Leistung von Analyseworkloads Optimierte Leistung für parallele Analyseworkloads, hohen Durchsatz und hohe IOPS Nicht für Analyseworkloads optimiert.
Größenbeschränkungen Keine Beschränkungen für Kontogrößen, Dateigrößen oder die Anzahl von Dateien. Die geltenden Einschränkungen sind hier
Georedundanz Lokal redundant (lokal redundanter Speicher (LRS)), global redundant (georedundanter Speicher (GRS)), global redundanter Lesezugriff (georedundanter Speicher mit Lesezugriff (RA-GRS)), zonenredundant (zonenredundanter Speicher (ZRS)) Lokal redundant (LRS), global redundant (GRS), global redundant mit Lesezugriff (RA-GRS), zonenredundant (ZRS). Weitere Informationen finden Sie unter Azure Storage-Redundanz.

NoSQL-Datenbankfunktionen

Funktion Azure Cosmos DB HBase in HDInsight
Primäres Datenbankmodell Dokumentspeicher, Diagramm, Schlüssel-Wert-Speicherung, Wide Columnstore Wide Columnstore
Sekundäre Indizes Ja Nein
SQL-Sprachunterstützung Ja Ja (mit dem Phoenix-JDBC-Treiber)
Konsistenz Stark, begrenzte Veraltung, Sitzung, Präfixkonsistenz, letztlich STARK (Strong)
Native Azure Functions-Integration Ja Nein
Automatische globale Verteilung Ja Nein. Die HBase-Clusterreplikation kann regionsübergreifend mit letztlicher Konsistenz konfiguriert werden.
Preismodell Flexibel skalierbare Anforderungseinheiten (Request Units, RUs), die nach Bedarf pro Sekunde berechnet werden; flexibel skalierbarer Speicher Minutenpreise für HDInsight-Cluster (horizontale Skalierung von Knoten), Speicher

Funktionen analytischer Datenbanken

Funktion Azure-Daten-Explorer
Primäres Datenbankmodell Relationaler Speicher (Spaltenspeicher), Telemetrie- und Zeitreihenspeicher
SQL-Sprachunterstützung Ja
Preismodell Elastisch skalierbare Clusterinstanzen
Authentifizierung Basierend auf Microsoft Entra-Identitäten
Verschlüsselung ruhender Daten Unterstützt, kundenseitig verwaltete Schlüssel
Leistung von Analyseworkloads Optimierte Leistung für parallele Analyseworkloads
Größenbeschränkungen Linear skalierbar

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautor:

Nächste Schritte