Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
In diesem Artikel werden Datenspeicheroptionen für Big Data-Lösungen verglichen – insbesondere Datenspeicher für die Massendatenerfassung und Batchverarbeitung (im Gegensatz zu Analysedatenspeichern oder Streamingerfassung in Echtzeit).
Welche Datenspeicheroptionen stehen in Azure zur Verfügung?
Daten können auf verschiedene Arten in Azure erfasst werden. Für welche Option Sie sich entscheiden, hängt ganz von Ihren Anforderungen ab.
Einheitlicher logischer Data Lake:
Dateispeicher:
NoSQL-Datenbanken:
Analytische Datenbanken:
OneLake in Fabric
OneLake in Fabric ist ein einheitlicher und logischer Data Lake, der auf die gesamte Organisation zugeschnitten ist. Er dient als zentraler Hub für alle Analysedaten und ist in jedem Microsoft Fabric-Mandanten enthalten. OneLake in Fabric basiert auf der Grundlage von Data Lake Storage Gen2.
OneLake in Fabric:
- unterstützt strukturierte und unstrukturierte Dateitypen.
- speichert alle tabellarischen Daten im Delta Parquet-Format.
- stellt einen einzelnen Data Lake innerhalb von Mandantengrenzen bereit, der standardmäßig gesteuert wird.
- unterstützt die Erstellung von Arbeitsbereichen innerhalb eines Mandanten, sodass eine Organisation Besitz- und Zugriffsrichtlinien verteilen kann.
- unterstützt die Erstellung verschiedener Datenelemente, z. B. Lakehouses und Warehouses, über die Sie auf Daten zugreifen können.
OneLake in Fabric dient als gemeinsamer Speicherort für Erfassung, Transformation, Echtzeiterkenntnisse und Business Intelligence-Visualisierungen. Er zentralisiert verschiedene Fabric-Dienste und speichert Datenelemente, die von allen Workloads in Fabric verwendet werden. Informationen dazu, wie Sie den passenden Datenspeicher für Ihre Fabric-Workloads auswählen, finden Sie unter Microsoft Fabric-Entscheidungsleitfaden: Auswählen eines Datenspeichers.
Azure Storage-Blobs
Azure Storage ist ein verwalteter, hochverfügbarer, sicherer, stabiler, skalierbarer und redundanter Speicherdienst. Microsoft übernimmt die Wartung und behandelt kritische Probleme für Sie. Die große Menge von Diensten und Tools, die mit dieser Lösung verwendet werden können, macht Azure Storage zur am weitesten verbreiteten Speicherlösung von Azure.
Für die Datenspeicherung stehen verschiedene Azure Storage-Dienste zur Verfügung. Die flexibelste Option zum Speichern von Blobs aus vielen Datenquellen ist Blob Storage. Blobs sind im Grunde Dateien. Sie eignen sich unter anderem zum Speichern von Bildern, Dokumenten, HTML-Dateien, virtuellen Festplatten (Virtual Hard Disks, VHDs) und Big Data wie Protokollen und Datenbanksicherungen. Blobs werden in Containern gespeichert, die Ordnern ähneln. Ein Container bietet eine Gruppierung von Blobs. Ein Speicherkonto kann eine unbegrenzte Anzahl von Containern enthalten, und in einem Container kann eine unbegrenzte Anzahl von Blobs gespeichert werden.
Azure Storage ist flexibel, hochverfügbar und kostengünstig – und somit eine gute Wahl für Big Data- und Analyselösungen. Die Lösung bietet eine heiße und eine kalte Speicherebene sowie eine Archivspeicherebene für verschiedene Anwendungsfälle. Weitere Informationen finden Sie unter Azure Blob Storage: Speicherebenen „Heiß“ (Hot), „Kalt“ (Cool) und „Archiv“.
Auf Azure Blob Storage kann über Hadoop (verfügbar über HDInsight) zugegriffen werden. In HDInsight kann ein Blobcontainer in Azure Storage als Standarddateisystem für den Cluster verwendet werden. Über eine durch einen WASB-Treiber bereitgestellte Hadoop Distributed File System (HDFS)-Schnittstelle können sämtliche Komponenten in HDInsight direkt mit strukturierten oder unstrukturierten Daten arbeiten, die als Blobs gespeichert sind. Auf Azure Blob Storage kann auch über das PolyBase-Feature von Azure Synapse Analytics zugegriffen werden.
Darüber hinaus sprechen folgende Features für Azure Storage:
- Mehrere Parallelitätsstrategien.
- Optionen für Notfallwiederherstellung und Hochverfügbarkeit
- Verschlüsselung von ruhenden Daten
- Rollenbasierte Zugriffssteuerung in Azure (RBAC) zum Steuern des Zugriffs mithilfe von Microsoft Entra-Benutzern und -Gruppen
Data Lake Storage Gen2
Data Lake Storage Gen2 ist ein einzelnes, zentralisiertes Repository, in dem Sie alle Ihre Daten speichern können, sowohl strukturierte als auch unstrukturierte. Mit einem Data Lake kann Ihre Organisation eine Vielzahl von Daten schnell und einfach an einem zentralen Ort speichern, darauf zugreifen und sie analysieren. Mit einem Data Lake müssen Sie Ihre Daten nicht an eine vorhandene Struktur anpassen. Stattdessen können Sie Ihre Daten im Rohformat oder nativen Format speichern, in der Regel als Dateien oder als Binary Large Objects (Blobs).
Data Lake Storage Gen2 vereint die Funktionen von Azure Data Lake Storage Gen1 und Azure Blob Storage. Beispielsweise bietet Data Lake Storage Gen2 Dateisystemsemantik, Sicherheit auf Dateiebene und Skalierung. Da diese Funktionen auf Blob Storage basieren, profitieren Sie gleichzeitig von kostengünstigem, mehrstufigem Speicher mit Hochverfügbarkeit und Notfallwiederherstellungsfunktionen.
Mit Data Lake Storage Gen2 wird Azure Storage zur Grundlage für das Erstellen von Enterprise Data Lakes in Azure. Data Lake Storage Gen2 wurde eigens für die Verarbeitung mehrerer Petabyte an Informationen bei gleichzeitiger Unterstützung eines Durchsatzes von Hunderten von Gigabit konzipiert und bietet Ihnen eine einfache Möglichkeit, riesige Datenmengen zu verwalten.
Azure Cosmos DB (ein Microsoft-Datenbankdienst)
Azure Cosmos DB ist eine global verteilte Datenbank von Microsoft mit mehreren Modellen. Azure Cosmos DB garantiert Latenzzeiten im einstelligen Millisekundenbereich im 99. Perzentil weltweit, bietet mehrere gut definierte Konsistenzoptionen zur Leistungsoptimierung und garantiert hohe Verfügbarkeit mit Multihoming-Fähigkeiten.
Azure Cosmos DB ist schemaunabhängig. Die Lösung indiziert automatisch alle Daten, sodass Sie sich nicht mit der Schema- und Indexverwaltung befassen müssen. Außerdem unterstützt sie nativ mehrere Datenmodelle wie Dokumente, Schlüssel-Wert-Paare, Diagramme und spaltenbasierte Daten.
Features von Azure Cosmos DB:
- Georeplikation
- Flexible Skalierung für Durchsatz und Speicher weltweit
- Fünf wohl definierte Konsistenzebenen
HBase auf HDInsight
Apache HBase ist eine Open-Source-NoSQL-Datenbank, die auf Hadoop basiert und nach dem Vorbild von Google BigTable erstellt wurde. HBase bietet wahlfreien Zugriff und starke Konsistenz für große Mengen unstrukturierter und teilweise strukturierter Daten in einer schemalosen Datenbank, die nach Spaltenfamilien gegliedert ist.
Daten werden in den Zeilen einer Tabelle gespeichert und die Daten in einer Zeile zu einer Spaltenfamilie zusammengefasst. HBase ist insofern schemalos, als weder die Spalten noch der Typ der darin gespeicherten Daten vor der Verwendung definiert werden müssen. Der Open-Source-Code lässt sich linear skalieren, sodass Petabytes von Daten auf Tausenden von Knoten verarbeitet werden können. HBase kann sich auf Datenredundanz, Stapelverarbeitung und andere Funktionen verlassen, die von verteilten Anwendungen im Hadoop-Ökosystem bereitgestellt werden.
Die HDInsight-Implementierung verwendet die horizontal skalierte Architektur von HBase für ein automatisches Sharding von Tabellen, eine robuste Konsistenz bei Lese- und Schreibvorgängen sowie ein automatisches Failover. Die Leistung wird durch speicherinterne Zwischenspeicherung für Lesevorgänge und Schreibvorgänge mit hohem Durchsatz optimiert. In den meisten Fällen sollten Sie den HBase-Cluster in einem virtuellen Netzwerk erstellen, damit andere HDInsight-Cluster und Anwendungen direkt auf die Tabellen zugreifen können.
Azure-Daten-Explorer
Azure Data Explorer ist ein schneller und hochgradig skalierbarer Dienst zur Untersuchung von Protokoll- und Telemetriedaten. Er bietet die Möglichkeit, zahlreiche Datenströme moderner Software zu verarbeiten, um Daten zu sammeln, zu speichern und zu analysieren. Azure-Daten-Explorer ist ideal zum Analysieren von großen Mengen unterschiedlicher Daten aus beliebigen Datenquellen geeignet, z.B. Websites, Anwendungen, IoT-Geräte und mehr. Diese Daten werden für die Diagnose, Überwachung, Berichterstellung, Machine Learning und weitere Analysefunktionen verwendet. Azure Data Explorer ermöglicht das einfache Erfassen dieser Daten, und Sie können komplexe ungeplante Abfragen der Daten innerhalb von Sekunden ausführen.
Azure Data Explorer kann linear aufskaliert werden, um den Durchsatz bei der Erfassung und Abfrageverarbeitung zu erhöhen. Ein Azure Data Explorer-Cluster kann in einem virtuellen Netzwerk bereitgestellt werden, um private Netzwerke zu unterstützen.
Wichtige Auswahlkriterien
Beantworten Sie die folgenden Fragen, um die Auswahl einzuschränken:
Benötigen Sie einen einheitlichen Data Lake mit Multicloudunterstützung, stabiler Governance und nahtloser Integration in Analysetools? Falls ja, entscheiden Sie sich für OneLake in Fabric für vereinfachte Datenverwaltung und verbesserte Zusammenarbeit.
Benötigen Sie verwalteten, cloudbasierten Hochgeschwindigkeitsspeicher für Text- oder Binärdaten? Falls ja, entscheiden Sie sich für eine der Dateispeicher- oder Analyseoptionen.
Benötigen Sie Dateispeicher, der für parallele Analyseworkloads und hohen Durchsatz/hohe IOPS optimiert ist? Falls ja, entscheiden Sie sich für eine Option, deren Leistung für Analyseworkloads optimiert ist.
Müssen Sie unstrukturierte oder teilweise strukturierte Daten in einer schemalosen Datenbank speichern? Falls ja, entscheiden Sie sich für eine der nicht relationalen Optionen oder Analyseoptionen. Vergleichen Sie die Optionen für die Indizierung und die Datenbankmodelle. Abhängig von der Art der Daten, die Sie speichern möchten, sind die primären Datenbankmodelle unter Umständen der wichtigste Faktor.
Können Sie den Dienst in Ihrer Region verwenden? Überprüfen Sie die regionale Verfügbarkeit der einzelnen Azure-Dienste. Weitere Informationen finden Sie unter Verfügbare Produkte nach Region.
Funktionsmatrix
In den folgenden Tabellen sind die Hauptunterschiede der Funktionen zusammengefasst:
OneLake in Fabric-Funktionen
Fähigkeit | OneLake in Fabric |
---|---|
Einheitlicher Data Lake | Bereitstellung eines einzigen, einheitlichen Data Lakes für die gesamte Organisation, wodurch Datensilos eliminiert werden |
Multicloudunterstützung | Unterstützung von Integration in und Kompatibilität mit verschiedenen Cloudplattformen |
Datenverwaltung | Enthält Funktionen wie Datenherkunft, Datenschutz, Zertifizierung und Katalogintegration |
Zentraler Datenhub | Zentraler Hub für die Datenermittlung und -verwaltung |
Unterstützung für die Analyse-Engine | Kompatibilität mit mehreren Analyse-Engines. Diese Kompatibilität ermöglicht es verschiedenen Tools und Technologien, dieselben Daten zu verarbeiten. |
Sicherheit und Konformität | Sorgt dafür, dass vertrauliche Daten geschützt bleiben und der Zugriff nur auf autorisierte Benutzer beschränkt ist |
Einfache Bedienung | Stellt ein benutzerfreundliches Design bereit, das automatisch für jeden Fabric-Mandanten verfügbar ist und keine Einrichtung erfordert |
Skalierbarkeit | Kann große Datenmengen aus verschiedenen Quellen verarbeiten |
Dateispeicherfunktionen
Fähigkeit | Data Lake Storage Gen2 | Azure Blob Storage-Container |
---|---|---|
Zweck | Optimierter Speicher für Big Data-Analyseworkloads | Universell einsetzbarer Objektspeicher für eine Vielzahl von Speicherszenarien |
Anwendungsfälle | Batch-, Streaming Analytics- und Machine Learning-Daten wie Protokolldateien, IoT-Daten, Clickstreams, große Datasets | Jede Art von Text- oder Binärdaten, beispielsweise Daten des Anwendungs-Back-Ends, Sicherungsdaten, Medienspeicher für Streaming und universelle Daten |
Struktur | Hierarchisches Dateisystem | Objektspeicher mit flachem Namespace |
Authentifizierung | Basierend auf Microsoft Entra-Identitäten | Basierend auf gemeinsam genutzten Geheimnissen – Kontozugriffsschlüssel, Shared Access Signature-Schlüssel und rollenbasierte Zugriffssteuerung in Azure (Azure Role-Based Access Control, Azure RBAC) |
Authentifizierungsprotokoll | Open Authorization (OAuth) 2.0. Aufrufe müssen ein gültiges, über Microsoft Entra ID ausgestelltes JSON Web Token (JWT) enthalten. | Hash-basierter Nachrichten-Authentifizierungscode (HMAC). Aufrufe müssen einen Base64-codierten SHA-256-Hash über einen Teil der HTTP-Anforderung enthalten. |
Autorisierung | POSIX-Zugriffssteuerungslisten (ACLs; Portable Operating System Interface) Auf Microsoft Entra-Identitäten basierende Zugriffssteuerungslisten (Access Control List, ACL) können auf Datei- und Ordnerebene festgelegt werden. | Verwenden Sie Zugriffsschlüssel für die Autorisierung auf Kontoebene. Verwenden Sie Shared Access Signature-Schlüssel für die Konto-, Container- oder Blobautorisierung. |
Überwachung | Verfügbar. | Verfügbar |
Verschlüsselung ruhender Daten | Transparent, serverseitig | Transparent, serverseitig; clientseitige Verschlüsselung |
Entwickler-SDKs | .NET, Java, Python, Node.js | .NET, Java, Python, Node.js, C++, Ruby |
Leistung von Analyseworkloads | Optimierte Leistung für parallele Analyseworkloads, hohen Durchsatz und hohe IOPS | Nicht für Analyseworkloads optimiert. |
Größenbeschränkungen | Keine Beschränkungen für Kontogrößen, Dateigrößen oder die Anzahl von Dateien. | Die spezifischen Grenzen sind hier dokumentiert. |
Georedundanz | Lokal redundant (lokal redundanter Speicher (LRS)), global redundant (global redundanter Speicher (GRS)), Lesezugriff auf global redundanten Speicher (Lesezugriff auf georedundanten Speicher (RA-GRS)), zonenredundant (zonenredundanter Speicher (ZRS)). | Lokal redundant (LRS), global redundant (GRS), global redundant mit Lesezugriff (RA-GRS), zonenredundant (ZRS). Weitere Informationen finden Sie unter Azure Storage-Redundanz. |
NoSQL-Datenbankfunktionen
Fähigkeit | Azure Cosmos DB (ein Microsoft-Datenbankdienst) | HBase auf HDInsight |
---|---|---|
Primäres Datenbankmodell | Dokumentspeicher, Diagramm, Schlüssel-Wert-Speicherung, Wide Columnstore | Wide Columnstore |
Sekundäre Indizes | Ja | Nein |
SQL-Sprachunterstützung | Ja | Ja (mit dem Phoenix-JDBC-Treiber) |
Konsistenz | Stark, begrenzte Veraltung, Sitzung, Präfixkonsistenz, letztlich | STARK (Strong) |
Native Azure Functions-Integration | Ja | Nein |
Automatische globale Verteilung | Ja | Nein. Die HBase-Clusterreplikation kann regionsübergreifend mit letztlicher Konsistenz konfiguriert werden. |
Preismodell | Flexibel skalierbare Anforderungseinheiten (Request Units, RUs), die nach Bedarf pro Sekunde berechnet werden; flexibel skalierbarer Speicher | Minutenpreise für HDInsight-Cluster (horizontale Skalierung von Knoten), Speicher |
Funktionen analytischer Datenbanken
Fähigkeit | Azure-Daten-Explorer |
---|---|
Primäres Datenbankmodell | Relationaler Speicher (Spaltenspeicher), Telemetrie- und Zeitreihenspeicher |
SQL-Sprachunterstützung | Ja |
Preismodell | Elastisch skalierbare Clusterinstanzen |
Authentifizierung | Basierend auf Microsoft Entra-Identitäten |
Verschlüsselung ruhender Daten | Unterstützte vom Kunden verwaltete Schlüssel |
Leistung von Analyseworkloads | Optimierte Leistung für parallele Analyseworkloads |
Größenbeschränkungen | Linear skalierbar |
Beitragende
Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:
Hauptautor:
- Zoiner Tejada | CEO und Architekt
Nächste Schritte
- Was ist Fabric?
- Einführung in End-to-End-Analysen mit Microsoft Fabric
- Azure Cloud Storage-Lösungen und -Dienste
- Überprüfen Ihrer Speicheroptionen
- Einführung in Azure Storage
- Einführung in Azure Data Explorer