Auswählen eines Analysedatenspeichers in Azure

2025-05-23

In einer Big Data-Architektur ist häufig ein Analysedatenspeicher erforderlich, der verarbeitete Daten in einem strukturierten Format bedient, das mithilfe von Analysetools abgefragt werden kann. Analytische Datenspeicher, die das Abfragen von Hot-Path- und Cold-Path-Daten unterstützen, werden zusammen als Dienstebene oder Datenspeicher bezeichnet.

Die Dienstschicht handhabt verarbeitete Daten sowohl vom heißen Pfad als auch vom kalten Pfad. In der Lambda-Architektur wird die Serving-Schicht in zwei Schichten unterteilt. Die Geschwindigkeitsbereitstellungsebene enthält die inkrementell verarbeiteten Daten. Die Batchverarbeitungsebene enthält die batchverarbeitete Ausgabe. Die Dienstebene erfordert eine starke Unterstützung für zufällige Lesevorgänge mit geringer Latenz. Die Datenspeicherung für die Geschwindigkeitsschicht sollte auch zufällige Schreibvorgänge unterstützen, da beim Laden von Daten in diesen Speicher unerwünschte Verzögerungen auftreten. Alternativ muss die Datenspeicherung für die Batchschicht Batchschreibvorgänge unterstützen, nicht zufällige Schreibvorgänge.

Es gibt keine einzige beste Datenverwaltungsoption für alle Datenspeicherungsaufgaben. Verschiedene Datenverwaltungslösungen sind für unterschiedliche Aufgaben optimiert. Die meisten realen Cloud-Apps und Big Data-Prozesse weisen unterschiedliche Anforderungen an die Datenspeicherung auf und verwenden häufig eine Kombination aus Datenspeicherlösungen.

Moderne analytische Lösungen wie Microsoft Fabric bieten eine umfassende Plattform, die verschiedene Datendienste und Tools integriert, um vielfältige analytische Anforderungen zu erfüllen. Fabric enthält OneLake, bei dem es sich um einen einzigen, einheitlichen, logischen Datensee für Ihre gesamte Organisation handelt. OneLake wurde entwickelt, um alle Organisationsdaten an einem Ort zu speichern, zu verwalten und zu schützen. Diese Flexibilität ermöglicht Es Ihrer Organisation, eine vielzahl von Anforderungen an die Datenspeicherung und -verarbeitung zu erfüllen.

Auswählen eines Analysedatenspeichers

Es gibt mehrere Optionen für die Datenbereitstellungsspeicherung in Azure. Dies richtet sich nach Ihren jeweiligen Anforderungen:

Die folgenden Datenbankmodelle sind für verschiedene Aufgabentypen optimiert:

Schlüsselwertdatenbanken speichern ein einzelnes serialisiertes Objekt für jeden Schlüsselwert. Sie eignen sich gut zum Verwalten großer Datenmengen, wenn der Abruf auf einem bestimmten Schlüssel basiert, ohne andere Elementeigenschaften abfragen zu müssen.
Dokumentdatenbanken sind Schlüsselwertdatenbanken, in denen es sich bei den Werten um Dokumente handelt. In diesem Zusammenhang ist ein Dokument eine Auflistung benannter Felder und Werte. In der Datenbank werden die Daten in der Regel in einem Format wie XML, YAML, JSON oder binärem JSON gespeichert, es kann jedoch Nur-Text verwendet werden. Dokumentdatenbanken können Abfragen nach Nichtschlüsselfeldern durchführen und sekundäre Indizes definieren, um die Abfrageeffizienz zu verbessern. Diese Funktion macht eine Dokumentdatenbank für Anwendungen besser geeignet, die Daten basierend auf Kriterien abrufen müssen, die komplexer sind als der Wert des Dokumentschlüssels. Sie können beispielsweise Abfragen für Felder wie Produkt-ID, Kunden-ID oder Kundenname durchführen.
Spaltenspeicherdatenbanken sind Schlüsselwert-Datenspeicher, die jede Spalte separat auf dem Datenträger speichern. Eine breite Spaltenspeicherdatenbank ist eine Art von Spaltenspeicherdatenbank, die Spaltenfamilien speichert, nicht nur einzelne Spalten. Eine Statistische Datenbank kann z. B. eine separate Spaltenfamilie für jedes der folgenden Elemente aufweisen:
- Vorname, zweiter Vorname und Nachname einer Person
- Adresse dieser Person
- Profilinformationen dieser Person, z. B. ihr Geburtsdatum oder Geschlecht
In der Datenbank kann jede Spaltenfamilie auf einer separaten Partition gespeichert werden, während alle Daten für eine Person demselben Schlüssel zugeordnet bleiben. Eine Anwendung kann eine einzelne Spaltenfamilie lesen, ohne alle Daten für eine Entität zu scannen.
Graph-Datenbanken speichern Informationen als Sammlung von Objekten und Beziehungen. Eine Diagrammdatenbank kann auf effiziente Weise Abfragen durchführen, die das Netzwerk der Objekte und die dazugehörigen Beziehungen durchlaufen. Die Objekte können beispielsweise Mitarbeiter in einer Personalverwaltungsdatenbank sein, und Sie können Abfragen der Art „Alle Mitarbeiter ermitteln, die direkt oder indirekt für Stephan arbeiten“ durchführen.
Telemetrie- und Zeitreihendatenbanken sind nur zum Anfügen gedachte Sammlungen von Objekten. Telemetriedatenbanken indizieren Daten effizient in verschiedenen Spaltenspeichern und In-Memory-Strukturen. Diese Funktion macht sie zur optimalen Wahl, um große Mengen an Telemetrie- und Zeitreihendaten zu speichern und zu analysieren.

Fabric unterstützt verschiedene Datenbankmodelle, einschließlich Schlüsselwert-, Dokument-, Spaltenspeicher-, Graph- und Telemetriedatenbanken. Diese Flexibilität sorgt für Skalierbarkeit für eine vielzahl analytischer Aufgaben.

Wichtige Auswahlkriterien

Berücksichtigen Sie die folgenden Kriterien, um den Auswahlprozess zu verfeinern:

Benötigen Sie Bereitstellungsspeicher, der als langsamster Pfad (Hot Path) für Ihre Daten dienen kann? Wenn ja, können Sie sich auf die Optionen beschränken, die für eine Ebene für die schnelle Bereitstellung optimiert sind.
Benötigen Sie massive parallele Verarbeitungsunterstützung, bei der Abfragen automatisch über mehrere Prozesse oder Knoten verteilt werden? Wenn ja, sollten Sie eine Option wählen, die die horizontale Skalierung für Abfragen unterstützt.
Bevorzugen Sie die Verwendung eines relationalen Datenspeichers? Wenn Sie dies tun, schränken Sie Ihre Optionen auf diejenigen ein, die über ein relationales Datenbankmodell verfügen. Einige nichtrelationale Speicher unterstützen jedoch die SQL-Syntax für Abfragen, und Tools wie PolyBase können zum Abfragen nichtrelationaler Datenspeicher verwendet werden.
Sammeln Sie Zeitreihendaten? Verwenden Sie nur zum Anfügen gedachte Daten?

Fabric OneLake unterstützt mehrere Analysemodule, einschließlich Analysis Services, T-SQL und Apache Spark. Diese Unterstützung eignet sich für verschiedene Datenverarbeitungs- und Abfrageanforderungen.

Funktionsmatrix

In den folgenden Tabellen sind die Hauptunterschiede der Funktionen zusammengefasst:

Allgemeine Funktionen

Fähigkeit	SQL-Datenbank	SQL-Pool von Azure Synapse Analytics	Azure Synapse Analytics Spark-Pool	Azure-Daten-Explorer	Apache HBase oder Apache Phoenix auf HDInsight	Hive LLAP in HDInsight	Analyse-Services	Azure Cosmos DB (ein Microsoft-Datenbankdienst)	Stoff
Ist ein verwalteter Dienst?	Ja	Ja	Ja	Ja	Ja ¹	Ja ¹	Ja	Ja	Ja
Primäres Datenbankmodell	Relational (Spaltenspeicherformat bei Verwendung von Spaltenspeicherindizes)	Relationale Tabellen mit Spaltenspeicher	Wide Columnstore	Relationaler Speicher (Spaltenspeicher), Telemetrie und Zeitreihenspeicher	Wide Columnstore	Hive oder In-Memory	Tabellarische Semantikmodelle	Dokumentspeicher, Diagramm, Schlüssel-Wert-Speicherung, Wide Columnstore	Unified Data Lake, relational, Telemetrie, Zeitreihe, Dokumentspeicher, Graph, Schlüsselwertspeicher
SQL-Sprachunterstützung	Ja	Ja	Ja	Ja	Ja (mit Apache Phoenix Java Database Connectivity-Treiber)	Ja	Keine	Ja	Ja
Optimiert für Ebene für schnelle Bereitstellung	Ja²	Ja ³	Ja	Ja	Ja	Ja	Keine	Ja	Ja

[1] Mit manueller Konfiguration und Skalierung

Verwendung von speicheroptimierten Tabellen und Hash- oder nicht gruppierten Indizes.

[3] Unterstützt als Azure Stream Analytics-Ausgabe

Skalierbarkeitsfunktionen

Fähigkeit	SQL-Datenbank	SQL-Pool von Azure Synapse Analytics	Azure Synapse Analytics Spark-Pool	Azure-Daten-Explorer	Apache HBase oder Apache Phoenix auf HDInsight	Hive LLAP in HDInsight	Analyse-Services	Azure Cosmos DB (ein Microsoft-Datenbankdienst)	Stoff
Redundante regionale Server für Hochverfügbarkeit	Ja	Keine	Keine	Ja	Ja	Keine	Ja	Ja	Ja
Unterstützung der horizontalen Skalierung von Abfragen	Keine	Ja	Ja	Ja	Ja	Ja	Ja	Ja	Ja
Dynamische Skalierbarkeit (Hochskalieren)	Ja	Ja	Ja	Ja	Keine	Keine	Ja	Ja	Ja
Unterstützung der speicherinternen Zwischenspeicherung von Daten	Ja	Ja	Ja	Ja	Keine	Ja	Ja	Keine	Ja

Sicherheitsfunktionen

Fähigkeit	SQL-Datenbank	Azure Synapse Analytics	Azure-Daten-Explorer	Apache HBase oder Apache Phoenix auf HDInsight	Hive LLAP in HDInsight	Analyse-Services	Azure Cosmos DB (ein Microsoft-Datenbankdienst)	Stoff
Authentifizierung	SQL oder Microsoft Entra ID	SQL oder Microsoft Entra ID	Microsoft Entra ID	Lokale oder Microsoft Entra-Identität ¹	Lokale oder Microsoft Entra-Identität ¹	Microsoft Entra ID	Datenbankbenutzer oder Microsoft Entra-ID über Zugriffssteuerung (Identitäts- und Zugriffsverwaltung)	Microsoft Entra ID
Datenverschlüsselung ruhender Daten	Ja²	Ja²	Ja	Ja ¹	Ja ¹	Ja	Ja	Ja
Zeilenbasierte Sicherheit	Ja	Ja ³	Ja	Ja ¹	Ja ¹	Ja	Keine	Ja
Unterstützung von Firewalls	Ja	Ja	Ja	Ja ⁴	Ja ⁴	Ja	Ja	Ja
Dynamische Datenmaskierung	Ja	Ja	Ja	Ja ¹	Ja	Keine	Keine	Ja

[1] Erfordert, dass Sie einen in die Domäne eingebundenen HDInsight-Cluster verwenden.

[2] Erfordert, dass Sie die transparente Datenverschlüsselung verwenden, um Ihre Daten im Ruhezustand zu verschlüsseln und zu entschlüsseln.

[3] Nur Filterprädikate. Weitere Informationen finden Sie unter Sicherheit auf Zeilenebene.

[4] Bei Verwendung in einem virtuellen Azure-Netzwerk. Weitere Informationen finden Sie unter Erweitern von HDInsight mithilfe eines virtuellen Azure-Netzwerks.

Freigeben über

Auswählen eines Analysedatenspeichers in Azure

Auswählen eines Analysedatenspeichers

Wichtige Auswahlkriterien

Funktionsmatrix

Allgemeine Funktionen

Skalierbarkeitsfunktionen

Sicherheitsfunktionen

Nächste Schritte

Zugehörige Ressourcen

Feedback

Zusätzliche Ressourcen