Freigeben über


Auswählen eines Analysedatenspeichers in Azure

In einer Big Data-Architektur ist häufig ein Analysedatenspeicher erforderlich, der verarbeitete Daten in einem strukturierten Format bedient, das mithilfe von Analysetools abgefragt werden kann. Analytische Datenspeicher, die das Abfragen von Hot-Path- und Cold-Path-Daten unterstützen, werden zusammen als Dienstebene oder Datenspeicher bezeichnet.

Die Dienstschicht handhabt verarbeitete Daten sowohl vom heißen Pfad als auch vom kalten Pfad. In der Lambda-Architektur wird die Serving-Schicht in zwei Schichten unterteilt. Die Geschwindigkeitsbereitstellungsebene enthält die inkrementell verarbeiteten Daten. Die Batchverarbeitungsebene enthält die batchverarbeitete Ausgabe. Die Dienstebene erfordert eine starke Unterstützung für zufällige Lesevorgänge mit geringer Latenz. Die Datenspeicherung für die Geschwindigkeitsschicht sollte auch zufällige Schreibvorgänge unterstützen, da beim Laden von Daten in diesen Speicher unerwünschte Verzögerungen auftreten. Alternativ muss die Datenspeicherung für die Batchschicht Batchschreibvorgänge unterstützen, nicht zufällige Schreibvorgänge.

Es gibt keine einzige beste Datenverwaltungsoption für alle Datenspeicherungsaufgaben. Verschiedene Datenverwaltungslösungen sind für unterschiedliche Aufgaben optimiert. Die meisten realen Cloud-Apps und Big Data-Prozesse weisen unterschiedliche Anforderungen an die Datenspeicherung auf und verwenden häufig eine Kombination aus Datenspeicherlösungen.

Moderne analytische Lösungen wie Microsoft Fabric bieten eine umfassende Plattform, die verschiedene Datendienste und Tools integriert, um vielfältige analytische Anforderungen zu erfüllen. Fabric enthält OneLake, bei dem es sich um einen einzigen, einheitlichen, logischen Datensee für Ihre gesamte Organisation handelt. OneLake wurde entwickelt, um alle Organisationsdaten an einem Ort zu speichern, zu verwalten und zu schützen. Diese Flexibilität ermöglicht Es Ihrer Organisation, eine vielzahl von Anforderungen an die Datenspeicherung und -verarbeitung zu erfüllen.

Auswählen eines Analysedatenspeichers

Es gibt mehrere Optionen für die Datenbereitstellungsspeicherung in Azure. Dies richtet sich nach Ihren jeweiligen Anforderungen:

Die folgenden Datenbankmodelle sind für verschiedene Aufgabentypen optimiert:

  • Schlüsselwertdatenbanken speichern ein einzelnes serialisiertes Objekt für jeden Schlüsselwert. Sie eignen sich gut zum Verwalten großer Datenmengen, wenn der Abruf auf einem bestimmten Schlüssel basiert, ohne andere Elementeigenschaften abfragen zu müssen.

  • Dokumentdatenbanken sind Schlüsselwertdatenbanken, in denen es sich bei den Werten um Dokumente handelt. In diesem Zusammenhang ist ein Dokument eine Auflistung benannter Felder und Werte. In der Datenbank werden die Daten in der Regel in einem Format wie XML, YAML, JSON oder binärem JSON gespeichert, es kann jedoch Nur-Text verwendet werden. Dokumentdatenbanken können Abfragen nach Nichtschlüsselfeldern durchführen und sekundäre Indizes definieren, um die Abfrageeffizienz zu verbessern. Diese Funktion macht eine Dokumentdatenbank für Anwendungen besser geeignet, die Daten basierend auf Kriterien abrufen müssen, die komplexer sind als der Wert des Dokumentschlüssels. Sie können beispielsweise Abfragen für Felder wie Produkt-ID, Kunden-ID oder Kundenname durchführen.

  • Spaltenspeicherdatenbanken sind Schlüsselwert-Datenspeicher, die jede Spalte separat auf dem Datenträger speichern. Eine breite Spaltenspeicherdatenbank ist eine Art von Spaltenspeicherdatenbank, die Spaltenfamilien speichert, nicht nur einzelne Spalten. Eine Statistische Datenbank kann z. B. eine separate Spaltenfamilie für jedes der folgenden Elemente aufweisen:

    • Vorname, zweiter Vorname und Nachname einer Person

    • Adresse dieser Person

    • Profilinformationen dieser Person, z. B. ihr Geburtsdatum oder Geschlecht

    In der Datenbank kann jede Spaltenfamilie auf einer separaten Partition gespeichert werden, während alle Daten für eine Person demselben Schlüssel zugeordnet bleiben. Eine Anwendung kann eine einzelne Spaltenfamilie lesen, ohne alle Daten für eine Entität zu scannen.

  • Graph-Datenbanken speichern Informationen als Sammlung von Objekten und Beziehungen. Eine Diagrammdatenbank kann auf effiziente Weise Abfragen durchführen, die das Netzwerk der Objekte und die dazugehörigen Beziehungen durchlaufen. Die Objekte können beispielsweise Mitarbeiter in einer Personalverwaltungsdatenbank sein, und Sie können Abfragen der Art „Alle Mitarbeiter ermitteln, die direkt oder indirekt für Stephan arbeiten“ durchführen.

  • Telemetrie- und Zeitreihendatenbanken sind nur zum Anfügen gedachte Sammlungen von Objekten. Telemetriedatenbanken indizieren Daten effizient in verschiedenen Spaltenspeichern und In-Memory-Strukturen. Diese Funktion macht sie zur optimalen Wahl, um große Mengen an Telemetrie- und Zeitreihendaten zu speichern und zu analysieren.

Fabric unterstützt verschiedene Datenbankmodelle, einschließlich Schlüsselwert-, Dokument-, Spaltenspeicher-, Graph- und Telemetriedatenbanken. Diese Flexibilität sorgt für Skalierbarkeit für eine vielzahl analytischer Aufgaben.

Wichtige Auswahlkriterien

Berücksichtigen Sie die folgenden Kriterien, um den Auswahlprozess zu verfeinern:

  • Benötigen Sie Bereitstellungsspeicher, der als langsamster Pfad (Hot Path) für Ihre Daten dienen kann? Wenn ja, können Sie sich auf die Optionen beschränken, die für eine Ebene für die schnelle Bereitstellung optimiert sind.

  • Benötigen Sie massive parallele Verarbeitungsunterstützung, bei der Abfragen automatisch über mehrere Prozesse oder Knoten verteilt werden? Wenn ja, sollten Sie eine Option wählen, die die horizontale Skalierung für Abfragen unterstützt.

  • Bevorzugen Sie die Verwendung eines relationalen Datenspeichers? Wenn Sie dies tun, schränken Sie Ihre Optionen auf diejenigen ein, die über ein relationales Datenbankmodell verfügen. Einige nichtrelationale Speicher unterstützen jedoch die SQL-Syntax für Abfragen, und Tools wie PolyBase können zum Abfragen nichtrelationaler Datenspeicher verwendet werden.

  • Sammeln Sie Zeitreihendaten? Verwenden Sie nur zum Anfügen gedachte Daten?

Fabric OneLake unterstützt mehrere Analysemodule, einschließlich Analysis Services, T-SQL und Apache Spark. Diese Unterstützung eignet sich für verschiedene Datenverarbeitungs- und Abfrageanforderungen.

Funktionsmatrix

In den folgenden Tabellen sind die Hauptunterschiede der Funktionen zusammengefasst:

Allgemeine Funktionen

Fähigkeit SQL-Datenbank SQL-Pool von Azure Synapse Analytics Azure Synapse Analytics Spark-Pool Azure-Daten-Explorer Apache HBase oder Apache Phoenix auf HDInsight Hive LLAP in HDInsight Analyse-Services Azure Cosmos DB (ein Microsoft-Datenbankdienst) Stoff
Ist ein verwalteter Dienst? Ja Ja Ja Ja Ja 1 Ja 1 Ja Ja Ja
Primäres Datenbankmodell Relational (Spaltenspeicherformat bei Verwendung von Spaltenspeicherindizes) Relationale Tabellen mit Spaltenspeicher Wide Columnstore Relationaler Speicher (Spaltenspeicher), Telemetrie und Zeitreihenspeicher Wide Columnstore Hive oder In-Memory Tabellarische Semantikmodelle Dokumentspeicher, Diagramm, Schlüssel-Wert-Speicherung, Wide Columnstore Unified Data Lake, relational, Telemetrie, Zeitreihe, Dokumentspeicher, Graph, Schlüsselwertspeicher
SQL-Sprachunterstützung Ja Ja Ja Ja Ja (mit Apache Phoenix Java Database Connectivity-Treiber) Ja Keine Ja Ja
Optimiert für Ebene für schnelle Bereitstellung Ja2 Ja 3 Ja Ja Ja Ja Keine Ja Ja

[1] Mit manueller Konfiguration und Skalierung

Verwendung von speicheroptimierten Tabellen und Hash- oder nicht gruppierten Indizes.

[3] Unterstützt als Azure Stream Analytics-Ausgabe

Skalierbarkeitsfunktionen

Fähigkeit SQL-Datenbank SQL-Pool von Azure Synapse Analytics Azure Synapse Analytics Spark-Pool Azure-Daten-Explorer Apache HBase oder Apache Phoenix auf HDInsight Hive LLAP in HDInsight Analyse-Services Azure Cosmos DB (ein Microsoft-Datenbankdienst) Stoff
Redundante regionale Server für Hochverfügbarkeit Ja Keine Keine Ja Ja Keine Ja Ja Ja
Unterstützung der horizontalen Skalierung von Abfragen Keine Ja Ja Ja Ja Ja Ja Ja Ja
Dynamische Skalierbarkeit (Hochskalieren) Ja Ja Ja Ja Keine Keine Ja Ja Ja
Unterstützung der speicherinternen Zwischenspeicherung von Daten Ja Ja Ja Ja Keine Ja Ja Keine Ja

Sicherheitsfunktionen

Fähigkeit SQL-Datenbank Azure Synapse Analytics Azure-Daten-Explorer Apache HBase oder Apache Phoenix auf HDInsight Hive LLAP in HDInsight Analyse-Services Azure Cosmos DB (ein Microsoft-Datenbankdienst) Stoff
Authentifizierung SQL oder Microsoft Entra ID SQL oder Microsoft Entra ID Microsoft Entra ID Lokale oder Microsoft Entra-Identität 1 Lokale oder Microsoft Entra-Identität 1 Microsoft Entra ID Datenbankbenutzer oder Microsoft Entra-ID über Zugriffssteuerung (Identitäts- und Zugriffsverwaltung) Microsoft Entra ID
Datenverschlüsselung ruhender Daten Ja2 Ja2 Ja Ja 1 Ja 1 Ja Ja Ja
Zeilenbasierte Sicherheit Ja Ja 3 Ja Ja 1 Ja 1 Ja Keine Ja
Unterstützung von Firewalls Ja Ja Ja Ja 4 Ja 4 Ja Ja Ja
Dynamische Datenmaskierung Ja Ja Ja Ja 1 Ja Keine Keine Ja

[1] Erfordert, dass Sie einen in die Domäne eingebundenen HDInsight-Cluster verwenden.

[2] Erfordert, dass Sie die transparente Datenverschlüsselung verwenden, um Ihre Daten im Ruhezustand zu verschlüsseln und zu entschlüsseln.

[3] Nur Filterprädikate. Weitere Informationen finden Sie unter Sicherheit auf Zeilenebene.

[4] Bei Verwendung in einem virtuellen Azure-Netzwerk. Weitere Informationen finden Sie unter Erweitern von HDInsight mithilfe eines virtuellen Azure-Netzwerks.

Nächste Schritte