Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
In einer Big Data-Architektur ist häufig ein Analysedatenspeicher erforderlich, der verarbeitete Daten in einem strukturierten Format bedient, das mithilfe von Analysetools abgefragt werden kann. Analytische Datenspeicher, die das Abfragen von Hot-Path- und Cold-Path-Daten unterstützen, werden zusammen als Dienstebene oder Datenspeicher bezeichnet.
Die Dienstschicht handhabt verarbeitete Daten sowohl vom heißen Pfad als auch vom kalten Pfad. In der Lambda-Architektur wird die Serving-Schicht in zwei Schichten unterteilt. Die Geschwindigkeitsbereitstellungsebene enthält die inkrementell verarbeiteten Daten. Die Batchverarbeitungsebene enthält die batchverarbeitete Ausgabe. Die Dienstebene erfordert eine starke Unterstützung für zufällige Lesevorgänge mit geringer Latenz. Die Datenspeicherung für die Geschwindigkeitsschicht sollte auch zufällige Schreibvorgänge unterstützen, da beim Laden von Daten in diesen Speicher unerwünschte Verzögerungen auftreten. Alternativ muss die Datenspeicherung für die Batchschicht Batchschreibvorgänge unterstützen, nicht zufällige Schreibvorgänge.
Es gibt keine einzige beste Datenverwaltungsoption für alle Datenspeicherungsaufgaben. Verschiedene Datenverwaltungslösungen sind für unterschiedliche Aufgaben optimiert. Die meisten realen Cloud-Apps und Big Data-Prozesse weisen unterschiedliche Anforderungen an die Datenspeicherung auf und verwenden häufig eine Kombination aus Datenspeicherlösungen.
Moderne analytische Lösungen wie Microsoft Fabric bieten eine umfassende Plattform, die verschiedene Datendienste und Tools integriert, um vielfältige analytische Anforderungen zu erfüllen. Fabric enthält OneLake, bei dem es sich um einen einzigen, einheitlichen, logischen Datensee für Ihre gesamte Organisation handelt. OneLake wurde entwickelt, um alle Organisationsdaten an einem Ort zu speichern, zu verwalten und zu schützen. Diese Flexibilität ermöglicht Es Ihrer Organisation, eine vielzahl von Anforderungen an die Datenspeicherung und -verarbeitung zu erfüllen.
Auswählen eines Analysedatenspeichers
Es gibt mehrere Optionen für die Datenbereitstellungsspeicherung in Azure. Dies richtet sich nach Ihren jeweiligen Anforderungen:
- Stoff
- Azure Synapse Analytics
- Azure Synapse Analytics Spark Pools
- Azure Databricks
- Azure Data Explorer
- Azure SQL-Datenbank
- SQL Server auf einer Azure-VM
- Apache HBase und Apache Phoenix auf Azure HDInsight
- Apache Hive Low Latency Analytical Processing (LLAP) in Azure HDInsight
- Azure Analysis Services
- Azure Cosmos DB
Die folgenden Datenbankmodelle sind für verschiedene Aufgabentypen optimiert:
Schlüsselwertdatenbanken speichern ein einzelnes serialisiertes Objekt für jeden Schlüsselwert. Sie eignen sich gut zum Verwalten großer Datenmengen, wenn der Abruf auf einem bestimmten Schlüssel basiert, ohne andere Elementeigenschaften abfragen zu müssen.
Dokumentdatenbanken sind Schlüsselwertdatenbanken, in denen es sich bei den Werten um Dokumente handelt. In diesem Zusammenhang ist ein Dokument eine Auflistung benannter Felder und Werte. In der Datenbank werden die Daten in der Regel in einem Format wie XML, YAML, JSON oder binärem JSON gespeichert, es kann jedoch Nur-Text verwendet werden. Dokumentdatenbanken können Abfragen nach Nichtschlüsselfeldern durchführen und sekundäre Indizes definieren, um die Abfrageeffizienz zu verbessern. Diese Funktion macht eine Dokumentdatenbank für Anwendungen besser geeignet, die Daten basierend auf Kriterien abrufen müssen, die komplexer sind als der Wert des Dokumentschlüssels. Sie können beispielsweise Abfragen für Felder wie Produkt-ID, Kunden-ID oder Kundenname durchführen.
Spaltenspeicherdatenbanken sind Schlüsselwert-Datenspeicher, die jede Spalte separat auf dem Datenträger speichern. Eine breite Spaltenspeicherdatenbank ist eine Art von Spaltenspeicherdatenbank, die Spaltenfamilien speichert, nicht nur einzelne Spalten. Eine Statistische Datenbank kann z. B. eine separate Spaltenfamilie für jedes der folgenden Elemente aufweisen:
Vorname, zweiter Vorname und Nachname einer Person
Adresse dieser Person
Profilinformationen dieser Person, z. B. ihr Geburtsdatum oder Geschlecht
In der Datenbank kann jede Spaltenfamilie auf einer separaten Partition gespeichert werden, während alle Daten für eine Person demselben Schlüssel zugeordnet bleiben. Eine Anwendung kann eine einzelne Spaltenfamilie lesen, ohne alle Daten für eine Entität zu scannen.
Graph-Datenbanken speichern Informationen als Sammlung von Objekten und Beziehungen. Eine Diagrammdatenbank kann auf effiziente Weise Abfragen durchführen, die das Netzwerk der Objekte und die dazugehörigen Beziehungen durchlaufen. Die Objekte können beispielsweise Mitarbeiter in einer Personalverwaltungsdatenbank sein, und Sie können Abfragen der Art „Alle Mitarbeiter ermitteln, die direkt oder indirekt für Stephan arbeiten“ durchführen.
Telemetrie- und Zeitreihendatenbanken sind nur zum Anfügen gedachte Sammlungen von Objekten. Telemetriedatenbanken indizieren Daten effizient in verschiedenen Spaltenspeichern und In-Memory-Strukturen. Diese Funktion macht sie zur optimalen Wahl, um große Mengen an Telemetrie- und Zeitreihendaten zu speichern und zu analysieren.
Fabric unterstützt verschiedene Datenbankmodelle, einschließlich Schlüsselwert-, Dokument-, Spaltenspeicher-, Graph- und Telemetriedatenbanken. Diese Flexibilität sorgt für Skalierbarkeit für eine vielzahl analytischer Aufgaben.
Wichtige Auswahlkriterien
Berücksichtigen Sie die folgenden Kriterien, um den Auswahlprozess zu verfeinern:
Benötigen Sie Bereitstellungsspeicher, der als langsamster Pfad (Hot Path) für Ihre Daten dienen kann? Wenn ja, können Sie sich auf die Optionen beschränken, die für eine Ebene für die schnelle Bereitstellung optimiert sind.
Benötigen Sie massive parallele Verarbeitungsunterstützung, bei der Abfragen automatisch über mehrere Prozesse oder Knoten verteilt werden? Wenn ja, sollten Sie eine Option wählen, die die horizontale Skalierung für Abfragen unterstützt.
Bevorzugen Sie die Verwendung eines relationalen Datenspeichers? Wenn Sie dies tun, schränken Sie Ihre Optionen auf diejenigen ein, die über ein relationales Datenbankmodell verfügen. Einige nichtrelationale Speicher unterstützen jedoch die SQL-Syntax für Abfragen, und Tools wie PolyBase können zum Abfragen nichtrelationaler Datenspeicher verwendet werden.
Sammeln Sie Zeitreihendaten? Verwenden Sie nur zum Anfügen gedachte Daten?
Fabric OneLake unterstützt mehrere Analysemodule, einschließlich Analysis Services, T-SQL und Apache Spark. Diese Unterstützung eignet sich für verschiedene Datenverarbeitungs- und Abfrageanforderungen.
Funktionsmatrix
In den folgenden Tabellen sind die Hauptunterschiede der Funktionen zusammengefasst:
Allgemeine Funktionen
Fähigkeit | SQL-Datenbank | SQL-Pool von Azure Synapse Analytics | Azure Synapse Analytics Spark-Pool | Azure-Daten-Explorer | Apache HBase oder Apache Phoenix auf HDInsight | Hive LLAP in HDInsight | Analyse-Services | Azure Cosmos DB (ein Microsoft-Datenbankdienst) | Stoff |
---|---|---|---|---|---|---|---|---|---|
Ist ein verwalteter Dienst? | Ja | Ja | Ja | Ja | Ja 1 | Ja 1 | Ja | Ja | Ja |
Primäres Datenbankmodell | Relational (Spaltenspeicherformat bei Verwendung von Spaltenspeicherindizes) | Relationale Tabellen mit Spaltenspeicher | Wide Columnstore | Relationaler Speicher (Spaltenspeicher), Telemetrie und Zeitreihenspeicher | Wide Columnstore | Hive oder In-Memory | Tabellarische Semantikmodelle | Dokumentspeicher, Diagramm, Schlüssel-Wert-Speicherung, Wide Columnstore | Unified Data Lake, relational, Telemetrie, Zeitreihe, Dokumentspeicher, Graph, Schlüsselwertspeicher |
SQL-Sprachunterstützung | Ja | Ja | Ja | Ja | Ja (mit Apache Phoenix Java Database Connectivity-Treiber) | Ja | Keine | Ja | Ja |
Optimiert für Ebene für schnelle Bereitstellung | Ja2 | Ja 3 | Ja | Ja | Ja | Ja | Keine | Ja | Ja |
[1] Mit manueller Konfiguration und Skalierung
Verwendung von speicheroptimierten Tabellen und Hash- oder nicht gruppierten Indizes.
[3] Unterstützt als Azure Stream Analytics-Ausgabe
Skalierbarkeitsfunktionen
Fähigkeit | SQL-Datenbank | SQL-Pool von Azure Synapse Analytics | Azure Synapse Analytics Spark-Pool | Azure-Daten-Explorer | Apache HBase oder Apache Phoenix auf HDInsight | Hive LLAP in HDInsight | Analyse-Services | Azure Cosmos DB (ein Microsoft-Datenbankdienst) | Stoff |
---|---|---|---|---|---|---|---|---|---|
Redundante regionale Server für Hochverfügbarkeit | Ja | Keine | Keine | Ja | Ja | Keine | Ja | Ja | Ja |
Unterstützung der horizontalen Skalierung von Abfragen | Keine | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja |
Dynamische Skalierbarkeit (Hochskalieren) | Ja | Ja | Ja | Ja | Keine | Keine | Ja | Ja | Ja |
Unterstützung der speicherinternen Zwischenspeicherung von Daten | Ja | Ja | Ja | Ja | Keine | Ja | Ja | Keine | Ja |
Sicherheitsfunktionen
Fähigkeit | SQL-Datenbank | Azure Synapse Analytics | Azure-Daten-Explorer | Apache HBase oder Apache Phoenix auf HDInsight | Hive LLAP in HDInsight | Analyse-Services | Azure Cosmos DB (ein Microsoft-Datenbankdienst) | Stoff |
---|---|---|---|---|---|---|---|---|
Authentifizierung | SQL oder Microsoft Entra ID | SQL oder Microsoft Entra ID | Microsoft Entra ID | Lokale oder Microsoft Entra-Identität 1 | Lokale oder Microsoft Entra-Identität 1 | Microsoft Entra ID | Datenbankbenutzer oder Microsoft Entra-ID über Zugriffssteuerung (Identitäts- und Zugriffsverwaltung) | Microsoft Entra ID |
Datenverschlüsselung ruhender Daten | Ja2 | Ja2 | Ja | Ja 1 | Ja 1 | Ja | Ja | Ja |
Zeilenbasierte Sicherheit | Ja | Ja 3 | Ja | Ja 1 | Ja 1 | Ja | Keine | Ja |
Unterstützung von Firewalls | Ja | Ja | Ja | Ja 4 | Ja 4 | Ja | Ja | Ja |
Dynamische Datenmaskierung | Ja | Ja | Ja | Ja 1 | Ja | Keine | Keine | Ja |
[1] Erfordert, dass Sie einen in die Domäne eingebundenen HDInsight-Cluster verwenden.
[2] Erfordert, dass Sie die transparente Datenverschlüsselung verwenden, um Ihre Daten im Ruhezustand zu verschlüsseln und zu entschlüsseln.
[3] Nur Filterprädikate. Weitere Informationen finden Sie unter Sicherheit auf Zeilenebene.
[4] Bei Verwendung in einem virtuellen Azure-Netzwerk. Weitere Informationen finden Sie unter Erweitern von HDInsight mithilfe eines virtuellen Azure-Netzwerks.
Nächste Schritte
- Analysieren von Daten in einem relationalen Data Warehouse
- Erstellen einer einzelnen Datenbank in der SQL-Datenbank
- Erstellen eines Azure Databricks-Arbeitsbereichs
- Erstellen eines Apache Spark-Clusters in HDInsight mithilfe des Azure-Portals
- Erstellen eines Azure Synapse Analytics-Arbeitsbereichs
- Erkunden der Azure-Datendienste für moderne Analysen
- Einführung in Azure-Datenbank- und Analysedienste
- Abfragen von Azure Cosmos BD mithilfe der API für NoSQL