Freigeben über


Speichern von Daten in Microsoft Fabric

Microsoft Fabric bietet mehrere Speicheroptionen zur Unterstützung von Analysen, Echtzeitverarbeitungen und betrieblichen Berichten innerhalb einer einheitlichen Plattform. Wenn Sie die richtige Speichererfahrung auswählen, können Sie die Leistung optimieren, Kosten verwalten und Ihre Datenarchitektur an workloadanforderungen anpassen. Unabhängig von der Quelle oder Vorbereitungsmethode landen alle Daten in einer einheitlichen Speicher-Foundation namens OneLake.

In diesem Artikel wird erläutert, wie Daten in Fabric gespeichert und die verfügbaren Kernspeicherfunktionen beschrieben werden. Die folgenden Abschnitte umfassen:

  • OneLake – Der einheitliche, logische Datensee, der alle Fabric-Workloads untermauert.
  • Lakehouse – Speichern und analysieren Sie strukturierte und unstrukturierte Daten mithilfe von Delta-Tabellen.
  • Warehouse – Relationale Daten speichern, die für leistungsstarke SQL-Analysen optimiert sind.
  • Eventhouse – Speichern und Abfragen von Daten mit hohem Volumen und Echtzeitereignissen.
  • Datenbanken und andere Speicherfunktionen – Verstehen zusätzlicher Speicherfunktionen, die in Fabric verfügbar sind.

Verwenden Sie diese Übersicht, um zu verstehen, wie jede Speicheroption funktioniert, und wählen Sie die beste Option für Ihre analytischen und betrieblichen Szenarien aus.

Lakehouse für flexible Datenspeicherung

Ein Lakehouse ist ein Kernspeicherelement in Fabric, das OneLake zum Speichern von Daten in Datei- und Tabellenformaten verwendet. Ein Lakehouse stellt eine kuratierte Ordnerstruktur in OneLake dar und enthält eine SQL-Schnittstelle. Ein Lakehouse speichert Daten als Delta-Parquet-Dateien. Sie können Rohdateien wie CSV-Dateien oder Bilder in Ordnern organisieren und verwaltete Delta-Tabellen für strukturierte Daten erstellen. Dieses Modell unterstützt sowohl strukturierte als auch unstrukturierte Daten in derselben Umgebung.

Fabric stellt automatisch einen SQL-Analyseendpunkt für jeden Lakehouse-Endpunkt fest. Sie und Tools wie Power BI können Delta-Tabellen mithilfe von Transact-SQL abfragen, als ob sie eine relationale Datenbank abfragen. Das Lakehouse kombiniert die Skalierbarkeit und Flexibilität eines Data Lake mit kernigen Lagerfunktionen, einschließlich direkter Tabellenabfragen und Schemaverwaltung.

Lager für strukturierte Analysen

Ein Warehouse in Fabric bietet eine herkömmliche SQL Data Warehouse-Erfahrung (mit Tabellen, SQL-Ansichten, gespeicherten Prozeduren und mehr) im einheitlichen Speicher von Fabric. Wenn Sie ein Warehouse erstellen, speichert es Daten im Delta-Format als organisierter Satz von Delta-Tabellen mit einer ANSI SQL-Schnittstelle oben in OneLake. Das Warehouse bietet dedizierte Rechenleistung und optimierte Leistung für komplexe SQL-Abfragen und Arbeitslasten im BI-Stil. Es unterstützt Features wie Indizierung, gespeicherte Prozeduren und robuste ACID-Transaktionen in Tabellen.

Das Warehouse und Lakehouse haben den gleichen zugrunde liegenden OneLake-Speicher. Sie können sie bei Bedarf mithilfe von Tastenkombinationen oder anderen Interoperabilitätsfeatures integrieren. Sie behalten sie jedoch in der Regel für unterschiedliche Anwendungsfälle getrennt. Das Warehouse eignet sich ideal für strukturierte, relationale Sternschemadaten, die Sie mit SQL analysieren und bearbeiten können. Sie können Fabric-Pipelines verwenden, um Daten in das Warehouse zu laden. Power BI kann mithilfe von Direct Lake oder DirectQuery eine Verbindung herstellen, um Daten ohne Import abzurufen.

Entscheidungsleitfaden: Lakehouse vs. Warehouse

Lagerhäuser und Lakehouses dienen unterschiedlichen, aber ergänzenden Rollen.

  • Lagerhäuser sind für strukturierte, unternehmensweite Data Warehouses mit vollständiger T-SQL-Unterstützung, ACID-Transaktionen und starker Schemaerzwingung optimiert – ideal für BI und Berichterstellung. Wählen Sie ein Warehouse für geregelte, leistungsstarke SQL-Workloads und ein Lakehouse für die Big Data-Verarbeitung, explorative Analyse und Szenarien aus, die unterschiedliche Datenformate oder die Integration externer Lakes umfassen.

  • Lakehouses bieten flexible, skalierbare Speicherung sowohl für strukturierte als auch unstrukturierte Daten, die Spark-basierte Datentechnik und schreibgeschützte SQL-Analysen über automatische Endpunkte unterstützen.

Viele Organisationen profitieren von der gemeinsamen Nutzung von Datalakehouses für Datenaufnahme und Transformation sowie Datenwarehouses für verfeinerte Analysen und Berichte. Weitere Informationen finden Sie im Entscheidungsleitfaden.

Gespiegelte Datenbanken für nahezu echtzeitnahe Datenbankreplikation

Eine gespiegelte Datenbank in Fabric ist eine fortlaufend replizierte Kopie einer externen Betriebsdatenbank, z. B. Azure SQL-Datenbank, SQL Server, Azure Cosmos DB oder Snowflake. Fabric speichert gespiegelte Daten im Delta Lake-Format in OneLake.

Durch spiegelung werden Quelländerungen in Fabric nahezu in Echtzeit synchronisiert, ohne dass herkömmliche Extrakte, Transformationen, Lastpipelines erforderlich sind. Nach der Replikation werden die Daten sofort über SQL-Endpunkte abfragbar und sind über Fabric-Workloads verfügbar, einschließlich Power BI, Spark-Notizbücher und Pipelines.

Diese Architektur unterstützt hybride Transaktions- und Analyseverarbeitungsszenarien (HTAP), in denen Sie Betriebsdaten analysieren und gleichzeitig die Systemintegrität des Quellsystems beibehalten.

Eventhouse für Echtzeitereignisanalysen

Ein Eventhouse bietet eine skalierbare Echtzeitanalyseumgebung, die für das Aufnehmen, Speichern und Analysieren hoher Mengen von Ereignisdaten konzipiert ist. Es ist das grundlegende Modul für Real-Time Intelligence-Workloads.

Ein Eventhouse hostet eine oder mehrere Kusto Query Language-Datenbanken, die auf der Kusto-Engine basieren. Diese Datenbanken indizieren und partitionieren Daten automatisch nach Erfassungszeit. Sie abfragen Daten mithilfe der Kusto-Abfragesprache.

Eventhouse eignet sich gut für Telemetrie, Sicherheitsprotokolle, Compliancedatensätze und Finanztransaktionen, bei denen Analysen mit geringer Latenz und eine hohe Erfassung erforderlich sind.

SQL-Datenbank für Transaktionsworkloads

SQL-Datenbanken in Fabric unterstützen Transaktions- und Betriebsanalyseworkloads. Sie bieten eine vollständig verwaltete relationale Datenbankerfahrung mit Unterstützung für T-SQL, einschließlich Datendefinitionsfunktionen (Data Definition, DML), Manipulation (DML) und Abfragefunktionen (DQL). Sie können gespeicherte Prozeduren, Ansichten und Funktionen verwenden, um Transaktions- und Analyselösungen zu erstellen.

SQL-Datenbanken verwenden einen automatischen Spiegelungsdienst , um Transaktionstabellen in OneLake für Analysen zu replizieren. Wenn Sie eine SQL-Datenbank erstellen, startet Fabric eine Replikations-Engine, die Einfüge-, Aktualisierungs- und Löschvorgänge über den SQL-Engine-Änderungsfeed erfasst und diese Änderungen als Delta-Parquet-Dateien in OneLake schreibt. Die Replikation erfolgt in nahezu Echtzeit und wird automatisch gestartet. Alle unterstützten Tabellen werden standardmäßig gespiegelt. Dieses Verhalten stellt sicher, dass die OneLake-Kopie mit der betriebstechnischen Datenbank synchronisiert bleibt.

SQL-Datenbanken sind in andere Fabric-Umgebungen wie Power BI, Notizbücher, Benutzerdatenfunktionen, Pipelines und externe Tools über das TDS-Protokoll integriert. Mit dieser Integration können Sie End-to-End-Lösungen erstellen, von der Datenaufnahme und Transformation bis hin zur Visualisierung und Berichterstellung, ohne die Fabric-Umgebung verlassen zu müssen. Die Plattform behandelt automatisch die Indizierung und Leistungsoptimierung, sodass Sie die Infrastruktur nicht manuell optimieren oder verwalten müssen.

Cosmos DB für verteilte NoSQL-Workloads

Cosmos DB in Microsoft Fabric ist eine vollständig verwaltete, verteilte NoSQL-Datenbank, die für hochdurchsatzreiche und global verteilte Anwendungen entwickelt wurde. Es unterstützt flexible Schemamodelle und halbstrukturierte JSON-Daten.

Cosmos DB wird automatisch in OneLake im Delta-Format gespiegelt, um Analysen zu unterstützen, ohne die betriebliche Leistung zu beeinträchtigen. Die Replikation ist kontinuierlich und in Echtzeit und erfordert keine manuelle Konfiguration.

Nach der Replikation werden Daten über einen SQL-Analyseendpunkt zugänglich. Sie können Daten mithilfe von Transact-SQL abfragen, Ansichten erstellen und in Power BI, Notizbücher und Pipelines integrieren.

Der SQL-Analyseendpunkt stellt eine schreibgeschützte Schnittstelle zu den gespiegelten Daten bereit, wodurch sichergestellt wird, dass analytische Abfragen keine Transaktionsvorgänge beeinträchtigen. Diese Architektur unterstützt die hybride transaktions- und analytische Verarbeitung (HTAP), sodass Sie operative und analytische Workloads innerhalb einer einzigen Plattform vereinheitlichen können.

Semantisches Modell für Geschäftslogik und Berichterstellung

Semantische Modelle stellen die strukturierte, kuratierte Ebene bereit, die Geschäftslogik, Measures, Hierarchien, Beziehungen und Metadaten über Rohdaten in Microsoft Fabric definiert. Sie machen Daten auf der gesamten Plattform für Analyseerfahrungen interpretierbar und wiederverwendbar.

Semantische Modelle in Fabric sind eng in das Kapazitätsmodell und die Arbeitsbereichsstruktur der Plattform integriert. Semantische Modelle unterstützen drei Abfragemodi: Import, DirectQuery und Direct Lake. Jeder Modus bietet unterschiedliche Kompromisse zwischen Leistung, Aktualität und Skalierbarkeit:

  • Der Importmodus kopiert Daten aus der Quelle während geplanter oder manueller Aktualisierungen in das Semantikmodell. Dieser Modus bietet die schnellste Abfrageleistung, da Power BI auf Speicherdaten ausgeführt wird, aber es führt zu Latenzen zwischen Quellupdates und Berichtssichtbarkeit. Der Importmodus eignet sich ideal für Hochleistungsdashboards, bei denen Echtzeitdaten nicht kritisch sind.

  • Der DirectQuery-Modus sendet Abfragen direkt zur Laufzeit an das Quellsystem, ohne Daten im semantischen Modell zu speichern. Dieser Ansatz stellt aktuelle Ergebnisse sicher, kann jedoch je nach Reaktionsgeschwindigkeit des Quellsystems zu einer verringerten Leistung führen. DirectQuery eignet sich für Szenarien, in denen die Aktualität von Daten wichtiger ist als Geschwindigkeit, z. B. die betriebliche Berichterstellung.

  • Im Direct Lake-Modus kann Power BI Delta-Tabellen abfragen, die direkt in OneLake gespeichert sind. Es kombiniert die Leistungsmerkmale von Import mit der Aktualität von DirectQuery. Es vermeidet Datenduplizierung und verwendet die lake-native Architektur für skalierbare echtzeitbasierte Analysen. Direct Lake wird für umfangreiche Analysen von Daten empfohlen, die von Fabric verwaltet werden.

Semantische Modelle ermöglichen auch unterhaltungsbezogene KI, semantische Suche, Unternehmensberichte und domänenübergreifendes Denken, indem erweiterte Features wie Fabric Data Agents, Power BI Copilot, Ontologies und Power BI-Berichte zusammengeführt werden. Geschäftsbenutzer können auch über Excel auf semantische Modelle zugreifen, in denen sie Daten und Erkenntnisse in einer PivotTable-Schnittstelle untersuchen können, die Livedaten aus dem semantischen Modell verwendet.

Entscheidungsleitfaden: Auswählen des richtigen Datenspeichers

Microsoft Fabric bietet mehrere Datenspeicheroptionen, die jeweils für bestimmte Workloads optimiert sind:

  • Lakehouse für groß angelegte Datentechnik und Open-Format-Speicher wie Delta und Iceberg mit Unterstützung für Spark- und SQL-Engines.
  • Datenlager für strukturierte, relationale Analysen mit leistungsstarken SQL-Funktionen und Enterprise Reporting.
  • Eventhouse für Echtzeit-Telemetrie- und Protokollanalysen mithilfe der Kusto-Abfragesprache.
  • SQL-Datenbank für Transaktionsworkloads und Betriebsanalysen.
  • Cosmos DB für global verteilte NoSQL-Anwendungen, Multimodellanwendungen mit Zugriff auf geringer Latenz.

Die Auswahl des entsprechenden Speichers hängt von der Datenstruktur, den Latenzanforderungen, der Abfragekomplexität und den Integrationsanforderungen ab. Weitere Anleitungen finden Sie unter Auswählen des richtigen Stores.