Grundlagen zu Analysedatenspeichern
Es gibt zwei gängige Arten von Analysedatenspeichern.
Data Warehouses
Ein Data Warehouse ist eine relationale Datenbank, in der die Daten in einem Schema gespeichert werden, das für Datenanalysen und nicht für transaktionsbezogene Workloads optimiert ist. Häufig werden die Daten aus einem Transaktionsspeicher in ein Schema umgewandelt, in dem numerische Werte in zentralen Faktentabellen gespeichert werden, die mit einer oder mehreren Dimensionstabellen zusammenhängen, die Entitäten darstellen, mit denen die Daten aggregiert werden können. Eine Faktentabelle kann beispielsweise Auftragsdaten enthalten, die nach Kunden-, Produkt-, Geschäfts- und Zeitdimensionen aggregiert werden können (sodass Sie beispielsweise den monatlichen Gesamtumsatz nach Produkt für jedes Geschäft leicht ermitteln können). Diese Art von Fakten- und Dimensionstabellenschema wird als Sternschema bezeichnet; häufig wird es jedoch in ein Schneeflockenschema erweitert, indem zusätzliche Tabellen hinzugefügt werden, die sich auf die Dimensionstabellen beziehen, um dimensionale Hierarchien darzustellen (zum Beispiel könnte ein Produkt mit Produktkategorien verknüpft sein). Ein Data Warehouse ist eine gute Wahl, wenn Sie über Transaktionsdaten verfügen, die in einem strukturierten Schema von Tabellen organisiert werden können, und Sie SQL verwenden möchten, um sie abzufragen.
Data Lakes
Ein Data Lake ist ein Dateispeicher, in der Regel auf einem verteilten Dateisystem für einen leistungsfähigen Datenzugriff. Häufig werden Technologien wie Spark oder Hadoop verwendet, um Abfragen für die gespeicherten Dateien zu verarbeiten und Daten für Berichte und Analysen zurückzugeben. Diese Systeme wenden häufig einen Schema-on-Read-Ansatz an, um tabellarische Schemas für semistrukturierte Datendateien an dem Punkt zu definieren, an dem die Daten zur Analyse gelesen werden, ohne Einschränkungen anzuwenden, wenn sie gespeichert werden. Data Lakes eignen sich besonders gut zur Unterstützung von strukturierten, teilweise strukturierten und sogar unstrukturierten Daten, die analysiert werden sollen, ohne dass beim Schreiben der Daten in den Speicher eine Schemaerzwingung erforderlich ist.
Hybridansätze
Sie können einen Hybridansatz verwenden, der Features von Datenseen und Data Warehouses in einem Data Lakehouse kombiniert. Die Rohdaten werden als Dateien in einem Data Lake gespeichert, und SQL-Analyseendpunkte in Microsoft Fabric machen sie als Tabellen verfügbar, die mit SQL abgefragt werden können. Wenn Sie ein Lakehouse mit Microsoft Fabric erstellen, wird automatisch ein SQL-Analyseendpunkt erstellt. Data Lakehouses sind ein relativ neuer Ansatz in Spark-basierten Systemen und werden durch Technologien wie Delta Lake ermöglicht; wodurch Spark relationale Speicherfunktionen hinzugefügt werden, sodass Sie Tabellen definieren können, die Schemas und Transaktionskonsistenz erzwingen, batchgeladene und Streamingdatenquellen unterstützen und eine SQL-API zum Abfragen bereitstellen.
Azure-Dienste für Analysespeicher
In Azure gibt es mehrere Dienste, mit denen Sie einen umfangreichen Analysespeicher implementieren können, u. a.:
Microsoft Fabric ist eine einheitliche End-to-End-Lösung für umfangreiche Datenanalysen. Die Lösung vereint mehrere Technologien und Fähigkeiten und kombiniert damit die Datenintegrität und Zuverlässigkeit eines skalierbaren, hochleistungsfähigen relationalen Data Warehouse auf der Basis von SQL Server mit der Flexibilität eines Data Lake und Open-Source Apache Spark. Außerdem bietet sie native Unterstützung für Protokoll- und Telemetrieanalysen mit Microsoft Fabric-Echtzeitintelligenz sowie integrierte Datenpipelines für die Datenerfassung und -transformation. Jede Microsoft Fabric-Produktoberfläche verfügt über eine eigene Startseite, z. B. Data Factory-Startseite. Jede Fabric-Startseite zeigt die Elemente an, die Sie erstellen und für die Sie die Berechtigung haben, sie aus allen Arbeitsbereichen zu verwenden, auf die Sie zugreifen. Microsoft Fabric ist eine gute Wahl, wenn Sie eine einzelne, vereinheitlichte Analyselösung erstellen möchten.
Azure Databricks ist eine Azure-Implementierung der beliebten Databricks-Plattform. Databricks ist eine umfassende Datenanalyselösung, die auf Apache Spark basiert und native SQL-Funktionen sowie workloadoptimierte Spark-Cluster für Datenanalysen und Data Science bereitstellt. Databricks bietet eine interaktive Benutzeroberfläche, über die das System verwaltet und Daten in interaktiven Notebooks analysiert werden können. Da Azure Databricks gerne auf verschiedenen Cloud-Plattformen verwendet wird, sollten Sie überlegen, ob es sinnvoll ist, Azure Databricks als Analysespeicher zu verwenden, wenn Sie bereits vorhandenes Fachwissen über die Plattform nutzen möchten oder wenn Sie in einer Umgebung mit mehreren Clouds arbeiten müssen oder eine cloudportierbare Lösung unterstützt werden soll.
Hinweis
Jeder dieser Dienste kann als analytischer Datenspeicher betrachtet werden, in dem Sinne, dass sie ein Schema und eine Schnittstelle bereitstellen, über die die Daten abgefragt werden können. In vielen Fällen werden die Daten jedoch tatsächlich in einem Datensee gespeichert, und der Dienst wird verwendet, um die Daten zu verarbeiten und Abfragen auszuführen. Bei einigen Lösungen wird möglicherweise sogar die Verwendung dieser Dienste kombiniert. Ein Datenextraktions-, Lade- und Transformationsprozess (ELT) kann Daten in den Datensee kopieren und dann einen dieser Dienste verwenden, um die Daten zu transformieren, und eine andere, um sie abzufragen. So kann beispielsweise eine Pipeline ein Notebook in Azure Databricks verwenden, um eine große Datenmenge im Data Lake zu verarbeiten und sie dann in Tabellen in einem Microsoft Fabric Warehouse zu laden.