Freigeben über


Data Warehousing und Analysen

Azure Data Lake Storage
Azure Cosmos DB
Azure Data Factory
Azure SQL-Datenbank
Azure Table Storage

In diesem Beispielszenario wird eine Datenpipeline veranschaulicht, die große Datenmengen aus mehreren Quellen in eine einheitliche Analyseplattform in Azure integriert. Dieses spezielle Szenario basiert zwar auf einer Lösung für Vertrieb und Marketing, die Entwurfsmuster sind jedoch für viele Branchen relevant, in denen erweiterte Analysen von umfangreichen Datasets benötigt werden. Hierzu zählen beispielsweise E-Commerce, Einzelhandel und Gesundheitswesen.

Aufbau

Architektur für ein Data Warehouse- und Analyseszenario in Azure

Laden Sie eine Visio-Datei dieser Architektur herunter.

Datenfluss

Die Daten durchlaufen die Lösung wie folgt:

  1. Aktualisierungen der einzelnen Datenquellen werden in regelmäßigen Abständen in einen Stagingbereich in Azure Data Lake Storage exportiert.
  2. Azure Data Factory lädt die Daten inkrementell aus Azure Data Lake Storage in Stagingtabellen in Azure Synapse Analytics. Dabei werden die Daten bereinigt und transformiert. PolyBase kann den Prozess für umfangreiche Datasets parallelisieren.
  3. Nachdem ein neuer Datenbatch in das Warehouse geladen wurde, wird ein zuvor erstelltes Azure Analysis Services-Tabellenmodell aktualisiert. Dieses Semantikmodell vereinfacht die Analyse von Geschäftsdaten und -beziehungen.
  4. Business Analysts verwenden Microsoft Power BI, um Warehouse-Daten unter Verwendung des Analysis Services-Semantikmodells zu analysieren.

Komponenten

Das Unternehmen verfügt über Datenquellen auf vielen verschiedenen Plattformen:

  • SQL Server (lokal)
  • Oracle (lokal)
  • Azure SQL-Datenbank
  • Azure Table Storage
  • Azure Cosmos DB (ein Microsoft-Datenbankdienst)

Daten werden aus diesen unterschiedlichen Datenquellen unter Verwendung verschiedener Azure-Komponenten geladen:

  • Azure Data Lake Storage wird verwendet, um Quelldaten zu stufen, bevor sie in Azure Synapse geladen werden.
  • Data Factory koordiniert die Transformation von mehrstufigen Daten in eine gemeinsame Struktur in Azure Synapse. Data Factory verwendet PolyBase beim Laden von Daten in Azure Synapse , um den Durchsatz zu maximieren.
  • Azure Synapse ist ein verteiltes System zum Speichern und Analysieren großer Datasets. Dank MPP (Massive Parallel Processing) eignet sich diese Komponente für Hochleistungsanalysen. Azure Synapse kann PolyBase verwenden, um Daten schnell aus Azure Data Lake Storage zu laden.
  • Analysis Services stellt ein semantisches Modell für Ihre Daten bereit. Darüber hinaus kann die Komponente die Systemleistung beim Analysieren Ihrer Daten erhöhen.
  • Power BI ist eine Suite von Business Analytics-Tools zum Analysieren von Daten und Zum Teilen von Erkenntnissen. Power BI kann ein in Analysis Services gespeichertes Semantikmodell oder direkt Azure Synapse abfragen.
  • Die Microsoft Entra-ID authentifiziert Benutzer, die über Power BI eine Verbindung mit dem Analysis Services-Server herstellen. Data Factory kann auch microsoft Entra-ID verwenden, um sich über einen Dienstprinzipal oder eine verwaltete Identität für Azure-Ressourcen bei Azure Synapse zu authentifizieren.

Alternativen

Szenariodetails

Das Unternehmen in diesem Beispiel ist im Bereich Vertrieb und Marketing tätig und entwickelt Anreizprogramme. Diese Programme dienen zur Belohnung von Kunden, Lieferanten, Verkäufern und Mitarbeitern. Die Programme sind auf Daten angewiesen, und das Unternehmen möchte mit Azure die per Datenanalyse gewonnenen Erkenntnisse verbessern.

Das Unternehmen benötigt einen modernen Ansatz für die Datenanalyse, um Entscheidungen zur richtigen Zeit und auf der Grundlage der richtigen Daten treffen zu können. Das Unternehmen hat folgende Ziele:

  • Kombinieren verschiedene Arten von Datenquellen in einer Cloudplattform
  • Transformieren von Quelldaten in eine allgemeine Taxonomie und Struktur, um die Daten konsistent zu machen und einfach vergleichen zu können
  • Laden von Daten unter Verwendung eines hochgradig parallelisierten Ansatzes, der Tausende von Anreizprogrammen unterstützt, aber ohne die hohen Kosten für die Bereitstellung und Pflege einer lokalen Infrastruktur
  • Deutliches Beschleunigen der Datenerfassung und -transformation, um sich auf die Analyse der Daten konzentrieren zu können

Mögliche Anwendungsfälle

Dieser Ansatz kann auch für folgende Zwecke verwendet werden:

  • Einrichten eines Data Warehouse als alleingültige Quelle für Ihre Daten
  • Integrieren relationaler Datenquellen in andere unstrukturierte Datasets
  • Verwenden von Semantikmodellen und leistungsstarken Visualisierungstools zur Vereinfachung der Datenanalyse

Überlegungen

Diese Überlegungen bilden die Säulen des Azure Well-Architected Framework, einer Reihe von Leitprinzipien, die Sie zur Verbesserung der Qualität eines Workloads verwenden können. Weitere Informationen finden Sie unter Well-Architected Framework.

Die Technologien in dieser Architektur wurden gewählt, da sie die Skalier- und Verfügbarkeitsanforderungen des Unternehmens erfüllen und das Unternehmen bei der Kostenkontrolle unterstützen.

Kostenoptimierung

Die Kostenoptimierung konzentriert sich auf Möglichkeiten, unnötige Ausgaben zu reduzieren und die betriebliche Effizienz zu verbessern. Weitere Informationen finden Sie in der Prüfliste für die Entwurfsüberprüfung für die Kostenoptimierung.

Überprüfen Sie ein Preisbeispiel für ein Data Warehouse-Szenario über den Azure-Preisrechner. Passen Sie die Werte an, um zu ermitteln, wie sich Ihre Anforderungen auf die Kosten auswirken.

  • Mit Azure Synapse können Sie Ihre Compute- und Speicherebenen unabhängig voneinander skalieren. Computeressourcen werden auf Stundenbasis abgerechnet und können nach Bedarf skaliert oder angehalten werden. Speicherressourcen werden nach Terabyte abgerechnet. Ihre Kosten steigen also, wenn Sie mehr Daten erfassen.
  • Data Factory-Kosten basieren auf der Anzahl der Lese-/Schreibvorgänge, Überwachungsvorgänge und Orchestrierungsaktivitäten, die in einer Workload ausgeführt werden. Die Kosten für Ihre Data Factory erhöhen sich mit jedem weiteren Datenstrom und der jeweils verarbeiteten Datenmenge.
  • Analysis Services ist in den Ebenen "Entwickler", "Standard" und "Standard" verfügbar. Die Preise der Instanzen basieren auf QPUs (Query Processing Units) und auf dem verfügbaren Arbeitsspeicher. Minimieren Sie die Anzahl ausgeführter Abfragen, den Umfang der durch die Abfragen verarbeiteten Daten sowie die Ausführungshäufigkeit dieser Abfragen, um die Kosten gering zu halten.
  • Power BI verfügt über unterschiedliche Produktoptionen für unterschiedliche Anforderungen. Power BI Embedded bietet eine Azure-basierte Option zum Einbetten von Power BI-Funktionen in Ihre Anwendungen. Eine Power BI Embedded-Instanz ist im obigen Preisbeispiel enthalten.

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben.

Hauptautor:

Um nicht öffentliche LinkedIn-Profile anzuzeigen, melden Sie sich bei LinkedIn an.

Nächste Schritte