Data Warehousing und Analysen
In diesem Beispielszenario wird eine Datenpipeline veranschaulicht, die große Datenmengen aus mehreren Quellen in eine einheitliche Analyseplattform in Azure integriert. Dieses spezielle Szenario basiert zwar auf einer Lösung für Vertrieb und Marketing, die Entwurfsmuster sind jedoch für viele Branchen relevant, in denen erweiterte Analysen von umfangreichen Datasets benötigt werden. Hierzu zählen beispielsweise E-Commerce, Einzelhandel und Gesundheitswesen.
Aufbau
Laden Sie eine Visio-Datei dieser Architektur herunter.
Datenfluss
Die Daten durchlaufen die Lösung wie folgt:
- Aktualisierungen der einzelnen Datenquellen werden in regelmäßigen Abständen in einen Stagingbereich in Azure Data Lake Storage exportiert.
- Azure Data Factory lädt die Daten inkrementell aus Azure Data Lake Storage in Stagingtabellen in Azure Synapse Analytics. Dabei werden die Daten bereinigt und transformiert. PolyBase kann den Prozess für umfangreiche Datasets parallelisieren.
- Nachdem ein neuer Datenbatch in das Warehouse geladen wurde, wird ein zuvor erstelltes Azure Analysis Services-Tabellenmodell aktualisiert. Dieses Semantikmodell vereinfacht die Analyse von Geschäftsdaten und -beziehungen.
- Business Analysts verwenden Microsoft Power BI, um Warehouse-Daten unter Verwendung des Analysis Services-Semantikmodells zu analysieren.
Komponenten
Das Unternehmen verfügt über Datenquellen auf vielen verschiedenen Plattformen:
- SQL Server (lokal)
- Oracle (lokal)
- Azure SQL-Datenbank
- Azure Table Storage
- Azure Cosmos DB (ein Microsoft-Datenbankdienst)
Daten werden aus diesen unterschiedlichen Datenquellen unter Verwendung verschiedener Azure-Komponenten geladen:
- Azure Data Lake Storage wird verwendet, um Quelldaten zu stufen, bevor sie in Azure Synapse geladen werden.
- Data Factory koordiniert die Transformation von mehrstufigen Daten in eine gemeinsame Struktur in Azure Synapse. Data Factory verwendet PolyBase beim Laden von Daten in Azure Synapse , um den Durchsatz zu maximieren.
- Azure Synapse ist ein verteiltes System zum Speichern und Analysieren großer Datasets. Dank MPP (Massive Parallel Processing) eignet sich diese Komponente für Hochleistungsanalysen. Azure Synapse kann PolyBase verwenden, um Daten schnell aus Azure Data Lake Storage zu laden.
- Analysis Services stellt ein semantisches Modell für Ihre Daten bereit. Darüber hinaus kann die Komponente die Systemleistung beim Analysieren Ihrer Daten erhöhen.
- Power BI ist eine Suite von Business Analytics-Tools zum Analysieren von Daten und Zum Teilen von Erkenntnissen. Power BI kann ein in Analysis Services gespeichertes Semantikmodell oder direkt Azure Synapse abfragen.
- Die Microsoft Entra-ID authentifiziert Benutzer, die über Power BI eine Verbindung mit dem Analysis Services-Server herstellen. Data Factory kann auch microsoft Entra-ID verwenden, um sich über einen Dienstprinzipal oder eine verwaltete Identität für Azure-Ressourcen bei Azure Synapse zu authentifizieren.
Alternativen
Die Beispielpipeline enthält verschiedene Arten von Datenquellen. Diese Architektur eignet sich für ein breites Spektrum an relationalen und nicht relationalen Datenquellen.
Data Factory orchestriert die Workflows für Ihre Datenpipeline. Wenn Sie Daten nur einmalig oder bei Bedarf laden möchten, können Sie beispielsweise das SQL Server-Tool zum Massenkopieren (bcp) oder AzCopy verwenden, um Daten in Azure Data Lake Storage zu kopieren. Anschließend können Sie die Daten mithilfe von PolyBase direkt in Azure Synapse laden.
Wenn Sie über sehr große Datasets verfügen, sollten Sie die Verwendung von Data Lake Storage in Betracht ziehen, was unbegrenzten Speicher für Analysedaten bietet.
Azure Synapse ist nicht ideal für OLTP-Workloads oder Datasets mit einer Größe von weniger als 250 GB geeignet. In diesen Fällen empfiehlt sich die Verwendung von Azure SQL-Datenbank oder SQL Server.
Vergleiche mit anderen Alternativen finden Sie hier:
Szenariodetails
Das Unternehmen in diesem Beispiel ist im Bereich Vertrieb und Marketing tätig und entwickelt Anreizprogramme. Diese Programme dienen zur Belohnung von Kunden, Lieferanten, Verkäufern und Mitarbeitern. Die Programme sind auf Daten angewiesen, und das Unternehmen möchte mit Azure die per Datenanalyse gewonnenen Erkenntnisse verbessern.
Das Unternehmen benötigt einen modernen Ansatz für die Datenanalyse, um Entscheidungen zur richtigen Zeit und auf der Grundlage der richtigen Daten treffen zu können. Das Unternehmen hat folgende Ziele:
- Kombinieren verschiedene Arten von Datenquellen in einer Cloudplattform
- Transformieren von Quelldaten in eine allgemeine Taxonomie und Struktur, um die Daten konsistent zu machen und einfach vergleichen zu können
- Laden von Daten unter Verwendung eines hochgradig parallelisierten Ansatzes, der Tausende von Anreizprogrammen unterstützt, aber ohne die hohen Kosten für die Bereitstellung und Pflege einer lokalen Infrastruktur
- Deutliches Beschleunigen der Datenerfassung und -transformation, um sich auf die Analyse der Daten konzentrieren zu können
Mögliche Anwendungsfälle
Dieser Ansatz kann auch für folgende Zwecke verwendet werden:
- Einrichten eines Data Warehouse als alleingültige Quelle für Ihre Daten
- Integrieren relationaler Datenquellen in andere unstrukturierte Datasets
- Verwenden von Semantikmodellen und leistungsstarken Visualisierungstools zur Vereinfachung der Datenanalyse
Überlegungen
Diese Überlegungen bilden die Säulen des Azure Well-Architected Framework, einer Reihe von Leitprinzipien, die Sie zur Verbesserung der Qualität eines Workloads verwenden können. Weitere Informationen finden Sie unter Well-Architected Framework.
Die Technologien in dieser Architektur wurden gewählt, da sie die Skalier- und Verfügbarkeitsanforderungen des Unternehmens erfüllen und das Unternehmen bei der Kostenkontrolle unterstützen.
- Die massiv parallele Verarbeitungsarchitektur von Azure Synapse bietet Skalierbarkeit und hohe Leistung.
- Azure Synapse verfügt über garantierte Vereinbarungen auf Service-Level-Ebene (SLAs) und empfohlene Methoden für die Erreichung hoher Verfügbarkeit.
- Wenn die Analyseaktivität niedrig ist, kann das Unternehmen Azure Synapse bei Bedarf skalieren, die Berechnung reduzieren oder sogar anhalten, um die Kosten zu senken.
- Azure Analysis Services kann skaliert werden, um die Reaktionszeiten bei hohen Abfrageworkloads zu reduzieren. Darüber hinaus kann die Verarbeitung vom Abfragepool getrennt werden, sodass Clientabfragen nicht durch Verarbeitungsvorgänge verlangsamt werden.
- Azure Analysis Services verfügt außerdem über garantierte SLAs und empfohlene Methoden zum Erreichen einer hohen Verfügbarkeit.
- Das Azure Synapse-Sicherheitsmodell bietet Verbindungssicherheit, Authentifizierung und Autorisierung über microsoft Entra ID oder SQL Server-Authentifizierung und Verschlüsselung. Azure Analysis Services verwendet Microsoft Entra-ID für identitätsverwaltung und Benutzerauthentifizierung.
Kostenoptimierung
Die Kostenoptimierung konzentriert sich auf Möglichkeiten, unnötige Ausgaben zu reduzieren und die betriebliche Effizienz zu verbessern. Weitere Informationen finden Sie in der Prüfliste für die Entwurfsüberprüfung für die Kostenoptimierung.
Überprüfen Sie ein Preisbeispiel für ein Data Warehouse-Szenario über den Azure-Preisrechner. Passen Sie die Werte an, um zu ermitteln, wie sich Ihre Anforderungen auf die Kosten auswirken.
- Mit Azure Synapse können Sie Ihre Compute- und Speicherebenen unabhängig voneinander skalieren. Computeressourcen werden auf Stundenbasis abgerechnet und können nach Bedarf skaliert oder angehalten werden. Speicherressourcen werden nach Terabyte abgerechnet. Ihre Kosten steigen also, wenn Sie mehr Daten erfassen.
- Data Factory-Kosten basieren auf der Anzahl der Lese-/Schreibvorgänge, Überwachungsvorgänge und Orchestrierungsaktivitäten, die in einer Workload ausgeführt werden. Die Kosten für Ihre Data Factory erhöhen sich mit jedem weiteren Datenstrom und der jeweils verarbeiteten Datenmenge.
- Analysis Services ist in den Ebenen "Entwickler", "Standard" und "Standard" verfügbar. Die Preise der Instanzen basieren auf QPUs (Query Processing Units) und auf dem verfügbaren Arbeitsspeicher. Minimieren Sie die Anzahl ausgeführter Abfragen, den Umfang der durch die Abfragen verarbeiteten Daten sowie die Ausführungshäufigkeit dieser Abfragen, um die Kosten gering zu halten.
- Power BI verfügt über unterschiedliche Produktoptionen für unterschiedliche Anforderungen. Power BI Embedded bietet eine Azure-basierte Option zum Einbetten von Power BI-Funktionen in Ihre Anwendungen. Eine Power BI Embedded-Instanz ist im obigen Preisbeispiel enthalten.
Beitragende
Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben.
Hauptautor:
- Alex Buck | Senior Content Developer
Um nicht öffentliche LinkedIn-Profile anzuzeigen, melden Sie sich bei LinkedIn an.
Nächste Schritte
Überprüfen Sie den Architekturentwurf von Datenbanken.
Weitere Informationen zu den in diesem Szenario verwendeten Diensten erhalten Sie unter: