Moderne Data Warehouses für kleine und mittelständische Unternehmen

Azure Data Lake

Azure SQL-Datenbank

Microsoft Fabric

In diesem Artikel werden verschiedene Möglichkeiten beschrieben, wie kleine und mittelständische Unternehmen (SMBs) ältere Datenspeicher modernisieren und Big Data-Tools und -Funktionen untersuchen können, ohne aktuelle Budgets und Qualifikationssätze zu überlasten. Diese umfassenden Data Warehousing-Lösungen können nahtlos mit Azure Machine Learning, Azure KI Services, Microsoft Power Platform, Microsoft Dynamics 365 und anderen Microsoft-Technologien integriert werden. Diese Lösungen bieten einen einfachen Einstiegspunkt für die vollständig verwaltete Software-as-a-Service (SaaS)-Datenplattform auf Microsoft Fabric, die erweitert werden kann, wenn die Anforderungen größer werden.

SMBs, die lokale SQL Server für Data Warehousing-Lösungen unter 500 GB verwenden, können von diesem Muster profitieren. Sie verwenden verschiedene Tools für die Datenaufnahme in ihre Data Warehouse-Lösung, darunter SQL Server Integration Services (SSIS), SQL Server Analysis Services (SSAS), SQL Server Reporting Services (SSRS), allgemeine gespeicherte SQL-Prozeduren, externes Extrahieren, Transformieren, Laden, Laden, Transformieren (ELT)-Tools, SQL Server Agent-Aufträge und SQL-Snapshotreplikation. Datensynchronisierungsvorgänge sind in der Regel snapshotbasiert, in Batches ausgeführt und erfordern keine Echtzeitberichte.

Vereinfachte Architektur

Laden Sie eine Visio-Datei dieser Architektur herunter.

Eine konzeptionelle Modernisierungschance umfasst die Migration der Data Warehousing-Legacylösung zu einer Kombination aus Azure SQL-Datenbank, Azure SQL Managed Instance und Fabric. Diese Strategie stellt die umfassende Kompatibilität mit herkömmlichen SQL Server- und SQL-Clienttools wie SQL Server Management Studio (SSMS) sicher. Sie stellt außerdem Optionen für die Migration vorhandener Prozesse per Lift & Shift bereit und erfordert eine nur minimale Kompetenzerweiterung für das Supportteam. Diese Lösung dient als erster Schritt in Richtung auf eine umfassende Modernisierung, die der Organisation die Einführung eines vollständigen Lakehouse-Ansatzes ermöglicht, wenn das Data Warehouse erweitert wird und die Kompetenzen des Teams wachsen.

Aufbau

Laden Sie eine Visio-Datei dieser Architektur herunter.

Altere Data Warehouses von SMBs können verschiedene Datentypen enthalten:

Unstrukturierte Daten wie Dokumente und Grafiken
Teilweise strukturierte Daten wie Protokolle, CSV-Dateien, JSON- und XML-Dateien
Strukturierte relationale Daten, einschließlich Datenbanken, die gespeicherte Prozeduren für ETL- und ELT-Aktivitäten verwenden

Datenfluss

Der folgende Dataflow entspricht dem vorherigen Diagramm. Er zeigt die Erfassung des von Ihnen ausgewählten Datentyps:

Fabric-Datenpipelines oder Azure Data Factory-Pipelines orchestrieren die Erfassung von Transaktionsdaten in der Data Warehousing-Lösung.
- Die Pipelines orchestrieren den Fluss migrierter oder teilweise umgestalteter Legacydatenbanken und SSIS-Pakete in Azure SQL-Datenbank und Azure SQL Managed Instance. Sie können diesen Lift & Shift-Ansatz schnell implementieren, was den nahtlosen Übergang von einer lokalen SQL-Lösung zur zukünftigen Fabric-SaaS-Umgebung sicherstellt. Sie können Datenbanken nach dem Lift & Shift inkrementell modernisieren.
- Die Pipelines können unstrukturierte, teilweise strukturierte und strukturierte Daten zur zentralisierten Speicherung und Analyse zusammen mit anderen Quellen an Azure Data Lake Storage übergeben. Sie sollten diesen Ansatz verwenden, wenn das Fusionieren von Daten einen größeren geschäftlichen Vorteil bietet als die Portierung der Daten auf eine andere Plattform.
Verwenden Sie Microsoft Dynamics 365-Datenquellen, um mit serverlosen Fabric-Analysetools zentralisierte Business-Intelligence (BI)-Dashboards für erweiterte Datasets zu erstellen. Sie können die fusionierten und verarbeiteten Daten zur weiteren Analyse innerhalb von Fabric zurück zu Dynamics übertragen.
Echtzeitdaten aus Streamingquellen können über Azure Event Hubs oder andere Streaminglösungen in das System importiert werden. Wenn Kunden Echtzeitdashboards benötigen, können diese Daten mit Fabric Real-Time Analytics sofort analysiert werden.
Die Daten können mithilfe von Data Lake Storage-Verknüpfungen zur weiteren Analyse, Speicherung und Berichterstellung im zentralen Fabric OneLake erfasst werden. Dieser Prozess ermöglicht eine direkte Analyse und unterstützt den nachgelagerten Verbrauch.
Serverlose Analysetools, z. B. SQL Analytics-Endpunkt- und Fabric Spark-Funktionen, sind auf Abruf in Fabric verfügbar und erfordern keine Bereitstellung von Ressourcen. Serverlose Analysetools sind für die folgenden Zwecke ideal geeignet:
- ETL- und ELT-Aktivitäten für OneLake-Daten
- Bereitstellung der Goldschicht der Medallion-Architektur für Power BI-Berichte über die Funktion DirectLake
- Improvisierte Data Science-Untersuchungen im T-SQL- oder Python-Format
- Frühe Prototyperstellung für Data Warehouse-Entitäten.

Fabric ist eng mit potenziellen Consumern Ihrer Mehrquellen-Datasets integriert, einschließlich Power BI-Front-End-Berichten, Machine Learning, Power Apps, Azure Logic Apps, Azure Functions und Azure App Service-Web-Apps.

Komponenten

Fabric ist ein Analysedienst, der Datentechnik, Data Warehouse, Data Science und Echtzeitdaten und BI-Funktionen kombiniert. In dieser Lösung bieten Fabric-Datentechnik-Funktionen eine kollaborative Plattform für Dateningenieure, Data Scientists, Datenanalysten und BI-Experten. Diese Schlüsselkomponente wird von serverlosen Computingmodulen unterstützt und liefert Geschäftswert, indem sie Erkenntnisse generiert, die an Kunden verteilt werden.
SQL-Datenbank und SQL Managed Instance sind cloudbasierte relationale Datenbankdienste. Sql-Datenbank und SQL Managed Instance verwenden SSMS zum Entwickeln und Verwalten von älteren Artefakten wie gespeicherten Prozeduren. In dieser Lösung hosten diese Dienste das Enterprise Data Warehouse und führen mithilfe gespeicherter Prozeduren oder externer Pakete ETL- und ELT-Aktivitäten aus. SQL-Datenbank und SQL Managed Instance sind Plattform-as-a-Service (PaaS)-Umgebungen, die Sie verwenden können, um hohe Anforderungen an Verfügbarkeit und Notfallwiederherstellung zu erfüllen. Stellen Sie sicher, dass Sie eine SKU wählen, die Ihre Anforderungen erfüllt. Weitere Informationen finden Sie unter Hohe Verfügbarkeit für SQL-Datenbank und hohe Verfügbarkeit für sql Managed Instance.
SSMS ist eine integrierte Umgebung zum Verwalten der SQL-Infrastruktur, die Sie zum Entwickeln und Verwalten von Legacyartefakten wie gespeicherten Prozeduren verwenden können.
Event Hubs ist eine Echtzeitdatenstreamingplattform und ein Ereignisaufnahmedienst. Event Hubs kann nahtlos mit Azure-Datendiensten integriert werden und Daten aus allen Quellen erfassen.

Alternativen

Sie können Azure IoT Hub verwenden, um Event Hubs zu ersetzen oder zu ergänzen. Wählen Sie Ihre Lösung basierend auf der Quelle Ihrer Streamingdaten und abhängig davon aus, ob Sie Funktionen zum Klonen und zur bidirektionalen Kommunikation mit den Berichterstellungsgeräten benötigen.
Sie können Fabric-Datenpipelinen anstelle von Data Factory-Pipelines für die Datenintegration verwenden. Ihre Entscheidung ist von verschiedenen Faktoren abhängig. Weitere Informationen finden Sie unter Abrufen von Azure Data Factory zu Data Factory in Fabric.
Sie können Fabric Warehouse anstelle von SQL-Datenbank oder SQL Managed Instance verwenden, um Unternehmensdaten zu speichern. In diesem Artikel wird die Markteinführungszeit Zeit für Kunden priorisiert, die ihre Data Warehouses modernisieren möchten. Weitere Informationen zu Den Datenspeicheroptionen für Fabric finden Sie im Fabric-Entscheidungshandbuch.

Szenariodetails

Wenn SMBs ihre lokalen Data Warehouses für die Cloud modernisieren, können sie entweder Big-Data-Tools für die zukünftige Skalierbarkeit einführen oder herkömmliche SQL-basierte Lösungen verwenden, um von Kosteneffizienz, einer einfachen Wartung und einem reibungslosen Übergang zu profitieren. Ein hybrider Ansatz bietet das Beste aus beiden Welten und ermöglicht die einfache Migration vorhandener Datenbestände unter Verwendung moderner Tools und KI-Funktionen. SMBs können ihre SQL-basierten Datenquellen in der Cloud ausführen und wie notwendig modernisieren.

In diesem Artikel werden verschiedene Strategien für SMBs beschrieben, um Legacydatenspeicher zu modernisieren und Big-Data-Tools und -Funktionen zu verwenden, ohne aktuelle Budgets und Kompetenzen erweitern zu müssen. Diese umfassenden Azure-Lösungen für das Data Warehousing können nahtlos in Azure und Microsoft-Dienste integriert werden, darunter KI-Dienste, Microsoft Dynamics 365 und Microsoft Power Platform.

Mögliche Anwendungsfälle

Migration eines herkömmlichen lokalen relationalen Data Warehouse mit weniger als 1 TB, das SSIS-Pakete zum Orchestrieren gespeicherter Prozeduren verwendet.
Gittern Vorhandener Dynamics- oder Microsoft Power Platform Dataverse-Daten mit Batch- und Echtzeit-Datenquellen .
Verwendung innovativer Techniken für die Interaktion mit zentralisierten Azure Data Lake Storage Gen2-Daten. Zu diesen Techniken gehören die serverlose Analyse, das Knowledge Mining, die domänenübergreifende Datenfusion und die Untersuchung von Endbenutzerdaten, einschließlich Fabric Copilot.
Richten Sie E-Commerce-Unternehmen ein, um ein Data Warehouse zu übernehmen, um ihre Abläufe zu optimieren.

Diese Lösung wird für Folgendes nicht empfohlen:

Eine greenfield-Bereitstellung von Data Warehouses.
Migration lokaler Data Warehouses, die größer als 1 TB sind oder diese Größe voraussichtlich innerhalb eines Jahres erreichen werden.

Überlegungen

Diese Überlegungen bilden die Säulen des Azure Well-Architected Framework, einer Reihe von Leitprinzipien, die Sie zur Verbesserung der Qualität eines Workloads verwenden können. Weitere Informationen finden Sie unter Well-Architected Framework.

Kostenoptimierung

Die Kostenoptimierung konzentriert sich auf Möglichkeiten, unnötige Ausgaben zu reduzieren und die betriebliche Effizienz zu verbessern. Weitere Informationen finden Sie in der Prüfliste für die Entwurfsüberprüfung für die Kostenoptimierung.

Mit dem Azure-Preisrechner können Sie Werte ändern, um zu verstehen, wie sich Ihre spezifischen Anforderungen auf Kosten auswirken. Sie können im Azure-Preisrechner ein Preisbeispiel für ein SMB-Data-Warehousing-Szenario anzeigen.
Die Preisgestaltung der SQL-Datenbank hängt von den berechneten und dienstebenen ab, die Sie auswählen, sowie von der Anzahl der vCores- und Datenbanktransaktionseinheiten. Das Beispiel beschreibt eine Einzeldatenbank mit bereitgestelltem Compute und acht virtuellen Kernen und geht davon aus, dass Sie gespeicherte Prozeduren in SQL-Datenbank ausführen müssen.
Die Preise für Data Lake Storage Gen2 hängen von der Datenmenge ab, die Sie speichern und wie oft Sie die Daten verwenden. Die Beispielpreise umfassen 1 TB Datenspeicher und weitere Transaktionsannahmen. Die Menge von 1 TB bezieht sich auf die Größe des Data Lake und nicht auf die Größe der ursprünglichen Legacydatenbank.
Die Fabric-Preise hängen entweder vom Fabric F-Kapazitätspreis oder vom Preis für Premium pro Person ab. Serverlose Funktionen verwenden CPU und Arbeitsspeicher der erworbenen dedizierten Kapazität.
Die Preise für Event Hubs hängen von der von Ihnen ausgewählten Stufe, der Anzahl der bereitgestellten Durchsatzeinheiten und dem empfangenen Eingehenden Datenverkehr ab. Im Beispiel wird eine Durchsatzeinheit auf der Standardebene angenommen, die mehr als eine Million Ereignisse pro Monat verarbeitet.

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautor:

Galina Polyakova | Senior Cloud Solution Architect
Bhaskar Sharma | Senior Program Manager

Um nicht öffentliche LinkedIn-Profile anzuzeigen, melden Sie sich bei LinkedIn an.

Nächste Schritte

Schulungsinhalte und Übungsinhalte finden Sie unter Data Engineer-Lernpfade.
Erste Schritte mit Fabric.
Durchsuchen Sie alle Kurse, Lernpfade und Module.
Erstellen Sie eine einzelne Datenbank.
Erstellen Sie eine SQL Managed Instance.
Erstellen Sie ein Speicherkonto, das mit Data Lake Storage Gen2 verwendet werden soll.
Erstellen Sie einen Event Hub mithilfe des Azure-Portals.