Azure-Datenarchitekturleitfaden
In diesem Leitfaden wird ein strukturierter Ansatz für den Entwurf von datenorientierten Lösungen in Microsoft Azure vorgestellt. Er basiert auf bewährten Methoden, die aus Kundeninteraktionen abgeleitet wurden.
Hinweis
Weitere Informationen zur Einführung Ihrer Systeme für Datengovernance, Analysen und Datenverwaltung finden Sie unter Einführung in das Datenverwaltungs- und Analyseszenario.
Einführung
Die Cloud verändert die Art und Weise, wie Anwendungen entwickelt werden, und auch die Verarbeitung und Speicherung von Daten. Anstelle einer einzelnen allgemeinen Datenbank, die alle Daten einer Lösung enthält, nutzen mehrsprachige Persistenzlösungen mehrere spezielle Datenspeicher, die jeweils zur Bereitstellung bestimmter Funktionen optimiert sind. Dadurch ändert sich die Perspektive auf die Daten in der Lösung. Mehrere Ebenen von Geschäftslogik, die aus und in eine(r) einzelne(n) Datenschicht lesen und schreiben, gehören der Vergangenheit an. Stattdessen werden Lösungen rund um eine Datenpipeline konzipiert, die beschreibt, wie Daten durch eine Lösung fließen, wo sie verarbeitet, wo sie gespeichert und wie sie von der nächsten Komponente in der Pipeline genutzt werden.
Aufbau dieses Leitfadens
Dieser Leitfaden basiert auf zwei allgemeinen Kategorien für Datenlösungen: herkömmliche RDBMS-Workloads und Big Data-Lösungen.
Herkömmliche RDMBS-Workloads. Hierzu zählen OLTP (Online Transaction Processing, Onlinetransaktionsverarbeitung) und OLAP (Online Analytical Processing, analytische Onlineverarbeitung). Bei den Daten in OLTP-Systemen handelt es sich in der Regel um relationale Daten mit einem vordefinierten Schema und einer Reihe von Einschränkungen zur Wahrung der referenziellen Integrität. Häufig werden Daten aus mehreren Quellen in der Organisation in einem Data Warehouse konsolidiert. Dabei werden die Quelldaten mithilfe eines ETL-Prozesses verschoben und transformiert.
Big Data-Lösungen. Eine Big Data-Architektur ist für die Erfassung, Verarbeitung und Analyse von Daten konzipiert, die für herkömmliche Datenbanksysteme zu groß oder zu komplex sind. Die Verarbeitung der Daten kann in Batches oder in Echtzeit erfolgen. Big Data-Lösungen umfassen in der Regel große Mengen nicht-relationaler Daten. Hierzu zählen etwa Schlüssel-Wert-Daten, JSON-Dokumente oder Zeitreihendaten. Herkömmliche RDBMS-Systeme eignen sich üblicherweise nicht besonders für die Speicherung solcher Daten. Der Begriff NoSQL bezieht sich auf eine Datenbankfamilie, die für die Speicherung nicht relationaler Daten konzipiert ist. Der Begriff ist nicht ganz zutreffend, da viele nicht relationale Datenspeicher SQL-kompatible Abfragen unterstützen. Der Begriff NoSQL steht für „Not only SQL“ (Nicht nur SQL).
Diese beiden Kategorien schließen sich nicht gegenseitig aus und überschneiden sich teilweise. Wir sind jedoch der Ansicht, dass sie eine gute Diskussionsgrundlage bilden. Der Leitfaden geht auf gängige Szenarien für die jeweilige Kategorie sowie auf die relevanten Azure-Dienste und die geeignete Architektur für das jeweilige Szenario ein. Darüber hinaus werden die Technologieoptionen für Datenlösungen in Azure (einschließlich Open-Source-Optionen) verglichen. In jeder Kategorie finden Sie eine Beschreibung der wichtigsten Auswahlkriterien und eine Funktionsmatrix, die Ihnen die Auswahl der passenden Technologie für Ihr Szenario erleichtert.
In diesem Leitfaden geht es nicht um Data Science oder Datenbanktheorie. Zu diesen Themen wurden bereits ganze Bücher verfasst. Stattdessen möchten wir Ihnen dabei helfen, die passende Datenarchitektur oder Datenpipeline für Ihr Szenario zu finden und anschließend die Azure-Dienste und -Technologien auszuwählen, die am besten für Ihre Anforderungen geeignet sind. Wenn Sie bereits eine bestimmte Architektur geplant haben, können Sie direkt mit dem Abschnitt zur Auswahl der Technologie fortfahren.
Nächste Schritte
- Relationale Daten:
- Nicht relationale Daten:
- Nicht relationale Daten und NoSQL
- Processing free-form text for search (Verarbeiten von Freiformtext für die Suche)
- Zeitreihendaten
- Verwenden von CSV- und JSON-Dateien für Datenlösungen
- Erstellen eines skalierbaren Systems für große Datenvolumen
- Big Data:
- Auswahl der Technologie:
- Auswählen eines Analysedatenspeichers in Azure
- Wählen Sie eine Technologie zur Datenanalyse und Berichterstellung in Azure
- Auswählen einer Batchverarbeitungstechnologie in Azure
- Data Lakes
- Auswählen einer Big Data-Speichertechnologie in Azure
- Auswählen einer Technologie für die Datenpipelineorchestrierung in Azure
- Auswählen einer Technologie für die Echtzeiterfassung von Nachrichten in Azure
- Auswählen eines Suchdatenspeichers in Azure
- Auswählen einer Technologie für die Datenstromverarbeitung in Azure
- Weitere Szenarien: