Erstellen einer modernen Analysearchitektur mithilfe von Azure Databricks

Azure Databricks

Microsoft Fabric

Power BI

Azure Data Lake Storage

Lösungsmöglichkeiten

In diesem Artikel ist ein Lösungsvorschlag beschrieben. Ihr Cloudarchitekt kann diesen Leitfaden verwenden, um die Hauptkomponenten einer typischen Implementierung dieser Architektur zu visualisieren. Verwenden Sie diesen Artikel als Ausgangspunkt, um eine gut durchdachte Lösung zu entwerfen, die den spezifischen Anforderungen Ihrer Workload entspricht.

Diese Lösung beschreibt die wichtigsten Prinzipien und Komponenten moderner Datenarchitekturen. Azure Databricks bildet den Kern der Lösung. Diese Plattform arbeitet nahtlos mit anderen Diensten wie Azure Data Lake Storage, Microsoft Fabric und Power BI zusammen.

Apache® und Apache Spark™ sind entweder eingetragene Marken oder Marken der Apache Software Foundation in den USA und/oder anderen Ländern. Die Verwendung dieser Markierungen impliziert kein Endorsement durch die Apache Software Foundation.

Architektur

Laden Sie eine Visio-Datei dieser Architektur herunter.

Datenfluss

Azure Databricks erfasst rohe Streamingdaten aus Azure Event Hubs mithilfe von Delta Live Tables.
Fabric Data Factory lädt rohe Batchdaten in Data Lake Storage.
Für Datenspeicher:
- Data Lake Storage beherbergt alle Arten von Daten, einschließlich strukturierter, unstrukturierter und teilweise strukturierter Daten. Es speichert auch Batch- und Streaming-Daten.
- Delta Lake bildet die kuratierte Schicht des Data Lake. Es speichert die verfeinerten Daten in einem Open-Source-Format.
- Azure Databricks arbeitet gut mit einer Medaillon-Architektur, die Daten in Schichten organisiert:
  - Bronzeschicht: Enthält Rohdaten.
  - Silberschicht: Enthält bereinigte, gefilterte Daten.
  - Goldschicht: Speichert aggregierte Daten, die für Geschäftsanalysen nützlich sind.
Die analytische Plattform erfasst die Daten aus den verschiedenen Batch- und Streaming-Quellen. Datenwissenschaftler verwenden diese Daten für Aufgaben wie:
- Datenaufbereitung
- Datenuntersuchung
- Modellvorbereitung
- Modelltraining
MLflow verwaltet die Parameter-, Metrik- und Modellverfolgung in Data-Science-Code-Läufen. Die Kodiermöglichkeiten sind flexibel:
- Code kann in SQL, Python, R und Scala sein.
- Code kann beliebte Open-Source-Bibliotheken und Frameworks wie Koalas, Pandas und Scikit-Learn verwenden, die vorinstalliert und optimiert sind.
- Benutzer können die Leistung und die Kosten optimieren, indem Sie Computeoptionen mit einem Knoten und mehreren Knoten verwenden.
Machine Learning-Modelle sind in den folgenden Formaten verfügbar:
- Azure Databricks speichert Informationen über Modelle in der MLflow-Modellregistrierung. Die Registrierung stellt Modelle über Batch-, Streaming- und REST-APIs zur Verfügung.
- Die Lösung kann Modelle auch auf Azure Machine Learning Web Services oder Azure Kubernetes Service (AKS) bereitstellen.
Dienste, die mit den Daten arbeiten, stellen eine Verbindung mit einer einzelnen zugrunde liegenden Datenquelle her, um die Konsistenz zu gewährleisten. Sie können z. B. SQL-Abfragen auf dem Datensee mit Azure Databricks SQL Warehouses ausführen. Dieser Dienst:
- Bietet einen Abfrage-Editor und -Katalog, die Abfrage-Historie, grundlegendes Dashboarding und Warnungen.
- Verwendet integrierte Sicherheit, die Berechtigungen auf Zeilenebene und Berechtigungen auf Spaltenebene enthält.
- Verwendet ein photon-powered Delta Engine, um die Leistungzu verbessern.
Sie können Gold-Datasets aus dem Azure Databricks Unity-Katalog in Fabric spiegeln. Verwenden Sie Azure Databricks-Spiegelung in Fabric, um ohne dass Daten verschoben oder repliziert werden müssen.
Power BI generiert analytische und historische Berichte und Dashboards aus der einheitlichen Datenplattform. Dieser Dienst verwendet die folgenden Features, wenn er mit Azure Databricks funktioniert:
- Ein integrierter Azure Databricks-Konnektor zur Visualisierung der zugrunde liegenden Daten.
- Optimierte Java-Datenbankkonnektivität und Open Database Connectivity-Treiber.
- Sie können Direct Lake- mit Azure Databricks-Spiegelung in Fabric verwenden, um Ihre Power BI-Semantikmodelle für Abfragen mit höherer Leistung zu laden.
Die Lösung verwendet Unity-Katalog- und Azure-Dienste für Zusammenarbeit, Leistung, Zuverlässigkeit, Governance und Sicherheit:
- Azure Databricks Unity Catalog bietet zentrale Zugriffssteuerung, Überwachung, Lineage und Datenermittlungsfunktionen in Azure Databricks-Arbeitsbereichen.
- Microsoft Purview bietet Datenermittlungsdienste, vertrauliche Datenklassifizierung und Governance-Erkenntnisse für den gesamten Datenbestand.
- Azure DevOps bietet Continuous Integration und Continuous Deployment (CI/CD) sowie andere integrierte Features zur Versionskontrolle.
- Azure Key Vault hilft Ihnen beim sicheren Verwalten von Geheimschlüsseln, Schlüsseln und Zertifikaten.
- Die Microsoft Entra-ID und das System für domänenübergreifende Identitätsverwaltung (SCIM)-Bereitstellung bieten einmaliges Anmelden für Azure Databricks-Benutzer und -Gruppen. Azure Databricks unterstützt die automatisierte Benutzerbereitstellung mit Microsoft Entra-ID für:
  - Neue Benutzer und Gruppen erstellen.
  - Weisen Sie jedem Benutzer eine Zugriffsebene zu.
  - Entfernen Sie Benutzer, und verweigern Sie ihnen den Zugriff.
- Azure Monitor erfasst und analysiert Azure-Ressourcentelemetriedaten. Durch die proaktive Identifizierung von Problemen maximiert dieser Dienst Leistung und Zuverlässigkeit.
- Microsoft Cost Management bietet Finanzgovernancedienste für Azure-Workloads.

Komponenten

Diese Lösung verwendet die folgenden Komponenten.

Kernkomponenten

Azure Databricks ist eine Datenanalyseplattform, die Spark-Cluster zum Verarbeiten großer Datenströme verwendet. Sie bereinigt und transformiert unstrukturierte Daten und kombiniert sie mit strukturierten Daten. Es kann auch Machine Learning-Modelle trainieren und bereitstellen. In dieser Architektur dient Azure Databricks als zentrales Tool für die Datenaufnahme, Verarbeitung und Bereitstellung. Sie bietet eine einheitliche Umgebung zum Verwalten des gesamten Datenlebenszyklus.
Azure Databricks SQL Warehouses compute resources that you can use to query and explore data on Azure Databricks. In dieser Architektur können Sie SQL-Endpunkte verwenden, um eine direkte Verbindung mit Ihren Daten aus Power BI herzustellen.
Azure Databricks Delta Live Tables ist ein deklaratives Framework zum Erstellen von zuverlässigen, wartungsfähigen und testbaren Datenverarbeitungspipelines. In dieser Architektur helfen Delta Live Tables Ihnen beim Definieren von Transformationen, die für Ihre Daten ausgeführt werden. Es hilft Ihnen auch beim Verwalten von Aufgaben-Orchestrierung, Clusterverwaltung, Überwachung, Datenqualität und Fehlerbehandlung in Azure Databricks.
Microsoft Fabric ist eine End-to-End-Analyse- und Datenplattform für Organisationen, die eine einheitliche Lösung benötigen. Die Plattform bietet Dienste wie Data Engineering, Data Factory, Data Science, Real-Time Intelligence, Data Warehouse und Datenbanken. Diese Architektur spiegelt Unity Catalog-Tabellen in Fabric wieder und verwendet Direct Lake in Power BI für eine bessere Leistung.
Data Factory in Microsoft Fabric ist eine moderne Datenintegrationsplattform, mit der Sie Daten aus einer vielzahl von Datenquellen in Fabric aufnehmen, vorbereiten und transformieren können. Diese Architektur verwendet integrierte Connectors für mehrere Datenquellen, um eine schnelle Aufnahme in Data Lake Storage oder OneLake zu ermöglichen. Azure Databricks ruft die Batchdaten später ab und wandelt sie weiter um.
Event Hubs ist eine vollständig verwaltete Big Data Streaming-Plattform. Als Plattform als Dienst bietet sie Ereignisaufnahmefunktionen. Diese Architektur verwendet Event Hubs zum Streamen von Daten. Azure Databricks können eine Verbindung mit diesen Daten herstellen und mithilfe von Spark Streaming oder Delta Live Tables verarbeiten.
Data Lake Storage ist ein skalierbarer und sicherer Data Lake für hochleistungsfähige Analysen. Es verarbeitet mehrere Petabyte-Daten und unterstützt Hunderte von Gigabit-Durchsatz. Data Lake Storage kann strukturierte, teilweise strukturierte und unstrukturierte Daten speichern. Diese Architektur verwendet Data Lake Storage zum Speichern von Batch- und Streamingdaten.
Machine Learning ist eine cloudbasierte Umgebung, mit der Sie Predictive-Analytics-Lösungen erstellen, bereitstellen und verwalten können. Mithilfe dieser Modelle können Sie Verhalten, Ergebnisse und Trends prognostizieren. In dieser Architektur verwendet Machine Learning Daten, die Azure Databricks transformiert für Schulungen und Ableitungsmodelle.
AKS ist ein hochverfügbarer, sicherer und vollständig verwalteter Kubernetes-Dienst. AKS erleichtert das Bereitstellen und Verwalten containerisierter Anwendungen. In dieser Architektur hosten AKS Machine Learning-Modelle in einer containerisierten Umgebung für skalierbare Ableitungen.
Delta Lake ist eine Speicherebene, die ein offenes Dateiformat verwendet. Diese Ebene wird auf Cloudspeicherlösungen wie Data Lake Storage ausgeführt. Delta Lake unterstützt Datenversionsierung, Rollback und Transaktionen zum Aktualisieren, Löschen und Zusammenführen von Daten. In dieser Architektur funktioniert Delta Lake als primäres Dateiformat zum Schreiben und Lesen von Daten aus Data Lake Storage.
MLflow ist eine Open-Source-Plattform für die Verwaltung des Machine Learning-Lebenszyklus. Seine Komponenten überwachen machine Learning-Modelle während der Schulung und des Betriebs. In dieser Architektur, ähnlich wie machine Learning, können Sie MLflow in Azure Databricks verwenden, um Ihren Machine Learning-Lebenszyklus zu verwalten. Trainieren und Ableiten von Modellen mithilfe der Unity-Katalogdaten, die Sie in Azure Databricks transformiert haben.

Berichts- und Steuerungskomponenten

Azure Databricks Unity Catalog bietet zentrale Zugriffssteuerung, Überwachung, Linien und Datenermittlungsfunktionen in Azure Databricks-Arbeitsbereichen. In dieser Architektur funktioniert Unity Catalog als primäres Tool in Azure Databricks, um den Datenzugriff zu verwalten und zu sichern.
Power BI ist eine Sammlung von Softwarediensten und Apps. Diese Dienste erstellen Berichte, die nicht verbundene Datenquellen verbinden und visualisieren, und geben diese frei. Zusammen mit Azure Databricks kann Power BI Ursachenermittlung und Rohdatenanalyse bieten. Diese Architektur verwendet Power BI zum Erstellen von Dashboards und Berichten, die Einblicke in die Daten liefern, die Azure Databricks und Fabric-Prozess verarbeiten.
Microsoft Purview verwaltet lokale, Multicloud- und SaaS-Daten (Software-as-a-Service). Dieser Governancedienst verwaltet Datenlandschaftszuordnungen. Zu den Features gehören die automatisierte Datenermittlung, die Klassifizierung vertraulicher Daten und die Datenlinie. Diese Architektur verwendet Microsoft Purview zum Scannen und Nachverfolgen von Daten, die in Unity Catalog, Fabric, Power BI und Data Lake Storage erfasst werden.
Azure DevOps ist eine DevOps-Orchestrierungsplattform. Dieses SaaS bietet Tools und Umgebungen zum Erstellen, Bereitstellen und Zusammenarbeiten an Anwendungen. Diese Architektur verwendet Azure DevOps, um die Bereitstellung der Azure-Infrastruktur zu automatisieren. Sie können GitHub auch für die Automatisierungs- und Versionssteuerung von Azure Databricks-Code verwenden, um die Zusammenarbeit, die Änderungsnachverfolgung und die Integration in CI/CD-Pipelines zu verbessern.
Key Vault speichert und steuert den Zugriff auf geheime Schlüssel, z. B. Token, Kennwörter und API-Schlüssel. Key Vault dient außerdem dem Erstellen und Steuern von Verschlüsselungsschlüsseln sowie dem Verwalten von Sicherheitszertifikaten. Diese Architektur verwendet Key Vault, um freigegebene Zugriffssignaturschlüssel aus Data Lake Storage zu speichern. Diese Schlüssel werden dann in Azure Databricks und anderen Diensten für die Authentifizierung verwendet.
Microsoft Entra ID stellt cloudbasierte Identitäts- und Zugriffsverwaltungsdienste bereit. Diese Features bieten Benutzern die Möglichkeit, sich anzumelden und auf Ressourcen zuzugreifen. Diese Architektur verwendet Microsoft Entra-ID, um Benutzer und Dienste in Azure zu authentifizieren und zu autorisieren.
mit SCIM- können Sie die Bereitstellung für das Azure Databricks-Konto mithilfe der Microsoft Entra-ID einrichten. Diese Architektur verwendet SCIM zum Verwalten von Benutzern, die auf Azure Databricks-Arbeitsbereiche zugreifen.
Azure Monitor sammelt und analysiert Daten in Umgebungen und Azure-Ressourcen. Diese Daten umfassen App-Telemetriedaten, z. B. Leistungsmetriken und Aktivitätsprotokolle. Diese Architektur verwendet Azure Monitor, um die Integrität von Computeressourcen in Azure Databricks und Machine Learning und anderen Komponenten zu überwachen, die Protokolle an Azure Monitor senden.
Kostenverwaltung hilft Ihnen bei der Verwaltung von Cloudausgaben. Mithilfe von Budgets und Empfehlungen organisiert dieser Dienst Ausgaben und zeigt Ihnen, wie Sie Kosten senken können. Diese Architektur verwendet Kostenverwaltung, um die Kosten der gesamten Lösung zu überwachen und zu steuern.

Szenariodetails

Moderne Datenarchitekturen:

Vereinheitlichen von Daten-, Analyse- und KI-Workloads.
Effiziente und zuverlässige Ausführung in beliebigem Umfang.
Bereitstellung von Einblicken durch Analyse-Dashboards, operative Berichte oder erweiterte Analysen.

Diese Lösung beschreibt eine moderne Datenarchitektur, die diese Ziele erreicht. Azure Databricks bildet den Kern der Lösung. Diese Plattform funktioniert nahtlos mit anderen Diensten. Zusammen stellen diese Dienste eine Lösung bereit, die folgendes ist:

Einfach: Einheitliche Analysen, Data Science und maschinelles Lernen vereinfachen die Datenarchitektur.
Offen: Die Lösung unterstützt Open-Source-Code, offene Standards und offene Frameworks. Sie funktioniert auch mit gängigen integrierten Entwicklungsumgebungen (IDEs), Bibliotheken und Programmiersprachen. Durch native Konnektoren und APIs arbeitet die Lösung auch mit einer breiten Palette anderer Dienste zusammen.
Kollaborativ: Dateningenieure, Datenwissenschaftler und Analysten arbeiten bei dieser Lösung zusammen. Sie können kollaborative Notebooks, IDEs, Dashboards und andere Tools verwenden, um auf gemeinsame zugrunde liegende Daten zuzugreifen und diese zu analysieren.

Mögliche Anwendungsfälle

Das System, das die Swiss Re Group für ihren Geschäftsbereich „Schaden- und Unfall-Rückversicherung“ aufgebaut hat, inspirierten diese Lösung. Neben der Versicherungsbranche kann jeder Bereich, der mit Big Data oder maschinellem Lernen arbeitet, auch von dieser Lösung profitieren. Beispiele:

Der Energiesektor.
Einzelhandel und E-Commerce.
Banken und Finanzen.
Medizin und Gesundheitswesen.

Nächste Schritte

Weitere Informationen zu verwandten Lösungen finden Sie in den folgenden Leitfäden und Architekturen.

Freigeben über

Erstellen einer modernen Analysearchitektur mithilfe von Azure Databricks

Architektur

Datenfluss

Komponenten

Kernkomponenten

Berichts- und Steuerungskomponenten

Szenariodetails

Mögliche Anwendungsfälle

Nächste Schritte

Zugehörige Ressourcen

Verwandte Anleitungen zur Architektur

Verwandte Architekturen

Feedback