Entwerfen einer Lösung zur Datenintegration und -analyse mit Azure Databricks
Azure Databricks ist eine vollständig verwaltete, cloudbasierte Big Data- und Machine Learning-Plattform, mit der Entwickler KI und Innovation beschleunigen können. Azure Databricks bietet Data Science- und Datentechnikteams eine einzige Plattform für die Big Data-Verarbeitung und Machine Learning. Die verwaltete Apache Spark-Plattform von Azure Databricks vereinfacht die Ausführung umfangreicher Spark-Workloads.
Wissenswertes über Azure Databricks
Azure Databricks basiert vollständig auf Apache Spark und ist ein hervorragendes Tool für Benutzer, die bereits mit dem Open-Source-Clustercomputingframework vertraut sind. Databricks ist speziell für die Big Data-Verarbeitung konzipiert. Wissenschaftliche Fachkräfte für Daten können die integrierte Kern-API für wichtige Programmiersprachen wie SQL, Java, Python, R und Scala nutzen.
Azure Databricks verfügt über eine Steuerungsebene und eine Datenebene:
- Die Steuerungsebene hostet Databricks-Aufträge, Notebooks mit Abfrageergebnissen und den Cluster-Manager. Die Steuerungsebene umfasst auch die Webanwendung, den Hive-Metastore und Zugriffssteuerungslisten (ACLs) für die Sicherheit sowie Benutzersitzungen. Microsoft verwaltet diese Komponenten in Zusammenarbeit mit Azure Databricks.
- Die Datenebene enthält alle Azure Databricks-Runtimecluster, die im Arbeitsbereich gehostet werden. Die gesamte Datenverarbeitung und -speicherung erfolgt innerhalb des Kundenabonnements. Innerhalb des von Microsoft/Databricks verwalteten Abonnements findet niemals eine Datenverarbeitung statt.
Azure Databricks bietet drei Umgebungen für die Entwicklung datenintensiver Anwendungen.
- Databricks SQL: Azure Databricks SQL bietet eine benutzerfreundliche Plattform für Analysten, die SQL-Abfragen in ihrem Data Lake ausführen möchten. Sie können Dashboards erstellen und freigeben oder mehrere Visualisierungstypen erstellen, um Abfrageergebnisse aus verschiedenen Perspektiven zu untersuchen.
- Databricks Data Science & Engineering: Azure Databricks Data Science & Engineering ist ein interaktiver Arbeitsbereich, der die Zusammenarbeit zwischen Data Engineers, Data Scientists und Machine Learning-Engineers ermöglicht. Für eine Big Data-Pipeline werden Rohdaten oder strukturierte Daten in Batches über Azure Data Factory in Azure erfasst oder mithilfe von Apache Kafka, Azure Event Hubs oder Azure IoT Hub in Quasi-Echtzeit gestreamt. Die Daten werden langfristig in einem Data Lake (Azure Blob Storage oder Azure Data Lake Storage) dauerhaft gespeichert. Verwenden Sie Azure Databricks im Rahmen Ihres Analyseworkflows, um Daten aus mehreren Datenquellen zu lesen und sie mithilfe von Spark in bahnbrechende Erkenntnisse umzuwandeln.
- Databricks Machine Learning: Azure Databricks Machine Learning ist eine integrierte End-to-End-Machine Learning-Umgebung. Sie umfasst verwaltete Dienste für Experimentnachverfolgung, Modelltraining, Featureentwicklung und -verwaltung sowie Feature- und Modellbereitstellung.
Geschäftsszenario
Analysieren wir nun ein Szenario für Tailwind Traders in der Abteilung für Schwermaschinenfertigung. Tailwind Traders verwendet Azure-Clouddienste für seine Big Data-Anforderungen. Sie arbeiten sowohl mit Batchdaten als auch mit Streamingdaten. Die Abteilung beschäftigt technische und wissenschaftliche Fachkräfte für Daten sowie Data Analysts, die gemeinsam schnell aufschlussreiche Berichte für viele Projektbeteiligte erstellen. Um die Big Data-Anforderungen zu erfüllen, planen Sie, Azure Databricks zu empfehlen und die Data Science & Engineering-Umgebung zu implementieren.
Sehen wir uns an, warum Azure Databricks die richtige Wahl sein kann, um diese Anforderungen zu erfüllen.
- Azure Databricks bietet einen integrierten Analytics-Arbeitsbereich, der auf Apache Spark basiert und die Zusammenarbeit zwischen verschiedenen Benutzern ermöglicht.
- Durch die Verwendung von Spark-Komponenten wie Spark SQL und Dataframes kann Azure Databricks strukturierte Daten verarbeiten. Es kann mit Tools für die Echtzeitdatenerfassung wie Kafka und Flume für die Verarbeitung von Streamingdaten integriert werden.
- Spark-basierte Funktionen für die sichere Datenintegration ermöglichen Ihnen die Vereinheitlichung Ihrer Daten ohne Zentralisierung. Wissenschaftliche Fachkräfte für Daten können Daten in wenigen Schritten visualisieren, wozu sie vertraute Tools wie Matplotlib, ggplot oder d3 verwenden.
- Sie können Ihre Dateninfrastruktur dank Abstrahierung der Infrastrukturkomplexität durch die Azure Databricks-Runtime ohne spezielles Fachwissen einrichten und konfigurieren. Benutzer können vorhandene Programmiersprachenkenntnisse für Python, Scala und R verwenden und die Daten untersuchen.
- Azure Databricks lässt sich tief in Azure-Datenbanken und -Speicher wie Azure Synapse Analytics, Azure Cosmos DB, Azure Data Lake Storage und Azure Blob Storage integrieren. Es unterstützt verschiedene Datenspeicherplattformen, die die Big Data-Speicheranforderungen von Tailwind Traders erfüllen.
- Die Integration in Power BI ermöglicht schnelle und aussagekräftige Erkenntnisse, die eine Anforderung von Tailwind Traders darstellen.
- Azure Databricks SQL ist nicht die richtige Wahl, da es keine unstrukturierten Daten verarbeiten kann.
- Azure Databricks Machine Learning ist auch nicht die richtige Umgebungswahl, da maschinelles Lernen in diesem Szenario keine Anforderung ist.
Zu beachtende Punkte bei Verwendung von Azure Databricks
Sie können Azure Databricks als Lösung für mehrere Szenarien verwenden. Überlegen Sie, wie Ihre Datenintegrationslösung für Tailwind Traders von dem Dienst profitieren kann.
- Berücksichtigen der Data Science-Vorbereitung von Daten. Erstellen, Klonen und Bearbeiten von Clustern komplexer, unstrukturierter Daten. Wandeln Sie die Datencluster in spezifische Aufträge um. Stellen Sie die Ergebnisse zur Überprüfung an wissenschaftliche Fachkräfte für Daten und Data Analysts bereit.
- Berücksichtigen von Erkenntnissen aus den Daten. Implementieren Sie Azure Databricks, um Empfehlungs-Engines, Churn-Analysen und Eindringungserkennung zu erstellen.
- Berücksichtigen der daten- und analyseteamsübergreifenden Produktivität. Erstellen Sie eine Zusammenarbeitsumgebung und gemeinsam genutzte Arbeitsbereiche für technische Fachkräfte für Daten, Data Analysts und wissenschaftliche Fachkräfte für Daten. Teams können über den gesamten Data Science-Lebenszyklus hinweg in gemeinsam genutzten Arbeitsbereichen zusammenarbeiten, wodurch wertvolle Zeit und Ressourcen eingespart werden können.
- Berücksichtigen von Big Data-Workloads. Nutzen Sie Azure Data Lake und die Engine, um die beste Leistung und Zuverlässigkeit für Ihre Big Data-Workloads zu erzielen. Erstellen Sie unkomplizierte mehrstufige Datenpipelines.
- Berücksichtigen von Machine Learning-Programmen. Nutzen Sie die integrierte End-to-End-Machine Learning-Umgebung. Sie umfasst verwaltete Dienste für Experimentnachverfolgung, Modelltraining, Featureentwicklung und -verwaltung sowie Feature- und Modellbereitstellung.