End-to-End-Szenario für Data Science: Einführung und Architektur

Diese Tutorialreihe veranschaulicht ein End-to-End-Szenario in der Data Science-Benutzeroberfläche von Fabric. Sie implementieren jeden Schritt von der Datenerfassung, -bereinigung und -vorbereitung bis hin zum Trainieren von Machine Learning-Modellen und Generieren von Erkenntnissen. Anschließend nutzen Sie diese Erkenntnisse mithilfe von Visualisierungstools wie Power BI.

Wenn Sie noch nicht mit Microsoft Fabric vertraut sind, informieren Sie sich zunächst unter Was ist Microsoft Fabric?.

Einführung

Der Lebenszyklus eines Data Science-Projekts umfasst in der Regel (häufig iterativ) die folgenden Schritte:

  • Geschäftliche Aspekte
  • Datenbeschaffung
  • Untersuchung, Bereinigung, Vorbereitung und Visualisierung von Daten
  • Modelltraining und Experimentnachverfolgung
  • Modellbewertung und Generieren von Erkenntnissen

Die Ziele und Erfolgskriterien jeder einzelnen Phase hängen von der Zusammenarbeit, der Datenfreigabe und der Dokumentation ab. Die Data Science-Benutzeroberfläche von Fabric besteht aus mehreren nativen Features, die eine nahtlose Zusammenarbeit sowie Erfassung, Freigabe und Nutzung von Daten ermöglichen.

In diesen Tutorials übernehmen Sie die Rolle eines Data Scientists, dem die Aufgabe übertragen wurde, ein Dataset mit dem Abwanderungsstatus von 10 000 Kund*innen einer Bank zu untersuchen, zu bereinigen und zu transformieren. Anschließend erstellen Sie ein Machine Learning-Modell, um vorherzusagen, welche Bankkund*innen wahrscheinlich abwandern werden.

Sie lernen, wie Sie die folgenden Aktivitäten ausführen:

  1. Verwenden der Fabric-Notebooks für Data Science-Szenarien
  2. Erfassen von Daten in einem Fabric-Lakehouse mithilfe von Apache Spark
  3. Laden vorhandener Daten aus den Lakehouse-Deltatabellen
  4. Bereinigen und Transformieren von Daten mithilfe von Apache Spark- und Python-basierten Tools
  5. Erstellen von Experimenten und Ausführungen, um verschiedene Machine Learning-Modell zu trainieren
  6. Registrieren und Nachverfolgen trainierter Modelle mithilfe von MLflow und der Fabric-Benutzeroberfläche
  7. Ausführen einer Bewertung im großen Stil und Speichern von Vorhersagen und Rückschlussergebnissen im Lakehouse.
  8. Visualisieren von Vorhersagen in Power BI mithilfe von DirectLake

Aufbau

In dieser Tutorialreihe wird ein vereinfachtes End-to-End-Szenario für Data Science vorgestellt, das Folgendes umfasst:

  1. Erfassen von Daten aus einer externen Datenquelle
  2. Erkunden und Bereinigen von Daten.
  3. Machine Learning-Modelle trainieren und registrieren.
  4. Durchführen von Batchbewertungen und Speichern von Vorhersagen.
  5. Visualisieren von Vorhersageergebnissen mit Power BI.

Diagram of the Data science end-to-end scenario components.

Verschiedene Komponenten des Data Science-Szenarios

Datenquellen: Mit Fabric lassen sich einfach und schnell Verbindungen mit Azure Data Services, anderen Cloudplattformen und lokalen Datenquellen herstellen, aus denen Daten erfasst werden sollen. Mithilfe von Fabric-Notebooks können Sie Daten aus dem integrierten Lakehouse, Data Warehouse und den semantischen Modellen sowie verschiedenen von Apache Spark und Python unterstützten benutzerdefinierten Datenquellen erfassen. Diese Tutorialreihe konzentriert sich auf das Erfassen und Laden von Daten aus einem Lakehouse.

Untersuchen, Bereinigen und Vorbereiten: Die Data Science-Benutzeroberfläche in Fabric unterstützt die Bereinigung, Transformation, Untersuchung sowie das Feature Engineering von Daten mithilfe integrierter Funktionen in Spark- und Python-basierten Tools wie Data Wrangler und SemPy Library. In diesem Tutorial wird die Datenuntersuchung mithilfe der Python-Bibliothek seaborn sowie die Datenbereinigung und -vorbereitung mithilfe von Apache Spark vorgestellt.

Modelle und Experimente: Fabric ermöglicht Ihnen das Trainieren, Evaluieren und Bewerten von Machine Learning-Modellen mithilfe integrierter Experiment- und Modellelemente mit nahtloser Integration in MLflow zur Experimentnachverfolgung sowie Modellregistrierung und -bereitstellung. Fabric bietet auch Funktionen für die Modellvorhersage im großen Stil (PREDICT), um Geschäftserkenntnisse zu gewinnen und mit anderen zu teilen.

Speicher: Fabric ist für Delta Lake standardisiert, sodass alle Engines von Fabric mit ein und demselben, in einem Lakehouse gespeicherten Dataset interagieren können. Auf dieser Speicherebene können Sie strukturierte und unstrukturierte Daten speichern, die sowohl dateibasierte Speicher als auch das Tabellenformat unterstützen. Auf die gespeicherten Datasets und Dateien kann problemlos über alle Elemente der Fabric-Benutzeroberfläche wie Notebooks und Pipelines zugegriffen werden.

Verfügbarmachen von Analysen und Erkenntnissen: Daten aus einem Lakehouse können zur Berichterstellung und Visualisierung von Power BI genutzt werden, einem branchenführenden Business Intelligence-Tool. Im Lakehouse dauerhaft gespeicherte Daten können auch mithilfe der nativen Visualisierungsbibliotheken von Spark oder Python visualisiert werden: matplotlib, seaborn, plotly und viele weitere. Daten können auch mithilfe der SemPy-Bibliothek visualisiert werden, die integrierte, aufgabenspezifische Visualisierungen für das semantische Datenmodell, für Abhängigkeiten und Verstöße in deren Zusammenhang sowie für Klassifizierungs- und Regressionsanwendungsfälle unterstützt.

Nächster Schritt