End-to-End-Szenario für Data Science: Einführung und Architektur

2025-04-30

Diese Tutorials präsentieren ein komplettes End-to-End-Szenario in der Fabric Data Science-Erfahrung. Sie decken jeden Schritt ab, von

Datenaufnahme
Datenbereinigung
Datenaufbereitung

Schulung zum Machine Learning-Modell
Erkenntnisgenerierung

und decken dann die Nutzung dieser Erkenntnisse mit Visualisierungstools wie Power BI ab.

Personen, die neu bei Microsoft Fabric sind, sollten Was ist Microsoft Fabric? besuchen.

Einleitung

Ein Lebenszyklus eines Data Science-Projekts umfasst in der Regel die folgenden Schritte:

Grundlegendes zu den Geschäftsregeln
Abrufen der Daten
Erkunden, Bereinigen, Vorbereiten und Visualisieren der Daten
Trainieren des Modells und Nachverfolgen des Experiments
Bewertung des Modells und Generieren von Erkenntnissen

Die Schritte werden häufig iterativ fortgesetzt. Die Ziele und Erfolgskriterien jeder Phase hängen von der Zusammenarbeit, der Datenfreigabe und der Dokumentation ab. Die Fabric Data Science-Erfahrung umfasst mehrere systemeigene Features, die eine nahtlose Zusammenarbeit, Datenerfassung, Freigabe und Nutzung ermöglichen.

Diese Lernprogramme platzieren Sie in der Rolle eines Data Scientists, der ein Dataset untersuchen, bereinigen und transformieren muss, das den Abwanderungsstatus von 10.000 Bankkunden enthält. Anschließend erstellen Sie ein Machine Learning-Modell, um vorherzusagen, welche Bankkunden wahrscheinlich verlassen werden.

Sie führen die folgenden Aktivitäten in den Lernprogrammen aus:

Verwenden der Fabric-Notizbücher für Data Science-Szenarien
Verwenden von Apache Spark zum Aufnehmen von Daten in ein Fabric Lakehouse
Laden vorhandener Daten aus den Lakehouse-Deltatabellen
Verwenden von Apache Spark- und Python-basierten Tools zum Bereinigen und Transformieren von Daten
Erstellen von Experimenten und Läufen zum Trainieren verschiedener Machine Learning-Modelle
Verwenden von MLflow und der Fabric-Benutzeroberfläche zum Registrieren und Nachverfolgen von trainierten Modellen
Führen Sie das Scoring in großem Maßstab durch und speichern Sie Vorhersagen und Inferenz-Ergebnisse im Lakehouse.
Verwenden von DirectLake zum Visualisieren von Vorhersagen in Power BI

Architektur

In dieser Lernprogrammreihe wird ein vereinfachtes End-to-End-Data Science-Szenario vorgestellt, das Folgendes umfasst:

Verschiedene Komponenten des Data Science-Szenarios

Datenquellen – Um Daten mit Fabric aufzunehmen, können Sie ganz einfach und schnell eine Verbindung mit Azure Data Services, anderen Cloudplattformen und lokalen Datenressourcen herstellen. Mit Fabric-Notizbüchern können Sie Daten aus diesen Ressourcen aufnehmen:

Integrierte Lakehouses
Data Warehouses
Semantikmodelle
Verschiedene Apache Spark-Datenquellen
Verschiedene Datenquellen, die Python unterstützen

Diese Lernprogrammreihe konzentriert sich auf die Datenaufnahme und das Laden aus einem Seehaus.

Erkunden, bereinigen und vorbereiten – Die Fabric Data Science-Erfahrung unterstützt die Datenreinigung, Transformation, Erkundung und Featurisierung. Es verwendet integrierte Spark-Oberflächen und Python-basierte Tools , z. B. Data Wrangler und SemPy Library. Dieses Lernprogramm zeigt die Datenerkundung mit der seaborn Python-Bibliothek sowie die Datenreinigung und -vorbereitung mit Apache Spark.

Modelle und Experimente – Mit Fabric können Sie Machine Learning-Modelle mit integrierten Experimenten trainieren, evaluieren und ihre Leistung beurteilen. Um Ihre Modelle zu registrieren und bereitzustellen und Experimente nachzuverfolgen, bietet MLflow eine nahtlose Integration in Fabric als Möglichkeit zum Modellieren von Elementen. Um Geschäftseinblicke zu erstellen und zu teilen, bietet Fabric weitere Features für die Modellvorhersage im Maßstab (PREDICT), um Geschäftseinblicke zu erstellen und zu teilen.

Storage – Fabric standardisiert auf Delta Lake, was bedeutet, dass alle Fabric-Engines mit demselben Dataset interagieren können, das in einem Seehaus gespeichert ist. Mit dieser Speicherebene können Sie sowohl strukturierte als auch unstrukturierte Daten speichern, die sowohl dateibasierten Speicher als auch tabellarische Formate unterstützen. Sie können auf einfache Weise auf die Datasets und gespeicherten Dateien über alle Fabric-Erfahrungselemente zugreifen , z. B. Notizbücher und Pipelines.

Bereitstellen von Analysen und Erkenntnissen – Power BI, ein branchenführendes Business Intelligence-Tool, kann Lakehouse-Daten für die Erstellung von Berichten und Visualisierungen nutzen. In Notizbuchressourcen, native Python- oder Spark-Visualisierungsbibliotheken

matplotlib
seaborn
plotly
usw.

kann daten visualisieren, die in einem Seehaus gespeichert sind. Die SemPy-Bibliothek unterstützt auch die Datenvisualisierung. Diese Bibliothek unterstützt integrierte, aufgabenspezifische Visualisierungen für

Das semantische Datenmodell
Abhängigkeiten und deren Verletzungen
Anwendungsfälle für Klassifizierung und Regression

Nächster Schritt

Vorbereiten Ihres Systems für das Data Science-Lernprogramm

Freigeben über

End-to-End-Szenario für Data Science: Einführung und Architektur

Einleitung

Architektur

Verschiedene Komponenten des Data Science-Szenarios

Nächster Schritt

Feedback

Zusätzliche Ressourcen