Freigeben über


End-to-End-Szenario für Data Science: Einführung und Architektur

Diese Tutorials präsentieren ein komplettes End-to-End-Szenario in der Fabric Data Science-Erfahrung. Sie decken jeden Schritt ab, von

  • Datenaufnahme
  • Datenbereinigung
  • Datenaufbereitung

zu

  • Schulung zum Machine Learning-Modell
  • Erkenntnisgenerierung

und decken dann die Nutzung dieser Erkenntnisse mit Visualisierungstools wie Power BI ab.

Personen, die neu bei Microsoft Fabric sind, sollten Was ist Microsoft Fabric? besuchen.

Einleitung

Ein Lebenszyklus eines Data Science-Projekts umfasst in der Regel die folgenden Schritte:

  • Grundlegendes zu den Geschäftsregeln
  • Abrufen der Daten
  • Erkunden, Bereinigen, Vorbereiten und Visualisieren der Daten
  • Trainieren des Modells und Nachverfolgen des Experiments
  • Bewertung des Modells und Generieren von Erkenntnissen

Die Schritte werden häufig iterativ fortgesetzt. Die Ziele und Erfolgskriterien jeder Phase hängen von der Zusammenarbeit, der Datenfreigabe und der Dokumentation ab. Die Fabric Data Science-Erfahrung umfasst mehrere systemeigene Features, die eine nahtlose Zusammenarbeit, Datenerfassung, Freigabe und Nutzung ermöglichen.

Diese Lernprogramme platzieren Sie in der Rolle eines Data Scientists, der ein Dataset untersuchen, bereinigen und transformieren muss, das den Abwanderungsstatus von 10.000 Bankkunden enthält. Anschließend erstellen Sie ein Machine Learning-Modell, um vorherzusagen, welche Bankkunden wahrscheinlich verlassen werden.

Sie führen die folgenden Aktivitäten in den Lernprogrammen aus:

  1. Verwenden der Fabric-Notizbücher für Data Science-Szenarien
  2. Verwenden von Apache Spark zum Aufnehmen von Daten in ein Fabric Lakehouse
  3. Laden vorhandener Daten aus den Lakehouse-Deltatabellen
  4. Verwenden von Apache Spark- und Python-basierten Tools zum Bereinigen und Transformieren von Daten
  5. Erstellen von Experimenten und Läufen zum Trainieren verschiedener Machine Learning-Modelle
  6. Verwenden von MLflow und der Fabric-Benutzeroberfläche zum Registrieren und Nachverfolgen von trainierten Modellen
  7. Führen Sie das Scoring in großem Maßstab durch und speichern Sie Vorhersagen und Inferenz-Ergebnisse im Lakehouse.
  8. Verwenden von DirectLake zum Visualisieren von Vorhersagen in Power BI

Architektur

In dieser Lernprogrammreihe wird ein vereinfachtes End-to-End-Data Science-Szenario vorgestellt, das Folgendes umfasst:

  1. Datenaufnahme aus einer externen Datenquelle.
  2. Datenexploration und Reinigung.
  3. Schulung und Registrierung des Machine Learning-Modells.
  4. Batchbewertung und Vorhersagespeicherung.
  5. Vorhersageergebnisvisualisierung in Power BI.

Diagramm der End-to-End-Szenariokomponenten der Data Science.

Verschiedene Komponenten des Data Science-Szenarios

Datenquellen – Um Daten mit Fabric aufzunehmen, können Sie ganz einfach und schnell eine Verbindung mit Azure Data Services, anderen Cloudplattformen und lokalen Datenressourcen herstellen. Mit Fabric-Notizbüchern können Sie Daten aus diesen Ressourcen aufnehmen:

  • Integrierte Lakehouses
  • Data Warehouses
  • Semantikmodelle
  • Verschiedene Apache Spark-Datenquellen
  • Verschiedene Datenquellen, die Python unterstützen

Diese Lernprogrammreihe konzentriert sich auf die Datenaufnahme und das Laden aus einem Seehaus.

Erkunden, bereinigen und vorbereiten – Die Fabric Data Science-Erfahrung unterstützt die Datenreinigung, Transformation, Erkundung und Featurisierung. Es verwendet integrierte Spark-Oberflächen und Python-basierte Tools , z. B. Data Wrangler und SemPy Library. Dieses Lernprogramm zeigt die Datenerkundung mit der seaborn Python-Bibliothek sowie die Datenreinigung und -vorbereitung mit Apache Spark.

Modelle und Experimente – Mit Fabric können Sie Machine Learning-Modelle mit integrierten Experimenten trainieren, evaluieren und ihre Leistung beurteilen. Um Ihre Modelle zu registrieren und bereitzustellen und Experimente nachzuverfolgen, bietet MLflow eine nahtlose Integration in Fabric als Möglichkeit zum Modellieren von Elementen. Um Geschäftseinblicke zu erstellen und zu teilen, bietet Fabric weitere Features für die Modellvorhersage im Maßstab (PREDICT), um Geschäftseinblicke zu erstellen und zu teilen.

Storage – Fabric standardisiert auf Delta Lake, was bedeutet, dass alle Fabric-Engines mit demselben Dataset interagieren können, das in einem Seehaus gespeichert ist. Mit dieser Speicherebene können Sie sowohl strukturierte als auch unstrukturierte Daten speichern, die sowohl dateibasierten Speicher als auch tabellarische Formate unterstützen. Sie können auf einfache Weise auf die Datasets und gespeicherten Dateien über alle Fabric-Erfahrungselemente zugreifen , z. B. Notizbücher und Pipelines.

Bereitstellen von Analysen und Erkenntnissen – Power BI, ein branchenführendes Business Intelligence-Tool, kann Lakehouse-Daten für die Erstellung von Berichten und Visualisierungen nutzen. In Notizbuchressourcen, native Python- oder Spark-Visualisierungsbibliotheken

  • matplotlib
  • seaborn
  • plotly
  • usw.

kann daten visualisieren, die in einem Seehaus gespeichert sind. Die SemPy-Bibliothek unterstützt auch die Datenvisualisierung. Diese Bibliothek unterstützt integrierte, aufgabenspezifische Visualisierungen für

  • Das semantische Datenmodell
  • Abhängigkeiten und deren Verletzungen
  • Anwendungsfälle für Klassifizierung und Regression

Nächster Schritt