Was ist Data Science in Microsoft Fabric?
Wichtig
Microsoft Fabric befindet sich derzeit in der Vorschauversion. Diese Informationen beziehen sich auf eine Vorabversion des Produkts, an der vor der Veröffentlichung noch wesentliche Änderungen vorgenommen werden können. Microsoft übernimmt keine Garantie, weder ausdrücklich noch stillschweigend, für die hier bereitgestellten Informationen.
Microsoft Fabric bietet Data Science Erfahrungen, um Benutzern die Möglichkeit zu geben, End-to-End Data Science-Workflows zum Zwecke der Datenanreicherung und geschäftlicher Erkenntnisse abzuschließen. Sie können eine breite Palette von Aktivitäten im gesamten Data Science-Prozess durchführen, von der Untersuchung, Vorbereitung und Bereinigung von Daten über Experimente, Modellierung, Modellbewertung und Bereitstellung von Vorhersageeinblicken bis hin zu BI-Berichten.
Microsoft Fabric-Benutzer können auf eine Data Science Startseite zugreifen. Von dort aus können sie verschiedene relevante Ressourcen entdecken und darauf zugreifen. Sie können beispielsweise Machine Learning-Experimente, Modelle und Notebooks erstellen. Sie können auch vorhandene Notebooks auf der Data Science Startseite importieren.
Möglicherweise wissen Sie, wie ein typischer Data Science-Prozess funktioniert. Als ein bekannter Prozess folgen die meisten Machine Learning-Projekte diesem.
Auf hoher Ebene umfasst der Prozess die folgenden Schritte:
- Problemformulierung und Ideenfindung
- Datenermittlung und -vorverarbeitung
- Experimentieren und Modellieren
- Anreichern und Operationalisieren
- Gewinnen von Einblicken
In diesem Artikel werden die Funktionen von Microsoft Fabric Data Science aus der Perspektive des Data Science-Prozesses beschrieben. Für jeden Schritt im Data Science-Prozess werden in diesem Artikel die Microsoft Fabric-Funktionen zusammengefasst, die Ihnen helfen können.
Problemformulierung und Ideenfindung
Data Science Benutzer in Microsoft Fabric auf derselben Plattform arbeiten wie Geschäftsbenutzer und Analysten. Die Gemeinsame Nutzung und Zusammenarbeit von Daten wird dadurch nahtloser über verschiedene Rollen hinweg. Analysten können Power BI-Berichte und Datasets problemlos für Data Science-Experten freigeben. Die einfache rollenübergreifende Zusammenarbeit in Microsoft Fabric erleichtert Die Übergaben während der Problemformulierungsphase erheblich.
Datenermittlung und -vorverarbeitung
Microsoft Fabric-Benutzer können mithilfe des Lakehouse-Elements mit Daten in OneLake interagieren. Lakehouse lässt sich problemlos an ein Notebook anfügen, um Daten zu durchsuchen und mit ihnen zu interagieren.
Benutzer können Daten aus einem Lakehouse einfach direkt in einen Pandas-Dataframe lesen. Für die Untersuchung ermöglicht dies nahtlose Datenlesevorgänge aus One Lake.
Für Datenerfassungs- und Datenorchestrierungspipelines mit Datenintegrationspipelines – einem nativ integrierten Teil von Microsoft Fabric – stehen leistungsstarke Tools zur Verfügung. Einfach zu erstellende Datenpipelines können auf die Daten zugreifen und sie in ein Format transformieren, das maschinelles Lernen nutzen kann.
Durchsuchen von Daten
Ein wichtiger Teil des Machine Learning-Prozesses ist das Verstehen von Daten durch Untersuchung und Visualisierung.
Je nach Datenspeicherort bietet Microsoft Fabric verschiedene Tools zum Untersuchen und Vorbereiten der Daten für Analysen und maschinelles Lernen. Notebooks werden zu einer der schnellsten Möglichkeiten, mit der Datensuche zu beginnen.
Apache Spark und Python für die Datenvorbereitung
Microsoft Fabric bietet Funktionen zum transformieren, vorbereiten und untersuchen Ihrer Daten im großen Stil. Mit Spark können Benutzer die Tools PySpark/Python, Scala und SparkR/SparklyR nutzen, um Daten im großen Stil vorverarbeitet zu können. Leistungsstarke Open-Source-Visualisierungsbibliotheken können die Datenexploration verbessern, um die Daten besser zu verstehen.
Data Wrangler für eine nahtlose Datenbereinigung
Die Microsoft Fabric Notebook-Benutzeroberfläche hat ein Feature zur Verwendung von Data Wrangler hinzugefügt, einem Codetool, das Daten vorbereitet und Python-Code generiert. Auf diese Weise können Sie mühsame und alltägliche Aufgaben einfach beschleunigen, z. B. Datenbereinigung, Wiederholbarkeit und Automatisierung durch generierten Code erstellen. Weitere Informationen zu Data Wrangler finden Sie im Abschnitt Data Wrangler dieses Dokuments.
Experimentieren und ML-Modellierung
Mit Tools wie PySpark/Python, SparklyR/R können Notebooks das Training von Machine Learning-Modellen verarbeiten.
ML-Algorithmen und -Bibliotheken können beim Trainieren von Machine Learning-Modellen helfen. Bibliotheksverwaltungstools können diese Bibliotheken und Algorithmen installieren. Benutzer haben daher die Möglichkeit, eine Vielzahl beliebter Machine Learning-Bibliotheken zu nutzen, um ihr ML-Modelltraining in Microsoft Fabric abzuschließen.
Darüber hinaus können beliebte Bibliotheken wie Scikit Learn auch Modelle entwickeln.
MLflow-Experimente und -Ausführungen können das ML-Modelltraining nachverfolgen. Microsoft Fabric bietet eine integrierte MlFlow-Oberfläche, mit der Benutzer interagieren können, um Experimente und Modelle zu protokollieren. Erfahren Sie mehr über die Verwendung von MLflow zum Nachverfolgen von Experimenten und zum Verwalten von Modellen in Microsoft Fabric.
SynapseML
Die Open-Source-Bibliothek SynapseML (früher bekannt als MMLSpark), die Microsoft besitzt und verwaltet, vereinfacht die Erstellung einer hochgradig skalierbaren Machine Learning-Pipeline. Als Toolökosystem erweitert es das Apache Spark-Framework in mehrere neue Richtungen. SynapseML vereint mehrere vorhandene Machine Learning-Frameworks und neue Microsoft-Algorithmen in einer einzigen, skalierbaren API. Die Open-Source-SynapseML-Bibliothek umfasst ein umfassendes Ökosystem von ML-Tools für die Entwicklung von Vorhersagemodellen sowie die Nutzung vortrainierten KI-Modellen von Azure Cognitive Services. Erfahren Sie mehr über SynapseML.
Anreichern und Operationalisieren
Notebooks können die Batchbewertung von Machine Learning-Modellen mit Open-Source-Bibliotheken für die Vorhersage oder der skalierbaren universellen Spark Predict-Funktion von Microsoft Fabric verarbeiten, die mlflow-gepackte Modelle in der Microsoft Fabric-Modellregistrierung unterstützt.
Gewinnen von Einblicken
In Microsoft Fabric können vorhergesagte Werte problemlos in OneLake geschrieben und mit dem Power BI-Direct Lake-Modus nahtlos aus Power BI-Berichten genutzt werden. Dies macht es für Data Science-Experten sehr einfach, Ergebnisse aus ihrer Arbeit mit Stakeholdern zu teilen, und es vereinfacht auch die Operationalisierung.
Notebooks, die Batchbewertungen enthalten, können mit den Notebook-Planungsfunktionen für die Ausführung geplant werden. Die Batchbewertung kann auch als Teil von Datenpipelineaktivitäten oder Spark-Aufträgen geplant werden. Power BI erhält automatisch die neuesten Vorhersagen, ohne dass die Daten geladen oder aktualisiert werden müssen, dank des Direct Lake-Modus in Microsoft Fabric.
Nächste Schritte
- Erste Schritte mit End-to-End Data Science-Beispielen finden Sie unter Data Science Tutorials
- Weitere Informationen zur Datenaufbereitung und -bereinigung mit Data Wrangler finden Sie unter Data Wrangler.
- Weitere Informationen zum Nachverfolgen von Experimenten finden Sie unter Machine Learning-Experiment.
- Weitere Informationen zum Verwalten von Modellen finden Sie unter Machine Learning-Modell.
- Weitere Informationen zur Batchbewertung mit Predict finden Sie unter Bewerten von Modellen mit PREDICT.
- Bereitstellen von Vorhersagen von Lakehouse zu Power BI mit direct lake mode