Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Für Datenanreicherung und Geschäftserkenntnisse bietet Microsoft Fabric Data Science-Erfahrungen, mit denen Benutzer End-to-End-Data Science-Workflows erstellen können. Informationen zu den ersten Schritten finden Sie im End-to-End-Lernprogramm zu Data Science.
Sie können ein breites Spektrum an Aktivitäten im gesamten Data Science-Prozess abschließen:
- Datensuche
- Datenaufbereitung
- Datenreinigung
- Experimentieren
- Modellierung
- Modellbewertung
- Bereitstellung von Vorhersageeinblicken für BI-Berichte
Microsoft Fabric-Benutzer können auf eine Data Science-Homepage zugreifen. Anschließend können sie verschiedene relevante Ressourcen ermitteln und darauf zugreifen, wie im folgenden Screenshot gezeigt:
Die meisten Machine Learning-Projekte folgen dem Data Science-Prozess. Auf hoher Ebene umfasst dieser Prozess die folgenden Schritte:
- Problemformulierung und Idee
- Datenermittlung und Vorverarbeitung
- Experimentieren und Modellieren
- bereichern und operationalisieren
- Einblicke erstellen
In diesem Artikel werden die Microsoft Fabric Data Science-Funktionen aus sicht eines Data Science-Prozesses beschrieben. Für jeden Schritt im Data Science-Prozess fasst dieser Artikel die Microsoft Fabric-Funktionen zusammen, die Ihnen helfen können.
Problemformulierung und Idee
Data Science-Benutzer in Microsoft Fabric arbeiten auf derselben Plattform wie Geschäftsbenutzer und Analysten. Die Datenfreigabe und Zusammenarbeit zwischen verschiedenen Rollen werden dadurch nahtloser. Analysten können Power BI-Berichte und -Datasets ganz einfach mit Data Science-Experten teilen. Die einfache Zusammenarbeit zwischen Rollen in Microsoft Fabric erleichtert die Übergabe während der Problemformulierungsphase.
Erkennung und Vorverarbeitung von Daten
Microsoft Fabric-Benutzer können mithilfe der Lakehouse-Ressource mit Daten in OneLake interagieren. Um Daten zu durchsuchen und mit ihnen zu interagieren, wird das Lakehouse einfach an ein Notizbuch angebunden. Benutzer können Daten aus einem Lakehouse einfach direkt in einen Pandas-Datenframe lesen. Bei der Untersuchung sind dann nahtlose Datenlesevorgänge aus OneLake möglich.
Ein leistungsstarker Satz von Tools steht für Pipelines zur Datenaufnahme, Datenorchestrierung sowie Datenintegration zur Verfügung – ein nativer Bestandteil von Microsoft Fabric. Einfach zu erstellende Pipelines können auf die Daten zugreifen und sie in ein Format umwandeln, das maschinelles Lernen nutzen kann.
Durchsuchen von Daten
Ein wichtiger Teil des maschinellen Lernprozesses umfasst das Verständnis von Daten durch Exploration und Visualisierung.
Je nach Datenspeicherort bietet Microsoft Fabric Tools zum Untersuchen und Vorbereiten der Daten für Analysen und maschinelles Lernen. Notizbücher selbst werden effizient, effektive Datenerkundungstools.
Apache Spark und Python zur Datenvorbereitung
Microsoft Fabric kann Ihre Daten in großem Umfang transformieren, vorbereiten und untersuchen. Mit Spark können Benutzer PySpark/Python, Scala und SparkR/SparklyR-Tools verwenden, um Daten im großen Maßstab vorzuverarbeitet. Leistungsstarke Open-Source-Visualisierungsbibliotheken können die Datenerkundung verbessern, um bessere Datenverständnissfunktionen zu erzielen.
Daten-Wrangler für nahtlose Datenbereinigung
Um Data Wrangler zu verwenden, hat die Microsoft Fabric-Notizbuchoberfläche ein Codetoolfeature hinzugefügt, das Daten vorbereitet und Python-Code generiert. Diese Erfahrung erleichtert es, mühsame und mundane Aufgaben zu beschleunigen , z. B. Datenreinigung. Damit können Sie auch Automatisierung und Wiederholbarkeit über generierten Code erstellen. Erfahren Sie mehr über Data Wrangler im Abschnitt "Data Wrangler" dieses Dokuments.
Experimentieren und ML-Modellierung
Mit Tools wie PySpark/Python und SparklyR/R können Notizbücher maschinelle Lernmodellschulungen verarbeiten. Maschinelle Lernalgorithmen und -bibliotheken können dabei helfen, Machine Learning-Modelle zu trainieren. Bibliotheksverwaltungstools können diese Bibliotheken und Algorithmen installieren. Benutzer können dann beliebte Machine Learning-Bibliotheken verwenden, um ihre ML-Modellschulung in Microsoft Fabric abzuschließen. Darüber hinaus können beliebte Bibliotheken wie Scikit Learn auch Modelle entwickeln.
MLflow-Experimente und -Läufe können ML-Modellschulungen nachverfolgen. Zum Protokollieren von Experimenten und Modellen bietet Microsoft Fabric eine integrierte MLflow-Erfahrung, die Interaktion unterstützt. Erfahren Sie mehr über die Verwendung von MLflow zum Nachverfolgen von Experimenten und Zum Verwalten von Modellen in Microsoft Fabric.
SynapseML
Microsoft besitzt und betreibt die Open Source-Bibliothek SynapseML (früher MMLSpark). Es vereinfacht die Erstellung massiver skalierbarer Machine Learning-Pipelines. Als Werkzeugökosystem erweitert es das Apache Spark Framework in verschiedene neue Richtungen. SynapseML vereint mehrere vorhandene Machine Learning Frameworks und neue Microsoft-Algorithmen in einer einzigen, skalierbaren API. Die Open-Source SynapseML-Bibliothek enthält ein umfangreiches Ökosystem von ML-Tools für die Entwicklung von Prädiktiven Modellen und verwendet vortrainierte KI-Modelle von Azure AI-Diensten. Weitere Informationen finden Sie in der SynapseML-Ressource .
Bereichern und Operationalisieren
Notebooks können die Batchbewertung des Machine Learning-Modells mit Open-Source-Bibliotheken zur Vorhersage verarbeiten. Sie können auch die skalierbare universelle Spark Predict-Funktion von Microsoft Fabric verarbeiten. Diese Funktion unterstützt gepackte MLflow-Modelle in der Microsoft Fabric-Modellregistrierung.
Gewinnen von Erkenntnissen
In Microsoft Fabric können Sie leicht vorhergesagte Werte in OneLake schreiben. Von dort aus können Power BI-Berichte sie nahtlos mit dem Power BI Direct Lake-Modus nutzen. Data Science-Experten können dann ganz einfach die Ergebnisse ihrer Arbeit mit den Projektbeteiligten teilen – und es vereinfacht die Operationalisierung.
Sie können Planungsfunktionen für Notebooks verwenden, um die Ausführung von Notebooks zu planen, die die Batch-Auswertung enthalten. Sie können das Batch Scoring auch als Teil von Pipelineaktivitäten oder Spark-Jobs planen. Mit dem Direct Lake-Modus in Microsoft Fabric erhält Power BI automatisch die neuesten Vorhersagen, ohne dass Daten geladen oder aktualisiert werden müssen.
Durchsuchen von Daten mit semantischer Verknüpfung
Data Scientists und Business Analysts verbringen viel Zeit damit, Daten zu verstehen, zu bereinigen und zu transformieren, bevor eine sinnvolle Analyse beginnen kann. Business Analysts arbeiten in der Regel mit semantischen Modellen und codieren ihre Domänenkenntnisse und Geschäftslogik in Power BI-Measures. Andererseits können Datenwissenschaftler mit denselben Daten arbeiten, aber in der Regel eine andere Codeumgebung oder Sprache verwenden. Mit semantischer Verknüpfung können Datenwissenschaftler eine Verbindung zwischen Power BI-Semantikmodellen und synapse Data Science in der Microsoft Fabric-Erfahrung über die SemPy Python-Bibliothek herstellen. Um datenanalysen zu vereinfachen, erfasst und verwendet SemPy Datensemantik, da Benutzer verschiedene Transformationen für die semantischen Modelle ausführen. Wenn Data Scientists semantische Verknüpfungen verwenden, können sie
- Vermeiden der Neuimplementierung von Geschäftslogik und Domänenwissen in ihrem Code
- Einfacher Zugriff auf und Verwenden von Power BI-Measures in ihrem Code
- Verwenden Sie Semantik, um neue Erlebnisse zu fördern – z. B. semantische Funktionen.
- Untersuchen und Überprüfen funktionaler Abhängigkeiten und Beziehungen zwischen Daten
Wenn Organisationen SemPy verwenden, können sie erwarten
- Höhere Produktivität und schnellere Zusammenarbeit in Teams, die mit denselben Datasets arbeiten
- Förderung der übergreifenden Zusammenarbeit in Business Intelligence- und KI-Teams
- Reduzierte Mehrdeutigkeit und eine einfachere Lernkurve beim Onboarding in ein neues Modell oder Dataset
Weitere Informationen zur semantischen Verknüpfung finden Sie unter Was ist semantischer Link?.
Verwandte Inhalte
- Besuchen Sie Data Science Tutorials , um mit End-to-End Data Science-Beispielen zu beginnen
- Besuchen Sie Data Wrangler für weitere Informationen zur Datenvorbereitung und Reinigung mit Data Wrangler
- Besuchen Sie machine learning experiment , um mehr über das Nachverfolgen von Experimenten zu erfahren
- Besuchen Sie das Machine Learning-Modell , um mehr über die Modellverwaltung zu erfahren
- Besuchen Sie Bewertungsmodelle mit PREDICT , um mehr über die Batchbewertung mit Predict zu erfahren
- Bereitstellen von Lakehouse-Vorhersagen für Power BI mit Direct Lake