Was ist Data Science in Microsoft Fabric?

Mit Microsoft Fabric können Benutzer*innen komplette Data-Science-Workflows für die Datenanreicherung und für geschäftliche Erkenntnisse abschließen. Sie können eine Vielzahl von Aktivitäten im gesamten Data-Science-Prozess durchführen, unter anderem die Untersuchung, Aufbereitung und Bereinigung von Daten sowie Experimente, Modellierung, Modellbewertung, Bereitstellung von Vorhersageerkenntnissen und BI-Berichte (Business Intelligence).

Benutzer*innen von Microsoft Fabric können auf eine Data-Science-Startseite zugreifen. Dort können sie verschiedene relevante Ressourcen finden und auf sie zugreifen. Sie können beispielsweise mit maschinellem Lernen Experimente, Modelle und Notebooks erstellen. Sie können auch vorhandene Notebooks auf der Data-Science-Startseite importieren.

Screenshot: Data-Science-Startseite

Möglicherweise ist Ihnen die Funktionsweise eines typischen Data-Science-Prozesses bekannt. Die meisten Machine-Learning-Projekte befolgen diesen bekannten Prozess.

Im Allgemeinen umfasst der Prozess die folgenden Schritte:

  • Problemformulierung und Ideenfindung
  • Ermittlung und Vorverarbeitung von Daten
  • Experimentieren und Modellieren
  • Anreichern und Operationalisieren
  • Erkenntnisse gewinnen

Darstellung des Data-Science-Prozesses

In diesem Artikel werden die Data-Science-Funktionen von Microsoft Fabric aus der Perspektive des Data-Science-Prozesses beschrieben. In diesem Artikel werden für jeden Schritt im Data-Science-Prozess die Microsoft Fabric-Funktionen zusammengefasst, die Ihnen helfen können.

Problemformulierung und Ideenfindung

Benutzer*innen von Data Science in Microsoft Fabric arbeiten auf derselben Plattform wie Geschäftsbenutzer*innen und Business Analysts. Die Datenfreigabe und Zusammenarbeit zwischen verschiedenen Rollen werden dadurch nahtloser. Analyst*innen können Berichte und Datasets von Power BI problemlos für Data-Science-Expert*innen freigeben. Die einfache Zusammenarbeit zwischen verschiedenen Rollen in Microsoft Fabric erleichtert die Übergaben während der Problemformulierungsphase erheblich.

Ermittlung und Vorverarbeitung von Daten

Benutzer*innen von Microsoft Fabric können mithilfe des Lakehouse-Elements mit Daten in OneLake interagieren. Lakehouse kann problemlos an ein Notebook angefügt werden, um Daten zu durchsuchen und mit ihnen zu interagieren.

Benutzer*innen können Daten aus einem Lakehouse problemlos direkt in einen Pandas-Dataframe lesen. Dies ermöglich bei der Untersuchung nahtlose Datenlesevorgänge aus OneLake.

Eine Reihe leistungsstarker Tools, die für Pipelines zur Datenerfassung und Datenorchestrierung mit Datenintegrationspipelines verfügbar und nativ in Microsoft Fabric integriert sind. Einfach zu erstellende Datenpipelines können auf die Daten zugreifen und sie in ein Format transformieren, das beim maschinellen Lernen genutzt werden kann.

Durchsuchen von Daten

Ein wichtiger Teil des Machine-Learning-Prozesses ist es, die Daten über die Durchsuchung und Visualisierung zu verstehen.

Abhängig vom Speicherort der Daten bietet Microsoft Fabric eine Reihe verschiedener Tools zum Durchsuchen und Aufbereiten der Daten für die Analyse und das maschinelle Lernen. Notebooks werden zu einer der schnellsten Möglichkeiten für den Einstieg in die Datenuntersuchung.

Aufbereiten von Daten mit Apache Spark und Python

Microsoft Fabric bietet Funktionen zum Transformieren, Aufbereiten und Untersuchen Ihrer Daten im großen Stil. Spark ermöglicht Benutzer*innen die Vorverarbeitung von Daten im großen Stil mit den Tools PySpark/Python, Scala und SparkR/SparklyR. Die Datenuntersuchung kann durch leistungsstarke Open-Source-Visualisierungsbibliotheken verbessert werden, um die Daten besser zu verstehen.

Nahtlose Datenbereinigung mit Data Wrangler

Der Notebookumgebung in Microsoft Fabric wurde ein Feature zur Verwendung von Data Wrangler hinzugefügt: ein Codetool, das Daten aufbereitet und Python-Code generiert. Mit diesem gestalten sich langwierige und alltägliche Aufgaben weniger zeitintensiv, z. B. das Bereinigen von Daten und das Erstellen von Wiederholbarkeit und Automatisierung durch generierten Code. Weitere Informationen zu Data Wrangler finden Sie im Abschnitt „Data Wrangler“ dieses Dokuments.

Experimentieren und ML-Modellierung

Mit Tools wie PySpark/Python und SparklyR/R können Machine Learning-Modelle durch Notebooks trainiert werden.

ML-Algorithmen und -Bibliotheken können beim Trainieren von Machine Learning-Modellen helfen. Diese Bibliotheken und Algorithmen können mit Bibliotheksverwaltungstools installiert werden. Benutzer*innen haben daher die Möglichkeit, eine Vielzahl gängiger Machine-Learning-Bibliotheken zu nutzen, um das Training ihrer ML-Modelle in Microsoft Fabric abzuschließen.

Darüber hinaus können Modelle auch durch beliebte Bibliotheken wie Scikit Learn entwickelt werden.

Experimente und Ausführungen von MLflow können das Training von ML-Modellen nachverfolgen. Microsoft Fabric bietet eine integrierte MLflow-Benutzeroberfläche, mit der Benutzer*innen interagieren können, um Experimente und Modelle zu protokollieren. In diesem Artikel erfahren Sie mehr über die Verwendung von MLflow zum Nachverfolgen von Experimenten und zum Verwalten von Modellen in Microsoft Fabric.

SynapseML

Die von Microsoft verwaltete Open-Source-Bibliothek SynapseML (zuvor als MMLSpark bezeichnet) vereinfacht die Erstellung von hochgradig skalierbaren Machine-Learning-Pipelines. Als Toolökosystem erweitert sie das Apache Spark-Framework in mehrere neue Richtungen. SynapseML vereint mehrere vorhandene Machine-Learning-Frameworks mit neuen Microsoft-Algorithmen in einer einzigen, skalierbaren API. Die Open-Source-Bibliothek SynapseML umfasst ein umfangreiches Ökosystem von ML-Tools für die Entwicklung von Vorhersagemodellen sowie die Nutzung vortrainierter KI-Modelle von Azure KI Services. Weitere Informationen finden Sie unter SynapseML.

Anreichern und Operationalisieren

Notebooks können die Batchbewertung von Machine Learning-Modellen mit Open-Source-Bibliotheken für die Vorhersage oder die skalierbare universelle Spark Predict-Funktion von Microsoft Fabric verarbeiten, die für MLflow gepackte Modelle in der Microsoft Fabric-Modellregistrierung unterstützt.

Erkenntnisse gewinnen

In Microsoft Fabric können vorhergesagte Werte problemlos in OneLake geschrieben und mithilfe des Direct Lake-Modus von Power BI nahtlos aus Power BI-Berichten genutzt werden. Dieser Modus erleichtert es Data-Science-Expert*innen, Ergebnisse aus ihrer Arbeit mit Projektbeteiligten zu teilen, und er vereinfacht auch die Operationalisierung.

Notebooks, die eine Batchbewertung enthalten, können mit den Notebookplanungsfunktionen für die Ausführung geplant werden. Die Batchbewertung kann auch als Teil von Datenpipelineaktivitäten oder Spark-Aufträgen geplant werden. Power BI erhält durch den Direct Lake-Modus in Microsoft Fabric automatisch die neuesten Vorhersagen, ohne dass Daten geladen oder aktualisiert werden müssen.

Wichtig

Dieses Feature befindet sich in der Vorschau.

Wissenschaftliche Fachkräfte für Daten und Business Analysts verbringen viel Zeit damit, Daten zu verstehen, zu bereinigen und zu transformieren, bevor sie mit einer sinnvollen Analyse beginnen können. Business Analysts arbeiten in der Regel mit semantischen Modellen und codieren ihre Domänenkenntnisse und Geschäftslogik in Power BI-Measures. Zudem können wissenschaftliche Fachkräfte für Daten mit denselben Daten arbeiten, aber in der Regel in einer anderen Codeumgebung oder Sprache.

Mit Semantic Link (Vorschau) können wissenschaftliche Fachkräfte für Daten über die SemPy Python-Bibliothek eine Verbindung zwischen semantischen Power BI-Modellen und der Synapse Data Science in Microsoft Fabric herstellen. SemPy vereinfacht die Datenanalyse, indem Datensemantik erfasst und genutzt wird, da Benutzer verschiedene Transformationen an ihren semantischen Modellen durchführen. Mithilfe des Semantic Links können wissenschaftliche Fachkräfte für Daten:

  • Vermeiden, dass Geschäftslogik und Domänenwissen in ihrem Code neu implementiert werden müssen
  • Einfach auf Power BI-Measures in ihrem Code zugreifen und ihn verwenden
  • Semantik zur Förderung neuer Erfahrungen nutzen, z. B. semantische Funktionen
  • Funktionale Abhängigkeiten und Beziehungen zwischen Daten untersuchen und Überprüfen

Durch die Verwendung von SemPy haben Organisationen folgende Vorteile:

  • Gesteigerte Produktivität und schnellere Zusammenarbeit zwischen Teams, die mit denselben Datasets arbeiten
  • Verstärkte Zusammenarbeit zwischen den Teams für Business Intelligence und KI
  • Reduzierte Mehrdeutigkeit und eine einfachere Lernkurve beim Onboarding in ein neues Modell oder Dataset

Weitere Informationen zu Semantic Link finden Sie unter Was ist Semantic Link (Vorschau)?.