Untersuchen und Verarbeiten von Daten mit Microsoft Fabric

Abgeschlossen

Daten bilden die Grundlage der Data Science, insbesondere wenn es darum geht, ein Machine Learning-Modell für das Erreichen künstlicher Intelligenz zu trainieren. In der Regel weisen Modelle eine verbesserte Leistung auf, wenn die Größe des Trainingsdatasets zunimmt. Neben der Quantität der Daten ist auch ihre Qualität von entscheidender Bedeutung.

Um sowohl die Qualität als auch die Quantität Ihrer Daten zu gewährleisten, lohnt sich die Verwendung der robusten Datenerfassungs- und Verarbeitungs-Engines von Microsoft Fabric. Sie können sich flexibel entweder für einen Low-Code- oder einen Code-First-Ansatz entscheiden, wenn Sie die wichtigsten Datenerfassungs-, Untersuchungs- und Transformationspipelines einrichten.

Erfassen der Daten in Microsoft Fabric

Um mit Daten in Microsoft Fabric zu arbeiten, müssen Sie zunächst Daten erfassen. Sie können Daten aus mehreren Quellen erfassen, sowohl aus lokalen als auch aus Clouddatenquellen. Sie können beispielsweise Daten aus einer CSV-Datei erfassen, die auf Ihrem lokalen Computer oder in einem Azure Data Lake Storage (Gen2) gespeichert ist.

Nachdem Sie eine Verbindung zu einer Datenquelle hergestellt haben, können Sie die Daten in einem Lakehouse von Microsoft Fabric speichern. Das Lakehouse dient als zentraler Speicherort für strukturierte, teilweise strukturierte und unstrukturierte Dateien. Sie können dann problemlos eine Verbindung mit dem Lakehouse herstellen, wenn Sie auf Ihre Daten zugreifen möchten, um sie zu untersuchen oder zu transformieren.

Untersuchen und Transformieren der Daten

Als Data Scientist sind Sie möglicherweise am besten mit dem Schreiben und Ausführen von Code in Notebooks vertraut. Microsoft Fabric bietet eine vertraute Notebook-Oberfläche, die von Spark-Compute unterstützt wird.

Apache Spark ist ein Open Source-Framework für die Parallelverarbeitung großer Datenmengen und Analysen.

Notebooks werden automatisch an Spark-Compute angefügt. Wenn Sie eine Zelle in einem Notebook zum ersten Mal ausführen, wird eine neue Spark-Sitzung gestartet. Die Sitzung bleibt geöffnet, wenn Sie nachfolgende Zellen ausführen. Die Spark-Sitzung wird nach einer gewissen Zeit der Inaktivität automatisch beendet, um Kosten zu sparen. Sie können die Sitzung auch manuell beenden.

Wenn Sie in einem Notizbuch arbeiten, können Sie die Sprache auswählen, die Sie verwenden möchten. Für Data Science-Workloads arbeiten Sie wahrscheinlich mit PySpark (Python) oder SparkR (R).

Screenshot of a notebook in Microsoft Fabric.

Innerhalb des Notebooks können Sie Ihre Daten mithilfe Ihrer bevorzugten Bibliothek oder mit einer der integrierten Visualisierungsoptionen untersuchen. Bei Bedarf können Sie Ihre Daten transformieren und die verarbeiteten Daten speichern, indem Sie sie zurück in das Lakehouse schreiben.

Vorbereiten der Daten mit Data Wrangler

Damit Sie Ihre Daten schneller untersuchen und transformieren können, bietet Microsoft Fabric den einfach zu bedienenden Data Wrangler.

Nach dem Starten von Data Wrangler erhalten Sie eine zusammenfassende Beschreibung der Daten, mit denen Sie arbeiten. Sie können die Zusammenfassungsstatistiken Ihrer Daten anzeigen, um Probleme wie fehlende Werte zu finden.

Um Ihre Daten zu bereinigen, können Sie einen der integrierten Datenbereinigungsvorgänge auswählen. Wenn Sie einen Vorgang auswählen, werden automatisch eine Vorschau des Ergebnisses und der zugehörige Code generiert. Wenn Sie alle erforderlichen Vorgänge ausgewählt haben, können Sie die Transformationen in Code exportieren und für Ihre Daten ausführen.