Schnelleres Aufbereiten von Daten mit Data Wrangler in Microsoft Fabric

Data Wrangler ist ein notebookbasiertes Tool, mit dem Benutzer eine immersive Schnittstelle für die explorative Datenanalyse durchführen können. Das Feature kombiniert eine rasterähnliche Datenanzeige mit dynamischen Zusammenfassungsstatistiken, integrierten Visualisierungen und einer Bibliothek mit allgemeinen Datenbereinigungsvorgängen. Jeder Vorgang kann mit wenigen Klicks angewendet werden, indem die Datenanzeige in Echtzeit aktualisiert und Code in Pandas oder PySpark generiert wird. Dieser kann als wiederverwendbare Funktion im Notebook gespeichert werden. Dieser Artikel konzentriert sich auf das Untersuchen und Transformieren von Pandas DataFrames. Anweisungen zur Verwendung von Data Wrangler auf Spark DataFrames finden Sie hier.

Voraussetzungen

Begrenzungen

  • Data Wrangler unterstützt derzeit die Pandas-Codegenerierung in der allgemeinen Verfügbarkeit und Spark-Codegenerierung in der öffentlichen Vorschau.
  • Benutzerdefinierte Codevorgänge werden derzeit nur für Pandas DataFrames unterstützt.
  • Die Anzeige von Data Wrangler funktioniert auf großen Monitoren besser. Bei der Verwendung kleinerer Bildschirme können jedoch verschiedene Teile der Benutzeroberfläche minimiert oder ausgeblendet werden.

Data Wrangler starten

Sie können Data Wrangler direkt über ein Microsoft Fabric-Notebook starten, um Pandas oder Spark Dataframes zu untersuchen und zu transformieren. Eine Übersicht über die Verwendung von Data Wrangler mit Spark DataFrames finden Sie in diesem Begleitartikel. Dieser nachstehende Codeschnipsel zeigt, wie Beispieldaten in einem Pandas DataFrame gelesen werden können:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

Verwenden Sie auf der Registerkarte „Daten“ des Notebookmenübands die Dropdownaufforderung von Data Wrangler, um die aktiven, zur Bearbeitung verfügbaren Dataframes zu durchsuchen. Wählen Sie die Datei aus, die Sie in Data Wrangler öffnen möchten.

Tipp

Data Wrangler kann nicht geöffnet werden, während der Notebookkernel ausgelastet ist. Die Ausführung einer Zelle muss abgeschlossen werden, bevor Data Wrangler gestartet werden kann.

Screenshot showing a Fabric notebook with the Data Wrangler dropdown prompt.

Auswählen von benutzerdefinierten Beispielen

Mit Data Wrangler können Sie ein benutzerdefiniertes Beispiel eines beliebigen aktiven DataFrames öffnen, indem Sie im Dropdownmenü „Benutzerdefiniertes Beispiel auswählen“ auswählen. Dadurch wird ein Popup-Fenster geöffnet, in dem Sie die Größe der gewünschten Stichprobe (Anzahl der Zeilen) und die Stichprobenmethode (erste Datensätze, letzte Datensätze oder eine Zufallsmenge) festlegen können.

Screenshot showing the Data Wrangler dropdown prompt with the custom sample option outlined.

Screenshot showing the Data Wrangler custom sample prompt.

Anzeigen von Zusammenfassungsstatistiken

Wenn Data Wrangler geladen wird, zeigt es eine beschreibende Übersicht über den gewählten DataFrame im Bereich „Zusammenfassung“ an. Diese Übersicht enthält Informationen zu den Dimensionen des Dataframes, fehlenden Werten und mehr. Wenn Sie eine Spalte im Data Wrangler-Raster auswählen, werden Sie im Panel „Zusammenfassung“ dazu aufgefordert, die beschreibenden Statistiken zu dieser bestimmten Spalte zu aktualisieren und anzuzeigen. Schnelle Einblicke in jede Spalte sind auch über die Kopfzeile möglich.

Tipp

Spaltenspezifische Statistiken und visuelle Objekte (im Panel „Zusammenfassung“ und in den Spaltenüberschriften) hängen vom Spaltendatentyp ab. Ein per Binning verarbeitetes Histogramm einer numerischen Spalte wird beispielsweise nur dann in der Spaltenüberschrift angezeigt, wenn die Spalte in einen numerischen Typen umgewandelt wird. Verwenden Sie das Panel „Vorgänge“, um Spaltentypen neu zu formatieren und sie möglichst genau anzuzeigen.

Screenshot showing the Data Wrangler display grid and Summary panel.

Durchsuchen von Datenbereinigungsvorgängen

Eine durchsuchbare Liste der Datenbereinigungsschritte finden Sie im Panel „Vorgänge“. (Eine kleinere Auswahl der gleichen Vorgänge ist im Menü Headers einer Spalte verfügbar.) Wenn Sie im Bereich „Vorgänge“ einen Datenbereinigungsschritt auswählen, werden Sie aufgefordert, eine oder mehrere Zielspalten sowie alle für den vollständigen Vorgang erforderlichen Parameter anzugeben. Beispielsweise ist ein neuer Wertebereich durch die Aufforderung zur numerischen Skalierung erforderlich.

Screenshot showing the Data Wrangler Operations panel.

Anzeigen der Vorschau und Anwenden von Vorgängen

Die Ergebnisse eines ausgewählten Vorgangs werden automatisch im Data Wrangler-Anzeigeraster in der Vorschau angezeigt, und der entsprechende Code wird automatisch im Panel unterhalb des Rasters angezeigt. Um den Vorschaucode zu committen, wählen Sie an beiden Stellen „Anwenden“ aus. Um den Vorschaucode zu entfernen und einen neuen Vorgang zu testen, wählen Sie „Verwerfen“ aus.

Screenshot showing a Data Wrangler operation in progress.

Sobald ein Vorgang angewendet wurde, werden das Data Wrangler-Anzeigeraster und die Zusammenfassungsstatistiken aktualisiert, um die Ergebnisse widerzuspiegeln. Der Code wird in der Liste der ausgeführten Commitvorgänge angezeigt, die sich im Panel „Bereinigungsschritte“ befindet.

Screenshot showing an applied Data Wrangler operation.

Tipp

Sie können den zuletzt angewendeten Schritt mit dem Papierkorbsymbol jederzeit rückgängig machen. Das Symbol wird angezeigt, wenn Sie im Panel „Bereinigungsschritte“ mit dem Mauszeiger auf den Schritt zeigen.

Screenshot showing a Data Wrangler operation that can be undone.

In der folgenden Tabelle sind die Vorgänge zusammengefasst, die Data Wrangler derzeit unterstützt:

Vorgang Beschreibung
Sort Sortieren in auf- oder absteigender Reihenfolge
Filter Filtern von Zeilen basierend auf einer oder mehreren Bedingungen
One-Hot-Codieren Erstellen neuer Spalten für jeden eindeutigen Wert in einer vorhandenen Spalte, die das Vorhandensein oder Fehlen dieser Werte pro Zeile angeben
One-Hot-Codieren mit Trennzeichen Teilen und One-Hot-Codieren von kategorischen Daten mithilfe eines Trennzeichens
Spaltentyp ändern Ändern des Datentyps einer Spalte
Spalte löschen Löschen einer oder mehrerer Spalten
Spalte auswählen Auswählen einer oder mehrerer Spalten, die beibehalten werden sollen, und Löschen der restlichen Spalten
Spalte umbenennen Umbenennen einer Spalte
Fehlende Werte löschen Entfernen von Zeilen mit fehlenden Werten
Doppelte Zeilen löschen Löschen aller Zeilen mit doppelten Werten in einer oder mehreren Spalten
Fehlende Werte auffüllen Ersetzen von Zellen mit fehlenden Werten durch einen neuen Wert
Suchen und Ersetzen Ersetzen von Zellen durch ein genau übereinstimmendes Muster
Nach Spalte und Aggregat gruppieren Gruppieren nach Spaltenwerten und Aggregatergebnissen
Leerzeichen entfernen Entfernen von Leerzeichen am Anfang und Ende des Texts
Text aufteilen Aufteilen einer Spalte in mehrere Spalten basierend auf einem benutzerdefinierten Trennzeichen
Text in Kleinbuchstaben konvertieren Konvertieren des Texts in Kleinbuchstaben
Text in Großbuchstaben konvertieren Konvertieren des Texts in Großbuchstaben
Mindest- und Maximalwerte skalieren Skalieren einer numerischen Spalte zwischen einem minimalen und einem maximalen Wert
Blitzvorschau Automatisches Erstellen einer neuen Spalte basierend auf Beispielen, die aus einer vorhandenen Spalte abgeleitet sind

Speichern und Exportieren von Code

Die Symbolleiste oberhalb des Data Wrangler-Anzeigerasters bietet Optionen zum Speichern des generierten Codes. Sie können den Code in die Zwischenablage kopieren oder als Funktion in das Notebook exportieren. Beim Exportieren des Codes wird Data Wrangler geschlossen und die neue Funktion einer Codezelle im Notebook hinzugefügt. Sie können den bereinigten DataFrame auch als csv-Datei herunterladen.

Tipp

Der von Data Wrangler generierte Code wird erst angewendet, wenn Sie die neue Zelle manuell ausführen. Der ursprüngliche Dataframe wird dadurch nicht überschrieben.

Screenshot showing the options to export code in Data Wrangler.

Screenshot showing the code generated by Data Wrangler back in the notebook.