Freigeben über


Verwenden von Data Wrangler auf Spark DataFrames

Data Wrangler, ein notebookbasiertes Tool zur explorativen Datenanalyse, unterstützt jetzt sowohl Spark-DataFrames als auch Pandas-DataFrames. Zusätzlich zu Python-Code generiert das Tool PySpark-Code. Eine allgemeine Übersicht über Data Wrangler, die sich damit befasst, wie Pandas-DataFrames untersucht und transformiert werden, erhalten Sie im Haupt-Tutorial. Dieses Tutorial zeigt, wie Sie mit Data Wrangler Spark-DataFrames untersuchen und transformieren.

Voraussetzungen

Begrenzungen

  • Benutzerdefinierte Codevorgänge werden derzeit nur für Pandas DataFrames unterstützt.
  • Die Anzeige von Data Wrangler funktioniert auf großen Monitoren besser. Bei der Nutzung kleinerer Bildschirme können jedoch verschiedene Teile der Benutzeroberfläche minimiert oder ausgeblendet werden.

Starten von Data Wrangler mit einem Spark DataFrame

Benutzer können Spark DataFrames in Data Wrangler direkt aus einem Microsoft Fabric-Notebook öffnen, indem Sie zur gleichen Dropdownaufforderung navigieren, in der Pandas DataFrames angezeigt werden. Eine Liste der aktiven Spark DataFrames erscheint in der Dropdownliste unterhalb der Liste der aktiven Pandas-Variablen.

Dieses Codeschnipsel erstellt einen Spark-DataFrame mit denselben Stichprobendaten, die im Pandas Data Wrangler-Tutorial verwendet wurden:

import pandas as pd

# Read a CSV into a Spark DataFrame
sdf = spark.createDataFrame(pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv"))
display(sdf)

Verwenden Sie auf der Registerkarte „Home“ des Notebookmenübands die Dropdownaufforderung von Data Wrangler, um die aktiven, zur Bearbeitung verfügbaren Dataframes zu durchsuchen. Wählen Sie die Datei aus, die Sie in Data Wrangler öffnen möchten.

Tipp

Data Wrangler kann nicht geöffnet werden, während der Notebookkernel ausgelastet ist. Die Ausführung einer Zelle muss abgeschlossen sein, bevor Data Wrangler gestartet werden kann, wie im folgenden Screenshot dargestellt:

Screenshot: Fabric-Notebook mit der Dropdownaufforderung von Data Wrangler

Auswählen von benutzerdefinierten Beispielen

Data Wrangler konvertiert Spark DataFrames aus Leistungsgründen automatisch in Pandas-Beispielen. Der gesamte vom Tool generierte Code wird jedoch letztendlich in PySpark übersetzt, wenn er wieder in das Notebook exportiert wird. Wie bei jedem Pandas-DataFrame können Sie die Standardstichprobe anpassen. Zum Öffnen einer benutzerdefinierten Stichprobe eines aktiven DataFrame mit Date Wrangler wählen Sie im Dropdownmenü die Option „Benutzerdefinierte Stichprobe wählen“ aus, wie im folgenden Screenshot dargestellt:

Screenshot der Dropdownaufforderung „Data Wrangler“ mit der benutzerdefinierten Beispieloption.

Dadurch wird ein Popup-Fenster geöffnet, in dem Sie die Größe der gewünschten Stichprobe (Anzahl der Zeilen) und die Stichprobenmethode (erste Datensätze, letzte Datensätze oder eine Zufallsmenge) festlegen können, wie im folgenden Screenshot dargestellt:

Screenshot der benutzerdefinierten Beispielabfrage von Data Wrangler.

Anzeigen von Zusammenfassungsstatistiken

Beim Laden von Data Wrangler wird über dem Vorschauraster ein Informationsbanner angezeigt. In diesem Banner wird erklärt, dass Spark-DataFrames vorübergehend in Pandas-Stichproben konvertiert werden, der gesamte generierte Code wird jedoch letztendlich in PySpark konvertiert. Ansonsten unterscheidet sich die Nutzung von Data Wrangler für Spark-DataFrames nicht von der Verwendung für Pandas-DataFrames. Eine beschreibende Übersicht im „Zusammenfassungs“bereich zeigt Informationen zu den Dimensionen des Beispiels, fehlenden Werten und mehr an. Wenn Sie eine Spalte im Data Wrangler-Raster auswählen, werden Sie im Bereich „Zusammenfassung“ dazu aufgefordert, die beschreibenden Statistiken zur betreffenden Spalte zu aktualisieren und anzuzeigen. Schnelle Einblicke in jede Spalte sind auch über die Kopfzeile möglich.

Tipp

Spaltenspezifische Statistiken und visuelle Objekte (im Panel „Zusammenfassung“ und in den Spaltenüberschriften) hängen vom Spaltendatentyp ab. Ein per Binning verarbeitetes Histogramm einer numerischen Spalte wird beispielsweise nur dann in der Spaltenüberschrift angezeigt, wenn die Spalte in einen numerischen Typen umgewandelt wird, wie im folgenden Screenshot dargestellt:

Screenshot: Anzeigeraster und Panel „Zusammenfassung“ von Data Wrangler

Durchsuchen von Datenbereinigungsvorgängen

Eine durchsuchbare Liste der Datenbereinigungsschritte finden Sie im Panel „Vorgänge“. Wenn Sie im Bereich „Vorgänge“ einen Datenbereinigungsschritt auswählen, werden Sie aufgefordert, eine oder mehrere Zielspalten sowie alle für den vollständigen Vorgang erforderlichen Parameter anzugeben. Bei der Aufforderung zur numerischen Skalierung ist beispielsweise ein neuer Wertebereich erforderlich, wie im folgenden Screenshot gezeigt:

Screenshot: Data Wrangler-Panel „Vorgänge“

Tipp

Sie können eine kleinere Auswahl von Vorgängen aus dem Menü der einzelnen Spaltenüberschriften anwenden, wie im folgenden Screenshot dargestellt:

Screenshot eines Data Wrangler-Vorgangs, der über das Spaltenüberschriftenmenü angewendet werden kann.

Anzeigen der Vorschau und Anwenden von Vorgängen

Die Ergebnisse eines ausgewählten Vorgangs werden im Data Wrangler-Anzeigeraster automatisch in der Vorschau angezeigt, und der entsprechende Code erscheint automatisch in dem Bereich unter dem Raster. Um den Vorschaucode zu committen, wählen Sie an beiden Stellen „Anwenden“ aus. Um den in der Vorschau angezeigten Code zu löschen und einen neuen Vorgang auszuprobieren, wählen Sie „Verwerfen“ aus, wie im folgenden Screenshot gezeigt:

Screenshot: Aktiver Data Wrangler-Vorgang

Sobald ein Vorgang angewendet wurde, werden das Data Wrangler-Anzeigeraster und die Zusammenfassungsstatistiken aktualisiert, um die Ergebnisse widerzuspiegeln. Der Code wird in der laufenden Liste der festgeschriebenen Vorgänge im Bereich „Bereinigungsschritte“ angezeigt, wie im folgenden Screenshot dargestellt:

Screenshot: Angewandter Data Wrangler-Vorgang

Tipp

Den zuletzt angewendeten Schritt können Sie jederzeit rückgängigmachen. Im Bereich „Bereinigungsschritte“ wird ein Papierkorbsymbol angezeigt, wenn Sie mit dem Mauszeiger auf den zuletzt angewendeten Schritt zeigen, wie im folgenden Screenshot gezeigt:

Screenshot: Data Wrangler-Vorgang, der rückgängig gemacht werden kann

In der folgenden Tabelle sind die Vorgänge zusammengefasst, die Data Wrangler derzeit unterstützt:

Vorgang Beschreibung
Sort Sortieren in auf- oder absteigender Reihenfolge
Filter Filtern von Zeilen basierend auf einer oder mehreren Bedingungen
One-Hot-Codieren Erstellen neuer Spalten für jeden eindeutigen Wert in einer vorhandenen Spalte, die das Vorhandensein oder Fehlen dieser Werte pro Zeile angeben
One-Hot-Codieren mit Trennzeichen Teilen und One-Hot-Codieren von kategorischen Daten mithilfe eines Trennzeichens
Spaltentyp ändern Ändern des Datentyps einer Spalte
Spalte löschen Löschen einer oder mehrerer Spalten
Spalte auswählen Auswählen einer oder mehrerer Spalten, die beibehalten werden sollen, und Löschen der restlichen Spalten
Spalte umbenennen Umbenennen einer Spalte
Fehlende Werte löschen Entfernen von Zeilen mit fehlenden Werten
Doppelte Zeilen löschen Löschen aller Zeilen mit doppelten Werten in einer oder mehreren Spalten
Fehlende Werte auffüllen Ersetzen von Zellen mit fehlenden Werten durch einen neuen Wert
Suchen und Ersetzen Ersetzen von Zellen durch ein genau übereinstimmendes Muster
Nach Spalte und Aggregat gruppieren Gruppieren nach Spaltenwerten und Aggregatergebnissen
Leerzeichen entfernen Entfernen von Leerzeichen am Anfang und Ende des Texts
Text aufteilen Aufteilen einer Spalte in mehrere Spalten basierend auf einem benutzerdefinierten Trennzeichen
Text in Kleinbuchstaben konvertieren Konvertieren des Texts in Kleinbuchstaben
Text in Großbuchstaben konvertieren Konvertieren des Texts in Großbuchstaben
Mindest- und Maximalwerte skalieren Skalieren einer numerischen Spalte zwischen einem minimalen und einem maximalen Wert
Blitzvorschau Automatisches Erstellen einer neuen Spalte basierend auf Beispielen, die aus einer vorhandenen Spalte abgeleitet sind

Ändern der Anzeige

Die Benutzeroberfläche können Sie jederzeit über die Registerkarte „Ansichten“ in der Symbolleiste über dem Anzeigeraster von Daten-Wrangler anpassen. Je nach Präferenzen und Bildschirmgröße lassen sich verschiedene Bereiche ausblenden oder anzeigen, wie im folgenden Screenshot dargestellt:

Screenshot des Menüs „Data Wrangler“ zum Anpassen der Anzeigeansicht.

Speichern und Exportieren von Code

Die Symbolleiste oberhalb des Data Wrangler-Anzeigerasters bietet Optionen zum Speichern des generierten Codes. Sie können den Code in die Zwischenablage kopieren oder als Funktion in das Notebook exportieren. Bei Spark DataFrames wird der gesamte Code, der auf dem Pandas-Beispiel generiert wird, in PySpark übersetzt, bevor er wieder im Notebook landet. Bevor Data Wrangler geschlossen wird, zeigt das Tool eine Vorschau des übersetzten PySpark-Codes an und bietet die Möglichkeit, auch den Pandas-Zwischencode zu exportieren.

Tipp

Data Wrangler generiert Code, der nur dann angewendet wird, wenn Sie die neue Zelle manuell ausführen. Das ursprüngliche DataFrame-Element wird nicht überschreiben, wie im folgenden Screenshot gezeigt:

Screenshot: Optionen zum Exportieren von Code in Data Wrangler

Der Code wird in PySpark konvertiert, wie im folgenden Screenshot gezeigt:

Screenshot der PySpark-Vorschau in der Exportcodeaufforderung in Data Wrangler.

Anschließend können Sie diesen exportierten Code ausführen, wie im folgenden Screenshot dargestellt:

Screenshot: Der durch Data Wrangler generierte Code im Notebook