Schnelleres Aufbereiten von Daten mit Data Wrangler in Microsoft Fabric
Data Wrangler ist ein notebookbasiertes Tool, mit dem Benutzer eine immersive Schnittstelle für die explorative Datenanalyse durchführen können. Das Feature kombiniert eine rasterähnliche Datenanzeige mit dynamischen Zusammenfassungsstatistiken, integrierten Visualisierungen und einer Bibliothek mit allgemeinen Datenbereinigungsvorgängen. Jeder Vorgang kann mit wenigen Klicks angewendet werden, indem die Datenanzeige in Echtzeit aktualisiert und Code in Pandas oder PySpark generiert wird. Dieser kann als wiederverwendbare Funktion im Notebook gespeichert werden. Dieser Artikel konzentriert sich auf das Untersuchen und Transformieren von Pandas DataFrames. Anweisungen zur Verwendung von Data Wrangler auf Spark DataFrames finden Sie hier.
Voraussetzungen
Erwerben Sie ein Microsoft Fabric-Abonnement. Registrieren Sie sich alternativ für eine kostenlose Microsoft Fabric-Testversion.
Melden Sie sich bei Microsoft Fabric an.
Wechseln Sie mithilfe des Umschalters für die Benutzeroberfläche auf der linken Seite Ihrer Startseite zur Synapse Data Science-Umgebung.
Begrenzungen
- Data Wrangler unterstützt derzeit die Pandas-Codegenerierung in der allgemeinen Verfügbarkeit und Spark-Codegenerierung in der öffentlichen Vorschau.
- Benutzerdefinierte Codevorgänge werden derzeit nur für Pandas DataFrames unterstützt.
- Die Anzeige von Data Wrangler funktioniert auf großen Monitoren besser. Bei der Verwendung kleinerer Bildschirme können jedoch verschiedene Teile der Benutzeroberfläche minimiert oder ausgeblendet werden.
Data Wrangler starten
Sie können Data Wrangler direkt über ein Microsoft Fabric-Notebook starten, um Pandas oder Spark Dataframes zu untersuchen und zu transformieren. Eine Übersicht über die Verwendung von Data Wrangler mit Spark DataFrames finden Sie in diesem Begleitartikel. Dieser nachstehende Codeschnipsel zeigt, wie Beispieldaten in einem Pandas DataFrame gelesen werden können:
import pandas as pd
# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)
Verwenden Sie auf der Registerkarte „Daten“ des Notebookmenübands die Dropdownaufforderung von Data Wrangler, um die aktiven, zur Bearbeitung verfügbaren Dataframes zu durchsuchen. Wählen Sie die Datei aus, die Sie in Data Wrangler öffnen möchten.
Tipp
Data Wrangler kann nicht geöffnet werden, während der Notebookkernel ausgelastet ist. Die Ausführung einer Zelle muss abgeschlossen werden, bevor Data Wrangler gestartet werden kann.
Auswählen von benutzerdefinierten Beispielen
Mit Data Wrangler können Sie ein benutzerdefiniertes Beispiel eines beliebigen aktiven DataFrames öffnen, indem Sie im Dropdownmenü „Benutzerdefiniertes Beispiel auswählen“ auswählen. Dadurch wird ein Popup-Fenster geöffnet, in dem Sie die Größe der gewünschten Stichprobe (Anzahl der Zeilen) und die Stichprobenmethode (erste Datensätze, letzte Datensätze oder eine Zufallsmenge) festlegen können.
Anzeigen von Zusammenfassungsstatistiken
Wenn Data Wrangler geladen wird, zeigt es eine beschreibende Übersicht über den gewählten DataFrame im Bereich „Zusammenfassung“ an. Diese Übersicht enthält Informationen zu den Dimensionen des Dataframes, fehlenden Werten und mehr. Wenn Sie eine Spalte im Data Wrangler-Raster auswählen, werden Sie im Panel „Zusammenfassung“ dazu aufgefordert, die beschreibenden Statistiken zu dieser bestimmten Spalte zu aktualisieren und anzuzeigen. Schnelle Einblicke in jede Spalte sind auch über die Kopfzeile möglich.
Tipp
Spaltenspezifische Statistiken und visuelle Objekte (im Panel „Zusammenfassung“ und in den Spaltenüberschriften) hängen vom Spaltendatentyp ab. Ein per Binning verarbeitetes Histogramm einer numerischen Spalte wird beispielsweise nur dann in der Spaltenüberschrift angezeigt, wenn die Spalte in einen numerischen Typen umgewandelt wird. Verwenden Sie das Panel „Vorgänge“, um Spaltentypen neu zu formatieren und sie möglichst genau anzuzeigen.
Durchsuchen von Datenbereinigungsvorgängen
Eine durchsuchbare Liste der Datenbereinigungsschritte finden Sie im Panel „Vorgänge“. (Eine kleinere Auswahl der gleichen Vorgänge ist im Menü Headers einer Spalte verfügbar.) Wenn Sie im Bereich „Vorgänge“ einen Datenbereinigungsschritt auswählen, werden Sie aufgefordert, eine oder mehrere Zielspalten sowie alle für den vollständigen Vorgang erforderlichen Parameter anzugeben. Beispielsweise ist ein neuer Wertebereich durch die Aufforderung zur numerischen Skalierung erforderlich.
Anzeigen der Vorschau und Anwenden von Vorgängen
Die Ergebnisse eines ausgewählten Vorgangs werden automatisch im Data Wrangler-Anzeigeraster in der Vorschau angezeigt, und der entsprechende Code wird automatisch im Panel unterhalb des Rasters angezeigt. Um den Vorschaucode zu committen, wählen Sie an beiden Stellen „Anwenden“ aus. Um den Vorschaucode zu entfernen und einen neuen Vorgang zu testen, wählen Sie „Verwerfen“ aus.
Sobald ein Vorgang angewendet wurde, werden das Data Wrangler-Anzeigeraster und die Zusammenfassungsstatistiken aktualisiert, um die Ergebnisse widerzuspiegeln. Der Code wird in der Liste der ausgeführten Commitvorgänge angezeigt, die sich im Panel „Bereinigungsschritte“ befindet.
Tipp
Sie können den zuletzt angewendeten Schritt mit dem Papierkorbsymbol jederzeit rückgängig machen. Das Symbol wird angezeigt, wenn Sie im Panel „Bereinigungsschritte“ mit dem Mauszeiger auf den Schritt zeigen.
In der folgenden Tabelle sind die Vorgänge zusammengefasst, die Data Wrangler derzeit unterstützt:
Vorgang | Beschreibung |
---|---|
Sort | Sortieren in auf- oder absteigender Reihenfolge |
Filter | Filtern von Zeilen basierend auf einer oder mehreren Bedingungen |
One-Hot-Codieren | Erstellen neuer Spalten für jeden eindeutigen Wert in einer vorhandenen Spalte, die das Vorhandensein oder Fehlen dieser Werte pro Zeile angeben |
One-Hot-Codieren mit Trennzeichen | Teilen und One-Hot-Codieren von kategorischen Daten mithilfe eines Trennzeichens |
Spaltentyp ändern | Ändern des Datentyps einer Spalte |
Spalte löschen | Löschen einer oder mehrerer Spalten |
Spalte auswählen | Auswählen einer oder mehrerer Spalten, die beibehalten werden sollen, und Löschen der restlichen Spalten |
Spalte umbenennen | Umbenennen einer Spalte |
Fehlende Werte löschen | Entfernen von Zeilen mit fehlenden Werten |
Doppelte Zeilen löschen | Löschen aller Zeilen mit doppelten Werten in einer oder mehreren Spalten |
Fehlende Werte auffüllen | Ersetzen von Zellen mit fehlenden Werten durch einen neuen Wert |
Suchen und Ersetzen | Ersetzen von Zellen durch ein genau übereinstimmendes Muster |
Nach Spalte und Aggregat gruppieren | Gruppieren nach Spaltenwerten und Aggregatergebnissen |
Leerzeichen entfernen | Entfernen von Leerzeichen am Anfang und Ende des Texts |
Text aufteilen | Aufteilen einer Spalte in mehrere Spalten basierend auf einem benutzerdefinierten Trennzeichen |
Text in Kleinbuchstaben konvertieren | Konvertieren des Texts in Kleinbuchstaben |
Text in Großbuchstaben konvertieren | Konvertieren des Texts in Großbuchstaben |
Mindest- und Maximalwerte skalieren | Skalieren einer numerischen Spalte zwischen einem minimalen und einem maximalen Wert |
Blitzvorschau | Automatisches Erstellen einer neuen Spalte basierend auf Beispielen, die aus einer vorhandenen Spalte abgeleitet sind |
Speichern und Exportieren von Code
Die Symbolleiste oberhalb des Data Wrangler-Anzeigerasters bietet Optionen zum Speichern des generierten Codes. Sie können den Code in die Zwischenablage kopieren oder als Funktion in das Notebook exportieren. Beim Exportieren des Codes wird Data Wrangler geschlossen und die neue Funktion einer Codezelle im Notebook hinzugefügt. Sie können den bereinigten DataFrame auch als csv-Datei herunterladen.
Tipp
Der von Data Wrangler generierte Code wird erst angewendet, wenn Sie die neue Zelle manuell ausführen. Der ursprüngliche Dataframe wird dadurch nicht überschrieben.
Zugehöriger Inhalt
- Informationen zum Ausprobieren von Data Wrangler auf Spark DataFrames finden Sie in diesem Begleitartikel.
- Informationen zum Testen von Data Wrangler in VS Code finden Sie unter Data Wrangler in VS Code.
Feedback
https://aka.ms/ContentUserFeedback.
Bald verfügbar: Im Laufe des Jahres 2024 werden wir GitHub-Issues stufenweise als Feedbackmechanismus für Inhalte abbauen und durch ein neues Feedbacksystem ersetzen. Weitere Informationen finden Sie unterFeedback senden und anzeigen für