Beschleunigen der Datenvorbereitung mit Data Wrangler in Microsoft Fabric
Data Wrangler ist ein Notebook-basiertes Tool, das Benutzern eine immersive Erfahrung für die Durchführung explorativer Datenanalysen bietet. Das Feature kombiniert eine rasterähnliche Datenanzeige mit dynamischen Zusammenfassungsstatistiken, integrierten Visualisierungen und einer Bibliothek allgemeiner Datenbereinigungsvorgänge. Jeder Vorgang kann mit wenigen Klicks angewendet werden, indem die Datenanzeige in Echtzeit aktualisiert und Code generiert wird, der als wiederverwendbare Funktion im Notebook gespeichert werden kann.
Wichtig
Microsoft Fabric befindet sich derzeit in der Vorschauversion. Diese Informationen beziehen sich auf eine Vorabversion des Produkts, an der vor der Veröffentlichung noch wesentliche Änderungen vorgenommen werden können. Microsoft übernimmt keine Garantie, weder ausdrücklich noch stillschweigend, für die hier bereitgestellten Informationen.
Voraussetzungen
Ein Power BI Premium-Abonnement. Wenn Sie noch keines haben, finden Sie weitere Informationen unter So erwerben Sie Power BI Premium.
Ein Power BI-Arbeitsbereich mit zugewiesener Premium-Kapazität. Wenn Sie keinen Arbeitsbereich haben, führen Sie die Schritte unter Erstellen eines Arbeitsbereichs aus, um einen Arbeitsbereich zu erstellen und ihn einer Premium-Kapazität zuzuweisen.
Melden Sie sich bei Microsoft Fabric an.
Einschränkungen
- Data Wrangler unterstützt derzeit nur Pandas DataFrames. Die Unterstützung für Spark DataFrames wird ausgeführt.
- Das Display von Data Wrangler funktioniert besser auf großen Monitoren, obwohl verschiedene Teile der Schnittstelle minimiert oder ausgeblendet werden können, um kleinere Bildschirme aufzunehmen.
Starten von Data Wrangler
Benutzer können Data Wrangler direkt über ein Microsoft Fabric-Notebook starten, um jeden Pandas DataFrame zu erkunden und zu transformieren. Dieser Codeausschnitt zeigt, wie Sie Beispieldaten in einen Pandas-DataFrame lesen:
import pandas as pd
# Read a CSV into a Pandas DataFrame from e.g. a public blob store
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
Verwenden Sie auf der Registerkarte "Daten" des Notebook-Menübands die Dropdownaufforderung Data Wrangler, um die aktiven Pandas-DataFrames zu durchsuchen, die zur Bearbeitung verfügbar sind. Wählen Sie die aus, die Sie in Data Wrangler öffnen möchten.
Tipp
Data Wrangler kann nicht geöffnet werden, wenn der Notebook-Kernel ausgelastet ist. Eine ausführende Zelle muss ihre Ausführung beenden, bevor Data Wrangler gestartet werden kann.
Anzeigen von Zusammenfassungsstatistiken
Beim Starten von Data Wrangler wird eine beschreibende Übersicht über den angezeigten DataFrame im Zusammenfassungsbereich generiert. Diese Übersicht enthält Informationen zu den Dimensionen des DataFrames, zu fehlenden Werten und mehr. Wenn Sie eine beliebige Spalte im Raster Data Wrangler auswählen, wird der Zusammenfassungsbereich aufgefordert, beschreibende Statistiken zu dieser bestimmten Spalte zu aktualisieren und anzuzeigen. Schnelle Einblicke in jede Spalte sind auch in der Kopfzeile verfügbar.
Tipp
Spaltenspezifische Statistiken und Visuals (sowohl im Bereich Zusammenfassung als auch in den Spaltenheadern) hängen vom Spaltendatentyp ab. Für instance wird ein binniertes Histogramm einer numerischen Spalte nur dann in der Spaltenüberschrift angezeigt, wenn die Spalte als numerischer Typ umgewandelt wird. Verwenden Sie den Bereich Vorgänge, um Spaltentypen neu zu erstellen, um die genaueste Anzeige zu ermöglichen.
Durchsuchen von Datenbereinigungsvorgängen
Eine durchsuchbare Liste von Datenbereinigungsschritten finden Sie im Bereich Vorgänge. (Sie können auch auf eine kleinere Auswahl derselben Vorgänge im Kontextmenü jeder Spalte zugreifen.) Wenn Sie im Bereich Vorgänge einen Schritt zur Datenbereinigung auswählen, werden Sie aufgefordert, eine oder mehrere Zielspalten sowie alle erforderlichen Parameter auszuwählen, um den Schritt abzuschließen. Beispielsweise erfordert die Eingabeaufforderung zum numerischen Skalieren einer Spalte einen neuen Wertebereich.
Vorschau und Anwenden von Vorgängen
Die Ergebnisse eines ausgewählten Vorgangs werden automatisch im Daten-Wrangler-Anzeigeraster in der Vorschau angezeigt, und der entsprechende Code wird automatisch im Bereich unterhalb des Rasters angezeigt. Um den Vorschaucode zu committen, wählen Sie "Anwenden" an beiden Stellen aus. Um den Vorschaucode loszuwerden und einen neuen Vorgang auszuprobieren, wählen Sie "Verwerfen" aus.
Sobald ein Vorgang angewendet wurde, werden das Datenwrangler-Anzeigeraster und die Zusammenfassungsstatistik aktualisiert, um die Ergebnisse widerzuspiegeln. Der Vorschaucode wird in der Liste der ausgeführten Vorgänge angezeigt, die sich im Bereich Reinigungsschritte befindet.
Tipp
Sie können den zuletzt angewendeten Schritt mit dem Papierkorbsymbol jederzeit rückgängig machen, das angezeigt wird, wenn Sie im Bereich Reinigungsschritte mit dem Cursor auf diesen Schritt zeigen.
In der folgenden Tabelle sind die Vorgänge zusammengefasst, die Data Wrangler derzeit unterstützt:
Vorgang | Beschreibung |
---|---|
Sort | Sortieren einer Spalte in aufsteigender oder absteigender Reihenfolge |
Filter | Filtern von Zeilen basierend auf einer oder mehreren Bedingungen |
One-Hot-Codieren | Erstellen Sie neue Spalten für jeden eindeutigen Wert in einer vorhandenen Spalte, die das Vorhandensein oder Fehlen dieser Werte pro Zeile angibt. |
One-Hot-Codieren mit Trennzeichen | Kategorisierte Daten teilen und mit einem Hot codieren mithilfe eines Trennzeichens |
Spaltentyp ändern | Ändern des Datentyps einer Spalte |
Spalte löschen | Löschen einer oder mehrerer Spalten |
Spalte auswählen | Wählen Sie eine oder mehrere Spalten aus, die beibehalten werden sollen, und löschen Sie den Rest. |
Spalte umbenennen | Umbenennen einer Spalte |
Löschen fehlender Werte | Entfernen von Zeilen mit fehlenden Werten |
Löschen doppelter Zeilen | Löschen aller Zeilen mit doppelten Werten in einer oder mehreren Spalten |
Ausfüllen fehlender Werte | Ersetzen von Zellen durch fehlende Werte durch einen neuen Wert |
Suchen und Ersetzen | Ersetzen von Zellen durch ein genaues übereinstimmende Muster |
Gruppieren nach Spalte und Aggregat | Gruppieren nach Spaltenwerten und aggregierten Ergebnissen |
Leerzeichen entfernen | Entfernen von Leerzeichen vom Anfang und Ende des Texts |
Text teilen | Aufteilen einer Spalte in mehrere Spalten basierend auf einem benutzerdefinierten Trennzeichen |
Konvertieren von Text in Kleinbuchstaben | Konvertieren von Text in Kleinbuchstaben |
Konvertieren von Text in Großbuchstaben | Konvertieren von Text in GROßBUCHSTABEN |
Skalieren von Min/Max-Werten | Skalieren einer numerischen Spalte zwischen einem Minimal- und Maximalwert |
Blitzvorschau | Automatisches Erstellen einer neuen Spalte basierend auf Beispielen, die von einer vorhandenen Spalte abgeleitet sind |
Speichern und Exportieren von Code
Die Symbolleiste über dem Daten-Wrangler-Anzeigeraster bietet Optionen zum Speichern des vom Tool generierten Codes. Sie können den Code in die Zwischenablage kopieren oder als Funktion in das Notebook exportieren. Beim Exportieren des Codes wird Data Wrangler geschlossen und die neue Funktion einer Codezelle im Notebook hinzugefügt. Sie können auch den bereinigungen DataFrame herunterladen, der sich im aktualisierten Data Wrangler-Anzeigeraster widerspiegelt, als CSV-Datei.
Tipp
Der von Data Wrangler generierte Code wird erst angewendet, wenn Sie die neue Zelle manuell ausführen, und der ursprüngliche DataFrame wird nicht überschrieben.
Nächste Schritte
- Informationen zum Testen von Data Wrangler in VS Code finden Sie unter Data Wrangler in VS Code.