Beschleunigen der Datenvorbereitung mit Data Wrangler in Microsoft Fabric

Data Wrangler ist ein Notebook-basiertes Tool, das Benutzern eine immersive Erfahrung für die Durchführung explorativer Datenanalysen bietet. Das Feature kombiniert eine rasterähnliche Datenanzeige mit dynamischen Zusammenfassungsstatistiken, integrierten Visualisierungen und einer Bibliothek allgemeiner Datenbereinigungsvorgänge. Jeder Vorgang kann mit wenigen Klicks angewendet werden, indem die Datenanzeige in Echtzeit aktualisiert und Code generiert wird, der als wiederverwendbare Funktion im Notebook gespeichert werden kann.

Wichtig

Microsoft Fabric befindet sich derzeit in der Vorschauversion. Diese Informationen beziehen sich auf eine Vorabversion des Produkts, an der vor der Veröffentlichung noch wesentliche Änderungen vorgenommen werden können. Microsoft übernimmt keine Garantie, weder ausdrücklich noch stillschweigend, für die hier bereitgestellten Informationen.

Voraussetzungen

  • Ein Power BI Premium-Abonnement. Wenn Sie noch keines haben, finden Sie weitere Informationen unter So erwerben Sie Power BI Premium.

  • Ein Power BI-Arbeitsbereich mit zugewiesener Premium-Kapazität. Wenn Sie keinen Arbeitsbereich haben, führen Sie die Schritte unter Erstellen eines Arbeitsbereichs aus, um einen Arbeitsbereich zu erstellen und ihn einer Premium-Kapazität zuzuweisen.

  • Melden Sie sich bei Microsoft Fabric an.

Einschränkungen

  • Data Wrangler unterstützt derzeit nur Pandas DataFrames. Die Unterstützung für Spark DataFrames wird ausgeführt.
  • Das Display von Data Wrangler funktioniert besser auf großen Monitoren, obwohl verschiedene Teile der Schnittstelle minimiert oder ausgeblendet werden können, um kleinere Bildschirme aufzunehmen.

Starten von Data Wrangler

Benutzer können Data Wrangler direkt über ein Microsoft Fabric-Notebook starten, um jeden Pandas DataFrame zu erkunden und zu transformieren. Dieser Codeausschnitt zeigt, wie Sie Beispieldaten in einen Pandas-DataFrame lesen:

import pandas as pd

# Read a CSV into a Pandas DataFrame from e.g. a public blob store
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")

Verwenden Sie auf der Registerkarte "Daten" des Notebook-Menübands die Dropdownaufforderung Data Wrangler, um die aktiven Pandas-DataFrames zu durchsuchen, die zur Bearbeitung verfügbar sind. Wählen Sie die aus, die Sie in Data Wrangler öffnen möchten.

Tipp

Data Wrangler kann nicht geöffnet werden, wenn der Notebook-Kernel ausgelastet ist. Eine ausführende Zelle muss ihre Ausführung beenden, bevor Data Wrangler gestartet werden kann.

Screenshot: Fabric-Notebook mit der Dropdownaufforderung Data Wrangler

Anzeigen von Zusammenfassungsstatistiken

Beim Starten von Data Wrangler wird eine beschreibende Übersicht über den angezeigten DataFrame im Zusammenfassungsbereich generiert. Diese Übersicht enthält Informationen zu den Dimensionen des DataFrames, zu fehlenden Werten und mehr. Wenn Sie eine beliebige Spalte im Raster Data Wrangler auswählen, wird der Zusammenfassungsbereich aufgefordert, beschreibende Statistiken zu dieser bestimmten Spalte zu aktualisieren und anzuzeigen. Schnelle Einblicke in jede Spalte sind auch in der Kopfzeile verfügbar.

Tipp

Spaltenspezifische Statistiken und Visuals (sowohl im Bereich Zusammenfassung als auch in den Spaltenheadern) hängen vom Spaltendatentyp ab. Für instance wird ein binniertes Histogramm einer numerischen Spalte nur dann in der Spaltenüberschrift angezeigt, wenn die Spalte als numerischer Typ umgewandelt wird. Verwenden Sie den Bereich Vorgänge, um Spaltentypen neu zu erstellen, um die genaueste Anzeige zu ermöglichen.

Screenshot: Datenwrangler-Anzeigeraster und Zusammenfassungsbereich

Durchsuchen von Datenbereinigungsvorgängen

Eine durchsuchbare Liste von Datenbereinigungsschritten finden Sie im Bereich Vorgänge. (Sie können auch auf eine kleinere Auswahl derselben Vorgänge im Kontextmenü jeder Spalte zugreifen.) Wenn Sie im Bereich Vorgänge einen Schritt zur Datenbereinigung auswählen, werden Sie aufgefordert, eine oder mehrere Zielspalten sowie alle erforderlichen Parameter auszuwählen, um den Schritt abzuschließen. Beispielsweise erfordert die Eingabeaufforderung zum numerischen Skalieren einer Spalte einen neuen Wertebereich.

Screenshot des Bereichs

Vorschau und Anwenden von Vorgängen

Die Ergebnisse eines ausgewählten Vorgangs werden automatisch im Daten-Wrangler-Anzeigeraster in der Vorschau angezeigt, und der entsprechende Code wird automatisch im Bereich unterhalb des Rasters angezeigt. Um den Vorschaucode zu committen, wählen Sie "Anwenden" an beiden Stellen aus. Um den Vorschaucode loszuwerden und einen neuen Vorgang auszuprobieren, wählen Sie "Verwerfen" aus.

Screenshot: Laufender Data Wrangler-Vorgang

Sobald ein Vorgang angewendet wurde, werden das Datenwrangler-Anzeigeraster und die Zusammenfassungsstatistik aktualisiert, um die Ergebnisse widerzuspiegeln. Der Vorschaucode wird in der Liste der ausgeführten Vorgänge angezeigt, die sich im Bereich Reinigungsschritte befindet.

Screenshot eines angewendeten Data Wrangler-Vorgangs

Tipp

Sie können den zuletzt angewendeten Schritt mit dem Papierkorbsymbol jederzeit rückgängig machen, das angezeigt wird, wenn Sie im Bereich Reinigungsschritte mit dem Cursor auf diesen Schritt zeigen.

Screenshot eines Data Wrangler-Vorgangs, der rückgängig werden kann

In der folgenden Tabelle sind die Vorgänge zusammengefasst, die Data Wrangler derzeit unterstützt:

Vorgang Beschreibung
Sort Sortieren einer Spalte in aufsteigender oder absteigender Reihenfolge
Filter Filtern von Zeilen basierend auf einer oder mehreren Bedingungen
One-Hot-Codieren Erstellen Sie neue Spalten für jeden eindeutigen Wert in einer vorhandenen Spalte, die das Vorhandensein oder Fehlen dieser Werte pro Zeile angibt.
One-Hot-Codieren mit Trennzeichen Kategorisierte Daten teilen und mit einem Hot codieren mithilfe eines Trennzeichens
Spaltentyp ändern Ändern des Datentyps einer Spalte
Spalte löschen Löschen einer oder mehrerer Spalten
Spalte auswählen Wählen Sie eine oder mehrere Spalten aus, die beibehalten werden sollen, und löschen Sie den Rest.
Spalte umbenennen Umbenennen einer Spalte
Löschen fehlender Werte Entfernen von Zeilen mit fehlenden Werten
Löschen doppelter Zeilen Löschen aller Zeilen mit doppelten Werten in einer oder mehreren Spalten
Ausfüllen fehlender Werte Ersetzen von Zellen durch fehlende Werte durch einen neuen Wert
Suchen und Ersetzen Ersetzen von Zellen durch ein genaues übereinstimmende Muster
Gruppieren nach Spalte und Aggregat Gruppieren nach Spaltenwerten und aggregierten Ergebnissen
Leerzeichen entfernen Entfernen von Leerzeichen vom Anfang und Ende des Texts
Text teilen Aufteilen einer Spalte in mehrere Spalten basierend auf einem benutzerdefinierten Trennzeichen
Konvertieren von Text in Kleinbuchstaben Konvertieren von Text in Kleinbuchstaben
Konvertieren von Text in Großbuchstaben Konvertieren von Text in GROßBUCHSTABEN
Skalieren von Min/Max-Werten Skalieren einer numerischen Spalte zwischen einem Minimal- und Maximalwert
Blitzvorschau Automatisches Erstellen einer neuen Spalte basierend auf Beispielen, die von einer vorhandenen Spalte abgeleitet sind

Speichern und Exportieren von Code

Die Symbolleiste über dem Daten-Wrangler-Anzeigeraster bietet Optionen zum Speichern des vom Tool generierten Codes. Sie können den Code in die Zwischenablage kopieren oder als Funktion in das Notebook exportieren. Beim Exportieren des Codes wird Data Wrangler geschlossen und die neue Funktion einer Codezelle im Notebook hinzugefügt. Sie können auch den bereinigungen DataFrame herunterladen, der sich im aktualisierten Data Wrangler-Anzeigeraster widerspiegelt, als CSV-Datei.

Tipp

Der von Data Wrangler generierte Code wird erst angewendet, wenn Sie die neue Zelle manuell ausführen, und der ursprüngliche DataFrame wird nicht überschrieben.

Screenshot: Optionen zum Exportieren von Code in Data Wrangler

Screenshot: Code, der von Data Wrangler wieder im Notebook generiert wurde.

Nächste Schritte