Share via


Gegevensvoorbereiding versnellen met Data Wrangler in Microsoft Fabric

Data Wrangler versnelt uw werkstroom voor gegevensvoorbereiding door een meeslepende, visuele interface te bieden voor verkennende gegevensanalyse. In dit artikel leert u het volgende:

  • Data Wrangler starten vanuit uw Fabric-notebook
  • Gegevens verkennen met interactieve visualisaties en overzichtsstatistieken
  • Algemene bewerkingen voor het opschonen van gegevens toepassen met het automatisch genereren van code
  • Herbruikbare pandas- of PySpark-functies terug exporteren naar uw notebook

Dit artikel is gericht op pandas DataFrames. Zie deze resource voor Spark DataFrames.

Prerequisites

Limitations

  • Aangepaste codebewerkingen ondersteunen momenteel alleen pandas DataFrames.
  • De Data Wrangler-weergave werkt het beste op grote beeldschermen. U kunt echter verschillende delen van de interface minimaliseren of verbergen voor kleinere schermen.

Data Wrangler starten

U kunt Data Wrangler rechtstreeks vanuit een Microsoft Fabric-notebook starten om pandas of Spark DataFrame te verkennen en transformeren.

Aan de slag met voorbeeldgegevens:

Dit codefragment laat zien hoe u voorbeeldgegevens kunt lezen in een Pandas DataFrame:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

Gebruik op het tabblad Start van het notitiebloklint de vervolgkeuzelijst Data Wrangler om door de actieve DataFrames te bladeren die beschikbaar zijn voor bewerking. Selecteer het bestand dat u wilt openen in Data Wrangler.

Tip

U kunt Data Wrangler niet openen terwijl de notebook-kernel bezet is. Een uitvoerbare cel moet eindigen voordat Data Wrangler kan worden gestart, zoals wordt weergegeven in deze schermopname:

Schermopname van een Fabric-notebook met het keuzemenu Data Wrangler.

Aangepaste voorbeelden kiezen

Als u een aangepast voorbeeld van een actief DataFrame met Data Wrangler wilt openen, selecteert u Aangepast voorbeeld kiezen in de vervolgkeuzelijst, zoals wordt weergegeven in deze schermopname:

Schermopname van de vervolgkeuzelijst Data Wrangler met de voorbeeldoptie beschreven.

Met deze actie wordt een dialoogvenster geopend met opties voor het opgeven van de grootte van het gewenste voorbeeld (aantal rijen) en de steekproefmethode (eerste records, laatste records of een willekeurige set). De eerste 5000 rijen van het DataFrame fungeren als de standaardgrootte van het voorbeeld, zoals wordt weergegeven in deze schermopname:

Schermopname van de aangepaste voorbeeldprompt Data Wrangler.

Samenvattingsstatistieken weergeven

Wanneer Data Wrangler wordt geladen, wordt er een beschrijvend overzicht weergegeven van het gekozen DataFrame in het deelvenster Samenvatting . Dit overzicht bevat informatie over de dataframedimensies, ontbrekende waarden en meer. Wanneer u een kolom in het Data Wrangler-raster selecteert, wordt het deelvenster Samenvatting bijgewerkt om beschrijvende statistieken over die specifieke kolom weer te geven. Snelle inzichten over elke kolom zijn ook beschikbaar in de koptekst.

Tip

Kolomspecifieke statistieken en visuals (zowel in het deelvenster Samenvatting als in de kolomkoppen) zijn afhankelijk van het gegevenstype van de kolom. Een binned histogram van een numerieke kolom wordt bijvoorbeeld alleen weergegeven in de kolomkop als de kolom wordt gecast als een numeriek type, zoals wordt weergegeven in deze schermopname:

Schermafbeelding van het gridweergave van Data Wrangler en het samenvattingspaneel.

Browsebewerkingen voor het opschonen van gegevens

Het deelvenster Bewerkingen biedt een doorzoekbare lijst met bewerkingen voor het opschonen van gegevens. Wanneer u een bewerking voor het opschonen van gegevens selecteert in het deelvenster Bewerkingen , moet u een doelkolom of -kolommen opgeven, samen met de benodigde parameters om de bewerking te voltooien. De prompt om een kolom numeriek te schalen vereist bijvoorbeeld een nieuw bereik met waarden, zoals wordt weergegeven in deze schermopname:

Schermopname van het deelvenster Data Wrangler Operations.

Tip

U kunt een kleinere selectie van bewerkingen toepassen vanuit het menu van elke kolomkop, zoals wordt weergegeven in deze schermopname:

Schermopname van een Data Wrangler-bewerking die kan worden toegepast vanuit het kolomkopmenu.

Voorvertonen en toepassen van bewerkingen

In het data Wrangler-weergaveraster worden automatisch de resultaten van een geselecteerde bewerking weergegeven. De bijbehorende code wordt automatisch weergegeven in het deelvenster onder het raster. Als u de voorbeeldcode wilt doorvoeren, selecteert u Toepassen op een van beide locaties. Als u de voorbeeldcode wilt verwijderen en een nieuwe bewerking wilt proberen, selecteert u Verwijderen zoals wordt weergegeven in deze schermopname:

Schermopname van een Data Wrangler-bewerking die wordt uitgevoerd.

Zodra u een bewerking hebt toegepast, worden raster- en samenvattingsstatistieken bijgewerkt met data Wrangler om de resultaten weer te geven. De code wordt weergegeven in de lijst met vastgelegde bewerkingen in het deelvenster Schoonmaakstappen , zoals wordt weergegeven in deze schermopname:

Schermopname van een toegepaste Data Wrangler-bewerking.

Tip

U kunt de meest recent toegepaste stap altijd ongedaan maken. In het deelvenster Schoonmaakstappen wordt een prullenbakpictogram weergegeven wanneer u de cursor boven de laatst toegepaste stap beweegt, zoals wordt weergegeven in deze schermopname:

Schermopname van een Data Wrangler-bewerking die ongedaan kan worden gemaakt.

Deze tabel bevat een overzicht van de bewerkingen die Data Wrangler momenteel ondersteunt:

Operation Description
Sort Een kolom sorteren in oplopende of aflopende volgorde
Filter Rijen filteren op basis van een of meer voorwaarden
One-hot-codering Nieuwe kolommen maken voor elke unieke waarde in een bestaande kolom, die de aanwezigheid of afwezigheid van deze waarden per rij aangeeft
Binarizer met meerdere labels Gegevens splitsen met behulp van een scheidingsteken en nieuwe kolommen maken voor elke categorie, waarbij 1 wordt gemarkeerd als een rij die categorie heeft en 0 als deze niet
Kolomtype wijzigen Het gegevenstype van een kolom wijzigen
Kolom verwijderen Een of meer kolommen verwijderen
Kolom selecteren Kies een of meer kolommen die u wilt behouden en verwijder de rest
Kolomnaam wijzigen De naam van een kolom wijzigen
Ontbrekende waarden verwijderen Rijen met ontbrekende waarden verwijderen
Dubbele rijen verwijderen Verwijder alle rijen met dubbele waarden in een of meer kolommen
Ontbrekende waarden doorvoeren Vervang ontbrekende waarden in cellen door een nieuwe waarde
Zoeken en vervangen Cellen vervangen door een exact overeenkomend patroon
Groeperen op kolom en aggregeren Groeperen op kolomwaarden en geaggregeerde resultaten
Witruimte verwijderen Witruimte verwijderen uit het begin en einde van de tekst
Tekst splitsen Een kolom splitsen in verschillende kolommen op basis van een door de gebruiker gedefinieerd scheidingsteken
Tekst converteren naar kleine letters Tekst converteren naar kleine letters
Tekst converteren naar hoofdletters Tekst converteren naar HOOFDLETTERS
Min/max-waarden schalen Een numerieke kolom schalen tussen een minimum- en maximumwaarde
Snel aanvullen Automatisch een nieuwe kolom maken op basis van voorbeelden die zijn afgeleid van een bestaande kolom

Uw weergave aanpassen

U kunt de interface op elk gewenst moment aanpassen met behulp van het tabblad Weergaven in de werkbalk boven de weergavetabel van Data Wrangler. Met deze optie kunt u verschillende deelvensters verbergen of weergeven op basis van uw voorkeuren en schermgrootte, zoals wordt weergegeven in deze schermopname:

Schermopname van het menu Data Wrangler voor het aanpassen van de weergaveweergave.

Code opslaan en exporteren

De werkbalk boven het weergaveraster van Data Wrangler biedt opties om de gegenereerde code op te slaan. U kunt de code naar het klembord kopiëren of als een functie naar het notebook exporteren. Als u de code exporteert, wordt Data Wrangler gesloten en wordt de nieuwe functie toegevoegd aan een codecel in het notebook. U kunt het opgeschoonde DataFrame ook downloaden als een CSV-bestand.

Tip

Data Wrangler genereert code die alleen wordt uitgevoerd wanneer u de nieuwe cel handmatig uitvoert en uw oorspronkelijke DataFrame niet overschrijft, zoals wordt weergegeven in deze schermopname:

Schermopname van de opties voor het exporteren van code in Data Wrangler.

Vervolgens kunt u die geëxporteerde code uitvoeren, zoals wordt weergegeven in deze schermopname:

Schermopname van de code die is gegenereerd door Data Wrangler in het notebook.

Volgende stappen

Nu u weet hoe u Data Wrangler gebruikt met pandas DataFrames, verkent u deze resources:

Hebt u feedback? Deel uw ideeën in het Forum Fabric Ideas.