Delen via


Gegevensvoorbereiding versnellen met Data Wrangler in Microsoft Fabric

Het hulpprogramma Data Wrangler is een op notebooks gebaseerde resource die een insluitende interface biedt voor verkennende gegevensanalyse. Het combineert een rasterachtige gegevensweergave met dynamische samenvattingsstatistieken, ingebouwde visualisaties en een bibliotheek met algemene bewerkingen voor het opschonen van gegevens. U kunt elke bewerking met een paar stappen toepassen. U kunt de gegevensweergave in realtime bijwerken en code genereren in pandas of PySpark die u als herbruikbare functie kunt opslaan in het notebook. Dit artikel is gericht op het verkennen en transformeren van pandas DataFrames. Ga naar deze resource voor meer informatie over het gebruik van Data Wrangler in Spark DataFrames.

Vereisten

Beperkingen

  • Aangepaste codebewerkingen worden momenteel alleen ondersteund voor pandas DataFrames.
  • De Data Wrangler-weergave werkt het beste op grote beeldschermen, hoewel u verschillende delen van de interface kunt minimaliseren of verbergen om kleinere schermen mogelijk te maken.

Data Wrangler starten

U kunt Data Wrangler rechtstreeks vanuit een Microsoft Fabric-notebook starten om pandas of Spark DataFrame te verkennen en transformeren. Raadpleeg dit aanvullende artikel voor meer informatie over het gebruik van Data Wrangler met Spark DataFrames. Dit codefragment laat zien hoe u voorbeeldgegevens kunt lezen in een Pandas DataFrame:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

Gebruik op het tabblad Start van het notitiebloklint de vervolgkeuzelijst Data Wrangler om door de actieve DataFrames te bladeren die beschikbaar zijn voor bewerking. Selecteer het bestand dat u wilt openen in Data Wrangler.

Tip

Data Wrangler kan niet worden geopend terwijl de notebook-kernel bezet is. Een uitvoerbare cel moet de uitvoering voltooien voordat Data Wrangler kan worden gestart, zoals wordt weergegeven in deze schermopname:

Schermopname van een Fabric-notebook met de vervolgkeuzelijst Data Wrangler.

Aangepaste voorbeelden kiezen

Als u een aangepast voorbeeld van een actief DataFrame met Data Wrangler wilt openen, selecteert u 'Aangepast voorbeeld kiezen' in de vervolgkeuzelijst, zoals wordt weergegeven in deze schermopname:

Schermopname van de vervolgkeuzelijst Data Wrangler met de aangepaste voorbeeldoptie beschreven.

Hiermee wordt een pop-up met opties gestart om de grootte van het gewenste voorbeeld (aantal rijen) en de steekproefmethode (eerste records, laatste records of een willekeurige set) op te geven. De eerste 5000 rijen van het DataFrame fungeren als de standaardgrootte van het voorbeeld, zoals wordt weergegeven in deze schermopname:

Schermopname van de aangepaste voorbeeldprompt Data Wrangler.

Samenvattingsstatistieken weergeven

Wanneer Data Wrangler wordt geladen, wordt er een beschrijvend overzicht weergegeven van het gekozen DataFrame in het deelvenster Samenvatting. Dit overzicht bevat informatie over de DataFrame-dimensies, de ontbrekende waarden en meer. Als u een kolom in het Data Wrangler-raster selecteert, wordt het deelvenster Samenvatting gevraagd om beschrijvende statistieken over die specifieke kolom bij te werken en weer te geven. Snelle inzichten over elke kolom zijn ook beschikbaar in de koptekst.

Tip

Kolomspecifieke statistieken en visuals (zowel in het deelvenster Samenvatting als in de kolomkoppen) zijn afhankelijk van het kolomgegevenstype. Een binned histogram van een numerieke kolom wordt bijvoorbeeld alleen weergegeven in de kolomkop als de kolom wordt gecast als een numeriek type, zoals wordt weergegeven in deze schermopname:

Schermopname van het weergaveraster van Data Wrangler en het deelvenster Samenvatting.

Browsebewerkingen voor het opschonen van gegevens

Een doorzoekbare lijst met stappen voor het opschonen van gegevens vindt u in het deelvenster Bewerkingen. In het deelvenster Bewerkingen wordt u gevraagd om een doelkolom of -kolommen op te geven, samen met de benodigde parameters om de stap te voltooien. De prompt om een kolom numeriek te schalen vereist bijvoorbeeld een nieuw bereik met waarden, zoals wordt weergegeven in deze schermopname:

Schermopname van het deelvenster Data Wrangler Operations.

Tip

U kunt een kleinere selectie van bewerkingen toepassen vanuit het menu van elke kolomkop, zoals wordt weergegeven in deze schermopname:

Schermopname van een Data Wrangler-bewerking die kan worden toegepast vanuit het menu kolomkop.

Voorbeeld van bewerkingen bekijken en toepassen

In het data Wrangler-weergaveraster worden automatisch de resultaten van een geselecteerde bewerking weergegeven. De bijbehorende code wordt automatisch weergegeven in het deelvenster onder het raster. Als u de voorbeeldcode wilt doorvoeren, selecteert u 'Toepassen' op een van beide plaatsen. Als u de voorbeeldcode wilt verwijderen en een nieuwe bewerking wilt proberen, selecteert u Verwijderen, zoals wordt weergegeven in deze schermopname:

Schermopname van een Data Wrangler-bewerking die wordt uitgevoerd.

Zodra een bewerking is toegepast, worden in data Wrangler raster- en overzichtsstatistieken bijgewerkt om de resultaten weer te geven. De code wordt weergegeven in de lijst met vastgelegde bewerkingen, die zich in het deelvenster 'Stappen voor opschonen' bevinden, zoals wordt weergegeven in deze schermopname:

Schermopname van een toegepaste Data Wrangler-bewerking.

Tip

U kunt de meest recent toegepaste stap altijd ongedaan maken. In het deelvenster 'Schoonmaakstappen' wordt een prullenbakpictogram weergegeven als u de cursor boven die laatst toegepaste stap plaatst, zoals wordt weergegeven in deze schermopname:

Schermopname van een Data Wrangler-bewerking die ongedaan kan worden gemaakt.

Deze tabel bevat een overzicht van de bewerkingen die Data Wrangler momenteel ondersteunt:

Bewerking Beschrijving
Sort Een kolom sorteren in oplopende of aflopende volgorde
Filteren Rijen filteren op basis van een of meer voorwaarden
One-hot-codering Nieuwe kolommen maken voor elke unieke waarde in een bestaande kolom, die de aanwezigheid of afwezigheid van deze waarden per rij aangeeft
One-hot codering met scheidingsteken Categorische gegevens splitsen en met één hot coderen met behulp van een scheidingsteken
Kolomtype wijzigen Het gegevenstype van een kolom wijzigen
Kolom neerzetten Een of meer kolommen verwijderen
Kolom selecteren Kies een of meer kolommen die u wilt behouden en verwijder de rest
Kolomnaam wijzigen De naam van een kolom wijzigen
Ontbrekende waarden verwijderen Rijen met ontbrekende waarden verwijderen
Dubbele rijen verwijderen Verwijder alle rijen met dubbele waarden in een of meer kolommen
Ontbrekende waarden doorvoeren Cellen vervangen door ontbrekende waarden door een nieuwe waarde
Zoeken en vervangen Cellen vervangen door een exact overeenkomend patroon
Groeperen op kolom en aggregeren Groeperen op kolomwaarden en geaggregeerde resultaten
Witruimte stripen Witruimte verwijderen uit het begin en einde van de tekst
Tekst splitsen Een kolom splitsen in verschillende kolommen op basis van een door de gebruiker gedefinieerd scheidingsteken
Tekst converteren naar kleine letters Tekst converteren naar kleine letters
Tekst converteren naar hoofdletters Tekst converteren naar HOOFDLETTERS
Min/max-waarden schalen Een numerieke kolom schalen tussen een minimum- en maximumwaarde
Snel aanvullen Automatisch een nieuwe kolom maken op basis van voorbeelden die zijn afgeleid van een bestaande kolom

Uw weergave wijzigen

U kunt de interface op elk gewenst moment aanpassen met het tabblad Weergaven in de werkbalk boven het weergaveraster van Data Wrangler. Dit kan verschillende deelvensters verbergen of weergeven op basis van uw voorkeuren en schermgrootte, zoals wordt weergegeven in deze schermopname:

Schermopname van het menu Data Wrangler voor het aanpassen van de weergaveweergave.

Code opslaan en exporteren

De werkbalk boven het weergaveraster Data Wrangler biedt opties voor het opslaan van de gegenereerde code. U kunt de code als een functie naar het klembord kopiëren of exporteren naar het notitieblok. Als u de code exporteert, wordt Data Wrangler gesloten en wordt de nieuwe functie toegevoegd aan een codecel in het notebook. U kunt het opgeschoonde DataFrame ook downloaden als een CSV-bestand.

Tip

Data Wrangler genereert code die alleen wordt toegepast wanneer u de nieuwe cel handmatig uitvoert en uw oorspronkelijke DataFrame niet overschrijft, zoals wordt weergegeven in deze schermopname:

Schermopname van de opties voor het exporteren van code in Data Wrangler.

Vervolgens kunt u die geëxporteerde code uitvoeren, zoals wordt weergegeven in deze schermopname:

Schermopname van de code die is gegenereerd door Data Wrangler in het notebook.

  • Als u Data Wrangler in Spark DataFrames wilt uitproberen, gaat u naar dit aanvullende artikel
  • Bekijk deze video van onze vrienden bij Guy in a Cube voor een live-action demo van Data Wrangler in Fabric
  • Als u Data Wrangler in Visual Studio Code wilt uitproberen, gaat u naar Data Wrangler in VS Code
  • Hebben we een functie gemist die u nodig hebt? Laat het ons weten! Stel het voor op het Forum Fabric Ideas