Condividi tramite


Come accelerare la preparazione dei dati con Data Wrangler in Microsoft Fabric

Lo strumento Data Wrangler è una risorsa basata su notebook che fornisce un'interfaccia immersiva per l'analisi esplorativa dei dati. Combina una visualizzazione dei dati in forma di griglia con statistiche di riepilogo dinamiche, visualizzazioni integrate e una libreria di operazioni comuni di pulizia dei dati. È possibile applicare ogni operazione con alcuni passaggi. È possibile aggiornare la visualizzazione dei dati in tempo reale e generare codice in pandas o PySpark che è possibile salvare nuovamente nel notebook come funzione riutilizzabile. Questo articolo è incentrato sull'esplorazione e la trasformazione dei dataframe pandas. Per altre informazioni sull'uso di Data Wrangler nei dataframe Spark, visitare questa risorsa.

Prerequisiti

Limiti

  • Le operazioni di codice personalizzate sono attualmente supportate solo per i dataframe pandas.
  • La visualizzazione Data Wrangler funziona meglio su monitor di grandi dimensioni, anche se è possibile ridurre o nascondere parti diverse dell'interfaccia per contenere schermi più piccoli.

Avvio di Data Wrangler

Si possono avviare Data Wrangler direttamente da un notebook di Microsoft Fabric per esplorare e trasformare qualsiasi dataframe Pandas o Spark. Per altre informazioni sull'uso di Data Wrangler con i dataframe Spark, vedere questo articolo complementare. Questo frammento di codice mostra come leggere i dati di esempio in un dataframe pandas:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

Nella scheda "Home" della barra multifunzione del notebook usare il prompt a discesa Data Wrangler per esplorare i dataframe attivi disponibili per la modifica. Selezionare quello che si vuole aprire in Data Wrangler.

Suggerimento

Data Wrangler non può essere aperto mentre il kernel del notebook è occupato. Una cella in esecuzione deve terminare l'esecuzione prima che Data Wrangler possa essere avviata, come illustrato in questo screenshot:

Screenshot che mostra un notebook di Fabric con il prompt dell'elenco a discesa Data Wrangler.

Scelta di esempi personalizzati

Per aprire un esempio personalizzato di qualsiasi dataframe attivo con Data Wrangler, selezionare "Scegli esempio personalizzato" nell'elenco a discesa, come illustrato in questo screenshot:

Screenshot che mostra il prompt dell'elenco a discesa Data Wrangler con l'opzione di esempio personalizzata evidenziata.

Verrà avviato un popup con opzioni per specificare le dimensioni del campione desiderato (numero di righe) e il metodo di campionamento (primi record, ultimi record o set casuale). Le prime 5.000 righe del dataframe fungono da dimensione di esempio predefinita, come illustrato in questo screenshot:

Screenshot che mostra il prompt di esempio personalizzato Data Wrangler.

Visualizzare le statistiche di riepilogo

Quando Data Wrangler viene caricato, viene visualizzata una panoramica descrittiva del dataframe scelto nel pannello "Riepilogo". Questa panoramica include informazioni sulle dimensioni del dataframe, sui relativi valori mancanti e altro ancora. La selezione di qualsiasi colonna nella griglia Data Wrangler richiede al pannello "Riepilogo" di aggiornare e visualizzare statistiche descrittive su tale colonna specifica. Le informazioni rapide su ogni colonna sono disponibili anche nella relativa intestazione.

Suggerimento

Le statistiche e gli oggetti visivi specifici della colonna (sia nel pannello "Riepilogo" che nelle intestazioni di colonna) dipendono dal tipo di dati della colonna. Ad esempio, un istogramma binato di una colonna numerica viene visualizzato nell'intestazione di colonna solo se viene eseguito il cast della colonna come tipo numerico, come illustrato in questo screenshot:

Screenshot che mostra la griglia di visualizzazione di Data Wrangler e il pannello Riepilogo.

Esplorazione delle operazioni di pulizia dei dati

Un elenco ricercabile dei passaggi di pulizia dei dati è disponibile nel pannello "Operazioni". Nel pannello "Operazioni" la selezione di un passaggio di pulizia dei dati richiede di specificare una colonna o colonne di destinazione, insieme ai parametri necessari per completare il passaggio. Ad esempio, il prompt per ridimensionare numericamente una colonna richiede un nuovo intervallo di valori, come illustrato in questo screenshot:

Screenshot che mostra il pannello Data Wrangler Operations (Operazioni Wrangler dati).

Suggerimento

È possibile applicare una selezione più piccola di operazioni dal menu di ogni intestazione di colonna, come illustrato in questo screenshot:

Screenshot che mostra un'operazione Data Wrangler che può essere applicata dal menu dell'intestazione di colonna.

Anteprima e applicazione di operazioni

La griglia di visualizzazione Data Wrangler visualizza automaticamente i risultati di un'operazione selezionata e il codice corrispondente viene visualizzato automaticamente nel pannello sotto la griglia. Per eseguire il commit del codice in anteprima, selezionare "Applica" in entrambe le posizioni. Per eliminare il codice visualizzato in anteprima e provare una nuova operazione, selezionare "Ignora", come illustrato in questo screenshot:

Screenshot che mostra un'operazione Data Wrangler in corso.

Dopo l'applicazione di un'operazione, la griglia di visualizzazione Dati Wrangler e le statistiche di riepilogo vengono aggiornate in modo da riflettere i risultati. Il codice viene visualizzato nell'elenco di operazioni di cui è stato eseguito il commit, che si trova nel pannello "Passaggi di pulizia", come illustrato in questo screenshot:

Screenshot che mostra un'operazione Data Wrangler applicata.

Suggerimento

È sempre possibile annullare il passaggio applicato più di recente. Nel pannello "Passaggi di pulizia" viene visualizzata un'icona del cestino se si passa il cursore sopra il passaggio applicato più di recente, come illustrato in questo screenshot:

Screenshot che mostra un'operazione Data Wrangler che può essere annullata.

Questa tabella riepiloga le operazioni attualmente supportate da Data Wrangler:

Operazione Descrizione
Sort Ordinare una colonna in ordine crescente o decrescente
Filtra Filtrare le righe i dati in base a una o più condizioni.
Codifica one-hot Creare nuove colonne per ogni valore univoco in una colonna esistente, che indica la presenza o l'assenza di tali valori per riga
Codifica one-hot con delimitatore Suddividere e codificare a caldo i dati categorici usando un delimitatore
Cambia tipi di colonne Cambiare il tipo di dati di una colonna
Escludi colonna Eliminare una o più colonne
Selezionare una colonna Scegliere una o più colonne da mantenere ed elimina il resto
Rinominare una colonna Rinominare una colonna
Escludere i valori mancanti Rimuovere le righe con valori mancanti
Escludere le righe duplicate Eliminare tutte le righe con valori duplicati in una o più colonne
Immettere i valori mancanti Sostituire le celle con valori mancanti con un nuovo valore
Trova e sostituisci Sostituire le celle con un criterio di corrispondenza esatto
Raggruppare per colonna e aggregare Raggruppare per valori di colonna e risultati aggregati
Eliminare spazio vuoto Rimuovere spazi vuoti dall'inizio e dalla fine del testo
Dividi testo Dividere una colonna in più colonne in base a un delimitatore definito dall'utente
Conversione del testo in minuscolo Conversione del testo in minuscolo
Convertire il testo in maiuscolo Convertire il testo in MAIUSCOLO
Ridimensionare valori min/max Ridimensionare una colonna numerica tra un valore minimo e massimo
Anteprima suggerimenti Creare automaticamente una nuova colonna in base a esempi derivati da una colonna esistente

Modificare la visualizzazione

In qualsiasi momento, è possibile personalizzare l'interfaccia con la scheda "Visualizzazioni" sulla barra degli strumenti che si trova sopra la griglia di visualizzazione Data Wrangler. In questo modo è possibile nascondere o visualizzare riquadri diversi in base alle preferenze e alle dimensioni dello schermo, come illustrato in questo screenshot:

Screenshot che mostra il menu Data Wrangler per la personalizzazione della visualizzazione.

Salvataggio ed esportazione del codice

La barra degli strumenti sopra la griglia di visualizzazione Data Wrangler offre delle opzioni per salvare il codice generato. È possibile copiare il codice negli Appunti o esportarlo nel notebook come funzione. L'esportazione del codice chiude Data Wrangler e aggiunge la nuova funzione a una cella di codice nel notebook. È anche possibile scaricare il dataframe pulito come file CSV.

Suggerimento

I dati Wrangler generano codice applicato solo quando si esegue manualmente la nuova cella e non sovrascriverà il dataframe originale, come illustrato in questo screenshot:

Screenshot che mostra le opzioni per esportare il codice in Data Wrangler.

È quindi possibile eseguire il codice esportato, come illustrato in questo screenshot:

Screenshot che mostra il codice generato di nuovo da Data Wrangler nel notebook.