Come accelerare la preparazione dei dati con Data Wrangler in Microsoft Fabric
Data Wrangler è uno strumento basato su notebook che fornisce agli utenti un'interfaccia immersiva per l'analisi esplorativa dei dati. La funzionalità combina una visualizzazione di dati simile a una griglia con statistiche di riepilogo dinamiche, visualizzazioni predefinite e una libreria di operazioni comuni di pulizia dei dati. Ogni operazione può essere applicata in pochi clic, aggiornando la visualizzazione dei dati in tempo reale e generando codice in pandas o PySpark che può essere salvato nel notebook come funzione riutilizzabile. Questo articolo è incentrato sull'esplorazione e la trasformazione di dataframe pandas. Le istruzioni per l'uso di Data Wrangler nei dataframe Spark sono disponibili qui.
Prerequisiti
Ottenere una sottoscrizione di Microsoft Fabric. In alternativa, iscriversi per ottenere una versione di valutazione gratuita di Microsoft Fabric.
Accedere a Microsoft Fabric.
Usare il commutatore esperienza sul lato sinistro della home page per passare all'esperienza di data science di Synapse.
Limiti
- Data Wrangler supporta attualmente la generazione di codice Pandas nella disponibilità generale e la generazione di codice Spark in anteprima pubblica.
- Le operazioni di codice personalizzate sono attualmente supportate solo per i dataframe pandas.
- Lo schermo di Data Wrangler funziona meglio su monitor di grandi dimensioni, anche se parti diverse dell'interfaccia possono essere ridotte a icona o nascoste per contenere schermi più piccoli.
Avvio di Data Wrangler
È possibile avviare Data Wrangler direttamente da un notebook di Microsoft Fabric per esplorare e trasformare qualsiasi pandas o dataframe Spark. Per una panoramica dell'uso di Data Wrangler con i dataframe Spark, vedere questo articolo complementare. Il frammento di codice seguente mostra come leggere i dati di esempio in un dataframe pandas:
import pandas as pd
# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)
Nella scheda "Dati" della barra multifunzione del notebook usare il prompt a discesa Data Wrangler per esplorare i dataframe attivi disponibili per la modifica. Selezionare quello che si vuole aprire in Data Wrangler.
Suggerimento
I dati Wrangler non possono essere aperti mentre il kernel del notebook è occupato. Una cella in esecuzione deve completare l'esecuzione prima di poter avviare Data Wrangler.
Scelta di esempi personalizzati
Data Wrangler consente di aprire un esempio personalizzato di qualsiasi dataframe attivo selezionando "Scegli esempio personalizzato" dall'elenco a discesa. In questo modo viene avviato un popup con opzioni per specificare le dimensioni del campione desiderato (numero di righe) e il metodo di campionamento (primi record, ultimi record o set casuale).
Visualizzazione delle statistiche di riepilogo
Quando Data Wrangler viene caricato, viene visualizzata una panoramica descrittiva del dataframe scelto nel pannello Riepilogo. Questa panoramica include informazioni sulle dimensioni del dataframe, sui valori mancanti e altro ancora. Se si seleziona una colonna nella griglia Data Wrangler, viene richiesto al pannello Riepilogo di aggiornare e visualizzare statistiche descrittive relative a tale colonna specifica. Le informazioni rapide su ogni colonna sono disponibili anche nella relativa intestazione.
Suggerimento
Le statistiche e gli oggetti visivi specifici della colonna (sia nel pannello Riepilogo che nelle intestazioni di colonna) dipendono dal tipo di dati della colonna. Ad esempio, un istogramma binato di una colonna numerica verrà visualizzato nell'intestazione di colonna solo se viene eseguito il cast della colonna come tipo numerico. Usare il pannello Operazioni per ricastare i tipi di colonna per la visualizzazione più accurata.
Esplorazione delle operazioni di pulizia dei dati
Un elenco ricercabile dei passaggi di pulizia dei dati è disponibile nel pannello Operazioni. Una selezione più piccola delle stesse operazioni è disponibile nel menu di ogni intestazione di colonna. Nel pannello Operazioni, selezionando un passaggio di pulizia dei dati, viene richiesto di specificare una colonna o colonne di destinazione, insieme ai parametri necessari per completare il passaggio. Ad esempio, la richiesta di ridimensionamento numerico di una colonna richiede un nuovo intervallo di valori.
Anteprima e applicazione di operazioni
I risultati di un'operazione selezionata verranno visualizzati automaticamente in anteprima nella griglia di visualizzazione Data Wrangler e il codice corrispondente verrà visualizzato automaticamente nel pannello sotto la griglia. Per eseguire il commit del codice in anteprima, selezionare "Applica" in entrambe le posizioni. Per eliminare il codice visualizzato in anteprima e provare una nuova operazione, selezionare "Ignora".
Dopo l'applicazione di un'operazione, la griglia di visualizzazione Dati Wrangler e le statistiche di riepilogo vengono aggiornate in modo da riflettere i risultati. Il codice viene visualizzato nell'elenco di operazioni di cui è stato eseguito il commit, che si trova nel pannello Passaggi di pulizia.
Suggerimento
È sempre possibile annullare il passaggio applicato più di recente con l'icona del cestino accanto, che viene visualizzato se si passa il cursore su tale passaggio nel pannello Passaggi di pulizia.
La tabella seguente riepiloga le operazioni attualmente supportate da Data Wrangler:
Operazione | Descrizione |
---|---|
Ordinamento | Ordinare una colonna in ordine crescente o decrescente |
Filtra | Filtrare le righe in base a una o più condizioni |
Codifica one-hot | Creare nuove colonne per ogni valore univoco in una colonna esistente, che indica la presenza o l'assenza di tali valori per riga |
Codifica one-hot con delimitatore | Suddividere e codificare a caldo i dati categorici usando un delimitatore |
Modificare il tipo di colonna | Modificare il tipo di dati di una colonna |
Rilasciare una colonna | Eliminare una o più colonne |
Selezionare la colonna | Scegliere una o più colonne da mantenere ed eliminare il resto |
Rinominare la colonna | Rinominare una colonna |
Eliminare i valori mancanti | Rimuovere righe con valori mancanti |
Eliminare righe duplicate | Eliminare tutte le righe con valori duplicati in una o più colonne |
Compilare i valori mancanti | Sostituire le celle con valori mancanti con un nuovo valore |
Trovare e sostituire | Sostituire le celle con un criterio di corrispondenza esatto |
Raggruppa per colonna e aggregazione | Raggruppare per valori di colonna e risultati aggregati |
Rimuovere spazi vuoti | Rimuovere spazi vuoti dall'inizio e dalla fine del testo |
Dividi testo | Dividere una colonna in più colonne in base a un delimitatore definito dall'utente |
Convertire il testo in lettere minuscole | Convertire il testo in lettere minuscole |
Convertire il testo in maiuscolo | Convertire il testo in UPPERCA edizione Standard |
Ridimensionare i valori min/max | Ridimensionare una colonna numerica tra un valore minimo e massimo |
Riempimento flash | Creare automaticamente una nuova colonna in base a esempi derivati da una colonna esistente |
Salvataggio ed esportazione del codice
La barra degli strumenti sopra la griglia di visualizzazione Data Wrangler offre opzioni per salvare il codice generato. È possibile copiare il codice negli Appunti o esportarlo nel notebook come funzione. L'esportazione del codice chiude Data Wrangler e aggiunge la nuova funzione a una cella di codice nel notebook. È anche possibile scaricare il dataframe pulito come file CSV.
Suggerimento
Il codice generato da Data Wrangler non verrà applicato fino a quando non si esegue manualmente la nuova cella e non sovrascriverà il dataframe originale.
Contenuto correlato
- Per provare Data Wrangler nei dataframe Spark, vedere questo articolo complementare.
- Per provare Data Wrangler in VS Code, vedere Data Wrangler in VS Code.
Commenti e suggerimenti
https://aka.ms/ContentUserFeedback.
Presto disponibile: Nel corso del 2024 verranno gradualmente disattivati i problemi di GitHub come meccanismo di feedback per il contenuto e ciò verrà sostituito con un nuovo sistema di feedback. Per altre informazioni, vedereInvia e visualizza il feedback per