Come accelerare la preparazione dei dati con Data Wrangler in Microsoft Fabric

Data Wrangler è uno strumento basato su notebook che offre agli utenti un'esperienza immersiva per eseguire l'analisi esplorativa dei dati. La funzionalità combina una visualizzazione di dati simile a una griglia con statistiche di riepilogo dinamiche, visualizzazioni predefinite e una libreria di operazioni comuni di pulizia dei dati. Ogni operazione può essere applicata in pochi clic, aggiornando la visualizzazione dei dati in tempo reale e generando codice che può essere salvato nel notebook come funzione riutilizzabile.

Importante

Microsoft Fabric è attualmente disponibile in ANTEPRIMA. Queste informazioni si riferiscono a un prodotto in versione preliminare che può essere modificato in modo sostanziale prima del rilascio. Microsoft non fornisce alcuna garanzia, espressa o implicita, rispetto alle informazioni fornite qui.

Prerequisiti

Limitazioni

  • Data Wrangler supporta attualmente solo dataframe Pandas. È in corso il supporto per i dataframe Spark.
  • La visualizzazione di Data Wrangler funziona meglio su monitor di grandi dimensioni, anche se parti diverse dell'interfaccia possono essere ridotte o nascoste per contenere schermi più piccoli.

Avviare Data Wrangler

Gli utenti possono avviare Data Wrangler direttamente da un notebook di Microsoft Fabric per esplorare e trasformare qualsiasi dataframe Pandas. Questo frammento di codice illustra come leggere i dati di esempio in un dataframe Pandas:

import pandas as pd

# Read a CSV into a Pandas DataFrame from e.g. a public blob store
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")

Nella scheda "Dati" della barra multifunzione del notebook usare il prompt a discesa Data Wrangler per esplorare i dataframe Pandas attivi disponibili per la modifica. Selezionare quello da aprire in Data Wrangler.

Suggerimento

Non è possibile aprire Wrangler dati mentre il kernel del notebook è occupato. Una cella in esecuzione deve completare l'esecuzione prima dell'avvio di Data Wrangler.

Screenshot che mostra un notebook di Fabric con il prompt a discesa Data Wrangler.

Visualizzazione delle statistiche di riepilogo

All'avvio di Data Wrangler, viene generata una panoramica descrittiva del dataframe visualizzato nel pannello Riepilogo. Questa panoramica include informazioni sulle dimensioni del dataframe, sui valori mancanti e altro ancora. La selezione di una colonna nella griglia Data Wrangler richiede al pannello Riepilogo di aggiornare e visualizzare statistiche descrittive relative a tale colonna specifica. Le informazioni rapide su ogni colonna sono disponibili anche nella relativa intestazione.

Suggerimento

Le statistiche e gli oggetti visivi specifici della colonna (sia nel pannello Riepilogo che nelle intestazioni di colonna) dipendono dal tipo di dati della colonna. Ad esempio, un istogramma binato di una colonna numerica verrà visualizzato nell'intestazione di colonna solo se viene eseguito il cast della colonna come tipo numerico. Usare il pannello Operazioni per ricastare i tipi di colonna per la visualizzazione più accurata.

Screenshot che mostra la griglia di visualizzazione Data Wrangler e il pannello Riepilogo.

Esplorazione delle operazioni di pulizia dei dati

Un elenco ricercabile dei passaggi di pulizia dei dati è disponibile nel pannello Operazioni. È anche possibile accedere a una selezione più piccola delle stesse operazioni nel menu contestuale di ogni colonna. Nel pannello Operazioni selezionare un passaggio di pulizia dei dati richiede di selezionare una colonna o colonne di destinazione, insieme ai parametri necessari per completare il passaggio. Ad esempio, la richiesta di ridimensionamento numerico di una colonna richiede un nuovo intervallo di valori.

Screenshot che mostra il pannello Operazioni di Data Wrangler.

Anteprima e applicazione di operazioni

I risultati di un'operazione selezionata verranno visualizzati automaticamente nella griglia di visualizzazione Data Wrangler e il codice corrispondente verrà visualizzato automaticamente nel pannello sotto la griglia. Per eseguire il commit del codice visualizzato in anteprima, selezionare "Applica" in entrambe le posizioni. Per eliminare il codice visualizzato in anteprima e provare una nuova operazione, selezionare "Ignora".

Screenshot che mostra un'operazione Data Wrangler in corso.

Dopo l'applicazione di un'operazione, la griglia di visualizzazione Dati Wrangler e le statistiche di riepilogo vengono aggiornate per riflettere i risultati. Il codice visualizzato in anteprima viene visualizzato nell'elenco in esecuzione delle operazioni di cui è stato eseguito il commit, disponibile nel pannello Passaggi di pulizia.

Screenshot che mostra un'operazione Data Wrangler applicata.

Suggerimento

È sempre possibile annullare il passaggio applicato più di recente con l'icona del cestino accanto, che viene visualizzato se si passa il cursore su tale passaggio nel pannello Passaggi di pulizia.

Screenshot che mostra un'operazione Data Wrangler che può essere annullata.

La tabella seguente riepiloga le operazioni attualmente supportate da Data Wrangler:

Operazione Descrizione
Sort Ordinare una colonna in ordine crescente o decrescente
Filter Filtrare le righe in base a una o più condizioni
Codifica one-hot Creare nuove colonne per ogni valore univoco in una colonna esistente, indicando la presenza o l'assenza di tali valori per riga
Codifica one-hot con delimitatore Suddividere e codificare a caldo i dati categorici usando un delimitatore
Modificare il tipo di colonna Modificare il tipo di dati di una colonna
Rilasciare una colonna Eliminare una o più colonne
Selezione colonna Scegliere una o più colonne da mantenere ed eliminare il resto
Rinomina colonna Rinominare una colonna
Eliminare i valori mancanti Rimuove le righe con valori mancanti
Eliminare righe duplicate Eliminare tutte le righe con valori duplicati in una o più colonne
immettere i valori mancanti Sostituire le celle con valori mancanti con un nuovo valore
Trovare e sostituire Sostituire le celle con un criterio di corrispondenza esatto
Raggruppa per colonna e aggregazione Raggruppare per valori di colonna e ottenere risultati aggregati
Rimuovere spazi vuoti Rimuovere spazi vuoti dall'inizio e dalla fine del testo
Dividere il testo Suddividere una colonna in più colonne in base a un delimitatore definito dall'utente
Convertire il testo in lettere minuscole Convertire il testo in lettere minuscole
Convertire il testo in lettere maiuscole Convertire il testo in MAIUSCOLO
Ridimensionare i valori min/max Ridimensionare una colonna numerica tra un valore minimo e quello massimo
Anteprima suggerimenti Creare automaticamente una nuova colonna in base a esempi derivati da una colonna esistente

Salvataggio ed esportazione del codice

La barra degli strumenti sopra la griglia di visualizzazione Data Wrangler offre opzioni per salvare il codice generato dallo strumento. È possibile copiare il codice negli Appunti o esportarlo nel notebook come funzione. L'esportazione del codice chiude Data Wrangler e aggiunge la nuova funzione a una cella di codice nel notebook. È anche possibile scaricare il dataframe pulito, riflesso nella griglia di visualizzazione Data Wrangler aggiornata, come file csv.

Suggerimento

Il codice generato da Data Wrangler non verrà applicato finché non si esegue manualmente la nuova cella e non sovrascriverà il dataframe originale.

Screenshot che mostra le opzioni per esportare il codice in Data Wrangler.

Screenshot che mostra il codice generato da Data Wrangler nel notebook.

Passaggi successivi