Come accelerare la preparazione dei dati con Data Wrangler in Microsoft Fabric
Data Wrangler è uno strumento basato su notebook che offre agli utenti un'esperienza immersiva per eseguire l'analisi esplorativa dei dati. La funzionalità combina una visualizzazione di dati simile a una griglia con statistiche di riepilogo dinamiche, visualizzazioni predefinite e una libreria di operazioni comuni di pulizia dei dati. Ogni operazione può essere applicata in pochi clic, aggiornando la visualizzazione dei dati in tempo reale e generando codice che può essere salvato nel notebook come funzione riutilizzabile.
Importante
Microsoft Fabric è attualmente disponibile in ANTEPRIMA. Queste informazioni si riferiscono a un prodotto in versione preliminare che può essere modificato in modo sostanziale prima del rilascio. Microsoft non fornisce alcuna garanzia, espressa o implicita, rispetto alle informazioni fornite qui.
Prerequisiti
Sottoscrizione Power BI Premium. Se non è disponibile, vedere Come acquistare Power BI Premium.
Un'area di lavoro di Power BI con capacità Premium assegnata. Se non si ha un'area di lavoro, seguire la procedura descritta in Creare un'area di lavoro per crearne una e assegnarla a una capacità Premium.
Accedere a Microsoft Fabric.
Limitazioni
- Data Wrangler supporta attualmente solo dataframe Pandas. È in corso il supporto per i dataframe Spark.
- La visualizzazione di Data Wrangler funziona meglio su monitor di grandi dimensioni, anche se parti diverse dell'interfaccia possono essere ridotte o nascoste per contenere schermi più piccoli.
Avviare Data Wrangler
Gli utenti possono avviare Data Wrangler direttamente da un notebook di Microsoft Fabric per esplorare e trasformare qualsiasi dataframe Pandas. Questo frammento di codice illustra come leggere i dati di esempio in un dataframe Pandas:
import pandas as pd
# Read a CSV into a Pandas DataFrame from e.g. a public blob store
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
Nella scheda "Dati" della barra multifunzione del notebook usare il prompt a discesa Data Wrangler per esplorare i dataframe Pandas attivi disponibili per la modifica. Selezionare quello da aprire in Data Wrangler.
Suggerimento
Non è possibile aprire Wrangler dati mentre il kernel del notebook è occupato. Una cella in esecuzione deve completare l'esecuzione prima dell'avvio di Data Wrangler.
Visualizzazione delle statistiche di riepilogo
All'avvio di Data Wrangler, viene generata una panoramica descrittiva del dataframe visualizzato nel pannello Riepilogo. Questa panoramica include informazioni sulle dimensioni del dataframe, sui valori mancanti e altro ancora. La selezione di una colonna nella griglia Data Wrangler richiede al pannello Riepilogo di aggiornare e visualizzare statistiche descrittive relative a tale colonna specifica. Le informazioni rapide su ogni colonna sono disponibili anche nella relativa intestazione.
Suggerimento
Le statistiche e gli oggetti visivi specifici della colonna (sia nel pannello Riepilogo che nelle intestazioni di colonna) dipendono dal tipo di dati della colonna. Ad esempio, un istogramma binato di una colonna numerica verrà visualizzato nell'intestazione di colonna solo se viene eseguito il cast della colonna come tipo numerico. Usare il pannello Operazioni per ricastare i tipi di colonna per la visualizzazione più accurata.
Esplorazione delle operazioni di pulizia dei dati
Un elenco ricercabile dei passaggi di pulizia dei dati è disponibile nel pannello Operazioni. È anche possibile accedere a una selezione più piccola delle stesse operazioni nel menu contestuale di ogni colonna. Nel pannello Operazioni selezionare un passaggio di pulizia dei dati richiede di selezionare una colonna o colonne di destinazione, insieme ai parametri necessari per completare il passaggio. Ad esempio, la richiesta di ridimensionamento numerico di una colonna richiede un nuovo intervallo di valori.
Anteprima e applicazione di operazioni
I risultati di un'operazione selezionata verranno visualizzati automaticamente nella griglia di visualizzazione Data Wrangler e il codice corrispondente verrà visualizzato automaticamente nel pannello sotto la griglia. Per eseguire il commit del codice visualizzato in anteprima, selezionare "Applica" in entrambe le posizioni. Per eliminare il codice visualizzato in anteprima e provare una nuova operazione, selezionare "Ignora".
Dopo l'applicazione di un'operazione, la griglia di visualizzazione Dati Wrangler e le statistiche di riepilogo vengono aggiornate per riflettere i risultati. Il codice visualizzato in anteprima viene visualizzato nell'elenco in esecuzione delle operazioni di cui è stato eseguito il commit, disponibile nel pannello Passaggi di pulizia.
Suggerimento
È sempre possibile annullare il passaggio applicato più di recente con l'icona del cestino accanto, che viene visualizzato se si passa il cursore su tale passaggio nel pannello Passaggi di pulizia.
La tabella seguente riepiloga le operazioni attualmente supportate da Data Wrangler:
Operazione | Descrizione |
---|---|
Sort | Ordinare una colonna in ordine crescente o decrescente |
Filter | Filtrare le righe in base a una o più condizioni |
Codifica one-hot | Creare nuove colonne per ogni valore univoco in una colonna esistente, indicando la presenza o l'assenza di tali valori per riga |
Codifica one-hot con delimitatore | Suddividere e codificare a caldo i dati categorici usando un delimitatore |
Modificare il tipo di colonna | Modificare il tipo di dati di una colonna |
Rilasciare una colonna | Eliminare una o più colonne |
Selezione colonna | Scegliere una o più colonne da mantenere ed eliminare il resto |
Rinomina colonna | Rinominare una colonna |
Eliminare i valori mancanti | Rimuove le righe con valori mancanti |
Eliminare righe duplicate | Eliminare tutte le righe con valori duplicati in una o più colonne |
immettere i valori mancanti | Sostituire le celle con valori mancanti con un nuovo valore |
Trovare e sostituire | Sostituire le celle con un criterio di corrispondenza esatto |
Raggruppa per colonna e aggregazione | Raggruppare per valori di colonna e ottenere risultati aggregati |
Rimuovere spazi vuoti | Rimuovere spazi vuoti dall'inizio e dalla fine del testo |
Dividere il testo | Suddividere una colonna in più colonne in base a un delimitatore definito dall'utente |
Convertire il testo in lettere minuscole | Convertire il testo in lettere minuscole |
Convertire il testo in lettere maiuscole | Convertire il testo in MAIUSCOLO |
Ridimensionare i valori min/max | Ridimensionare una colonna numerica tra un valore minimo e quello massimo |
Anteprima suggerimenti | Creare automaticamente una nuova colonna in base a esempi derivati da una colonna esistente |
Salvataggio ed esportazione del codice
La barra degli strumenti sopra la griglia di visualizzazione Data Wrangler offre opzioni per salvare il codice generato dallo strumento. È possibile copiare il codice negli Appunti o esportarlo nel notebook come funzione. L'esportazione del codice chiude Data Wrangler e aggiunge la nuova funzione a una cella di codice nel notebook. È anche possibile scaricare il dataframe pulito, riflesso nella griglia di visualizzazione Data Wrangler aggiornata, come file csv.
Suggerimento
Il codice generato da Data Wrangler non verrà applicato finché non si esegue manualmente la nuova cella e non sovrascriverà il dataframe originale.