Condividi tramite


Come usare Data Wrangler nei dataframe Spark (anteprima)

Data Wrangler, uno strumento basato su notebook per l'analisi esplorativa dei dati, supporta ora sia i dataframe Spark che i dataframe pandas, generando codice PySpark oltre al codice Python. Per una panoramica generale di Data Wrangler, che illustra come esplorare e trasformare i dataframe pandas, vedere l'esercitazione principale. L'esercitazione seguente illustra come usare Data Wrangler per esplorare e trasformare i dataframe Spark.

Importante

Questa funzionalità è disponibile in anteprima.

Prerequisiti

  • Ottenere una sottoscrizione di Microsoft Fabric. In alternativa, iscriversi per ottenere una versione di valutazione gratuita di Microsoft Fabric.

  • Accedere a Microsoft Fabric.

  • Usare il commutatore esperienza sul lato sinistro della home page per passare all'esperienza di data science di Synapse.

    Screenshot of the experience switcher menu, showing where to select Data Science.

Avvio di Data Wrangler con un dataframe Spark

Gli utenti possono aprire i dataframe Spark in Data Wrangler direttamente da un notebook di Microsoft Fabric passando alla stessa richiesta di elenco a discesa in cui vengono visualizzati i dataframe pandas. Un elenco di dataframe Spark attivi viene visualizzato nell'elenco a discesa sotto l'elenco delle variabili pandas attive.

Il frammento di codice successivo crea un dataframe Spark con gli stessi dati di esempio usati nell'esercitazione su Pandas Data Wrangler:

import pandas as pd

# Read a CSV into a Spark DataFrame
df = spark.createDataFrame(pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv"))
display(df)

Nella scheda "Dati" della barra multifunzione del notebook usare il prompt a discesa Data Wrangler per esplorare i dataframe attivi disponibili per la modifica. Selezionare quello che si vuole aprire in Data Wrangler.

Suggerimento

I dati Wrangler non possono essere aperti mentre il kernel del notebook è occupato. Una cella in esecuzione deve completare l'esecuzione prima di poter avviare Data Wrangler.

Screenshot showing a Fabric notebook with the Data Wrangler dropdown prompt.

Scelta di esempi personalizzati

Data Wrangler converte automaticamente i dataframe Spark in campioni pandas per motivi di prestazioni. Tuttavia, tutto il codice generato dallo strumento viene in definitiva convertito in PySpark quando esporta di nuovo nel notebook. Come per qualsiasi dataframe pandas, è possibile personalizzare l'esempio predefinito selezionando "Scegli esempio personalizzato" dal menu a discesa Data Wrangler. In questo modo viene avviato un popup con opzioni per specificare le dimensioni del campione desiderato (numero di righe) e il metodo di campionamento (primi record, ultimi record o set casuale).

Screenshot showing the Data Wrangler dropdown prompt with the custom sample option outlined.

Screenshot showing the Data Wrangler custom sample prompt.

Visualizzazione delle statistiche di riepilogo

Quando Data Wrangler viene caricato, un banner informativo sopra la griglia di anteprima ricorda che i dataframe Spark vengono convertiti temporaneamente in campioni pandas, ma tutto il codice generato viene infine convertito in PySpark. L'uso di Data Wrangler nei dataframe Spark non è diverso dall'uso nei dataframe pandas. Una panoramica descrittiva nel pannello Riepilogo visualizza informazioni sulle dimensioni dell'esempio, sui valori mancanti e altro ancora. Se si seleziona una colonna nella griglia Data Wrangler, viene richiesto al pannello Riepilogo di aggiornare e visualizzare statistiche descrittive relative a tale colonna specifica. Le informazioni rapide su ogni colonna sono disponibili anche nella relativa intestazione.

Suggerimento

Le statistiche e gli oggetti visivi specifici della colonna (sia nel pannello Riepilogo che nelle intestazioni di colonna) dipendono dal tipo di dati della colonna. Ad esempio, un istogramma binato di una colonna numerica verrà visualizzato nell'intestazione di colonna solo se viene eseguito il cast della colonna come tipo numerico. Usare il pannello Operazioni per ricastare i tipi di colonna per la visualizzazione più accurata.

Screenshot showing the Data Wrangler display grid and Summary panel.

Esplorazione delle operazioni di pulizia dei dati

Un elenco ricercabile dei passaggi di pulizia dei dati è disponibile nel pannello Operazioni. Una selezione più piccola delle stesse operazioni è disponibile anche nel menu contestuale di ogni colonna. Nel pannello Operazioni, selezionando un passaggio di pulizia dei dati, viene richiesto di specificare una colonna o colonne di destinazione, insieme ai parametri necessari per completare il passaggio. Ad esempio, la richiesta di ridimensionamento numerico di una colonna richiede un nuovo intervallo di valori.

Screenshot showing the Data Wrangler Operations panel.

Anteprima e applicazione di operazioni

I risultati di un'operazione selezionata vengono visualizzati automaticamente in anteprima nella griglia di visualizzazione Data Wrangler e il codice corrispondente viene visualizzato automaticamente nel pannello sotto la griglia. Per eseguire il commit del codice in anteprima, selezionare "Applica" in entrambe le posizioni. Per eliminare il codice visualizzato in anteprima e provare una nuova operazione, selezionare "Ignora".

Screenshot showing a Data Wrangler operation in progress.

Dopo l'applicazione di un'operazione, la griglia di visualizzazione Dati Wrangler e le statistiche di riepilogo vengono aggiornate in modo da riflettere i risultati. Il codice viene visualizzato nell'elenco di operazioni di cui è stato eseguito il commit, che si trova nel pannello Passaggi di pulizia.

Screenshot showing an applied Data Wrangler operation.

Suggerimento

È sempre possibile annullare il passaggio applicato più di recente con l'icona del cestino accanto, che viene visualizzato se si passa il cursore su tale passaggio nel pannello Passaggi di pulizia.

Screenshot showing a Data Wrangler operation that can be undone.

La tabella seguente riepiloga le operazioni attualmente supportate da Data Wrangler per i dataframe Spark:

Operazione Descrizione
Ordinamento Ordinare una colonna in ordine crescente o decrescente
Filtra Filtrare le righe in base a una o più condizioni
Codifica one-hot Creare nuove colonne per ogni valore univoco in una colonna esistente, che indica la presenza o l'assenza di tali valori per riga
Codifica one-hot con delimitatore Suddividere e codificare a caldo i dati categorici usando un delimitatore
Modificare il tipo di colonna Modificare il tipo di dati di una colonna
Rilasciare una colonna Eliminare una o più colonne
Selezionare la colonna Scegliere una o più colonne da mantenere ed eliminare il resto
Rinominare la colonna Rinominare una colonna
Eliminare i valori mancanti Rimuovere righe con valori mancanti
Eliminare righe duplicate Eliminare tutte le righe con valori duplicati in una o più colonne
Compilare i valori mancanti Sostituire le celle con valori mancanti con un nuovo valore
Trovare e sostituire Sostituire le celle con un criterio di corrispondenza esatto
Raggruppa per colonna e aggregazione Raggruppare per valori di colonna e risultati aggregati
Rimuovere spazi vuoti Rimuovere spazi vuoti dall'inizio e dalla fine del testo
Dividi testo Dividere una colonna in più colonne in base a un delimitatore definito dall'utente
Convertire il testo in lettere minuscole Convertire il testo in lettere minuscole
Convertire il testo in maiuscolo Convertire il testo in UPPERCA edizione Standard
Ridimensionare i valori min/max Ridimensionare una colonna numerica tra un valore minimo e massimo
Riempimento flash Creare automaticamente una nuova colonna in base a esempi derivati da una colonna esistente

Salvataggio ed esportazione del codice

La barra degli strumenti sopra la griglia di visualizzazione Data Wrangler offre opzioni per salvare il codice generato. È possibile copiare il codice negli Appunti o esportarlo nel notebook come funzione. Per i dataframe Spark, tutto il codice generato nell'esempio pandas viene convertito in PySpark prima di tornare al notebook. Prima della chiusura di Data Wrangler, lo strumento visualizza un'anteprima del codice PySpark tradotto e offre un'opzione per esportare anche il codice pandas intermedio.

Suggerimento

Il codice generato da Data Wrangler non verrà applicato fino a quando non si esegue manualmente la nuova cella e non sovrascriverà il dataframe originale.

Screenshot showing the options to export code in Data Wrangler.

Screenshot showing the PySpark preview in the export code prompt in Data Wrangler.

Screenshot showing the code generated by Data Wrangler back in the notebook.