Profilare i dati in Power BI

Completato

La profilatura dei dati è lo studio delle sfumature dei dati: determinare le anomalie, esaminare e sviluppare le strutture di dati sottostanti ed eseguire query sulle statistiche dei dati, ad esempio conteggi di righe, distribuzioni di valori, valori minimi e massimi, medie e così via. Questo concetto è importante perché consente di definire la forma e l'organizzazione dei dati in modo che l'interazione con i dati e l'identificazione della distribuzione dei dati non sia complicata, contribuendo quindi a rendere molto semplice l'utilizzo dei dati sul front-end per sviluppare elementi del report.

Si supponga di dover sviluppare report per il team di vendita della propria organizzazione.  Non si è certi del modo in cui i dati sono strutturati e contenuti all'interno delle tabelle, quindi si vogliono profilare i dati in background prima di iniziare lo sviluppo degli oggetti visivi.  Power BI include funzionalità che rendono queste attività semplici e intuitive.

Esaminare le strutture dei dati

Prima di iniziare a esaminare i dati nell'editor di Power Query, è necessario acquisire familiarità con le strutture di dati sottostanti usate per l'organizzazione dei dati. È possibile visualizzare il modello semantico corrente nella scheda Modello in Power BI Desktop.

Struttura dei dati di esempio e barra multifunzione

Nella scheda Modello è possibile modificare le proprietà di colonna e tabella specifiche selezionando una tabella o colonne e è possibile trasformare i dati usando il pulsante Trasforma dati, che consente di editor di Power Query. È inoltre possibile gestire, creare, modificare ed eliminare relazioni tra tabelle diverse usando Gestisci relazioni, che si trova sulla barra multifunzione.

Individuare le anomalie dei dati e le statistiche dei dati

Dopo aver creato una connessione a un'origine dati e aver selezionato Trasforma dati, si viene indirizzati all'editor di Power Query, in cui è possibile determinare se esistono anomalie nei dati.  Le anomalie dei dati sono outlier nei dati. Determinare quali sono le anomalie può aiutare a identificare la distribuzione normale dei dati e se sono presenti punti dati specifici che è necessario esaminare ulteriormente. editor di Power Query determina le anomalie dei dati usando la funzionalità Distribuzione colonne.

Selezionare Visualizza sulla barra multifunzione e in Anteprima dati è possibile scegliere tra alcune opzioni. Per comprendere le anomalie e le statistiche dei dati, selezionare le opzioni Distribuzione colonna, Qualità colonna e Profilo colonna .  Nella figura seguente sono illustrate le statistiche visualizzate.

La qualità delle colonne e la distribuzione delle colonne vengono visualizzate nei grafici sopra le colonne dei dati. La qualità della colonna mostra le percentuali di dati validi, in caso di errore e vuote. In una situazione ideale, si vuole che il 100% dei dati sia valido.

Anomalie e statistiche dei dati per una colonna di dati

Nota

Per impostazione predefinita, Power Query esamina le prime 1000 righe del set di dati. Per modificare questa impostazione, selezionare lo stato di profilatura nella barra di stato e selezionare Profilatura della colonna in base all'intero set di dati. ]

Con Distribuzione colonna vengono visualizzati la distribuzione dei dati all'interno della colonna e i conteggi dei valori distinti e univoci, che possono fornire entrambi informazioni dettagliate sui conteggi dei dati. I valori distinti sono tutti i valori diversi in una colonna, inclusi i duplicati e i valori Null, mentre i valori univoci non includono i duplicati o i valori Null. Pertanto, distinto in questa tabella indica il numero totale di quanti valori sono presenti, mentre univoco indica quanti di questi valori vengono visualizzati una sola volta.

Il profilo di colonna offre un'analisi più approfondita delle statistiche all'interno delle colonne per le prime 1.000 righe di dati. In questa colonna sono disponibili vari valori diversi, incluso il numero di righe, che è importante quando si verifica se l'importazione dei dati è stata eseguita correttamente. Ad esempio, se il database originale include 100 righe, è possibile usare questo numero di righe per verificare che siano state in effetti importate correttamente 100 righe. Inoltre, questo numero di righe indicherà quante righe Power BI considera come outlier, il numero di righe e stringhe vuote e il valore minimo e massimo, che indicano rispettivamente il valore più piccolo e più grande di una colonna. Questa distinzione è particolarmente importante nel caso di dati numerici, perché vi notificherà immediatamente se si ha un valore massimo oltre a quello che l'azienda identifica come "massimo". Questo valore chiama all'attenzione questi valori, che significa che è possibile concentrarsi sulle attività durante il recupero più approfondito dei dati.  Nel caso di dati che si trovano in una colonna di testo, come illustrato nell'immagine precedente, il valore minimo è il primo valore e il valore massimo è l'ultimo valore in ordine alfabetico.

Inoltre, il grafico distribuzione valore indica i conteggi per ogni valore distinto in tale colonna specifica. Quando si esamina il grafico nell'immagine precedente, si noti che la distribuzione del valore indica che "Anthony Gross" viene visualizzato il numero massimo di volte all'interno della colonna SalesPerson e che "Lily Code" viene visualizzato il numero minimo di volte. Queste informazioni sono particolarmente importanti perché identificano gli outlier.  Se un valore compare molto di più di altri valori in una colonna, la funzionalità Distribuzione dei valori consente di individuare una posizione da cui iniziare le indagini per scoprire il motivo.

In una colonna numerica, le statistiche di colonna includono anche il numero di zero e i valori Null, insieme al valore medio nella colonna, alla deviazione standard dei valori nella colonna e al numero di valori pari e dispari presenti nella colonna. Queste statistiche offrono un'idea della distribuzione dei dati all'interno della colonna e sono importanti perché riepilogano i dati nella colonna e servono da punto di partenza per determinare quali sono gli outlier.

Ad esempio, durante l'analisi dei dati della fattura, si noti che il grafico Distribuzione valore mostra che alcuni venditori nella colonna SalesPerson appaiono lo stesso numero di volte all'interno dei dati. Si noti inoltre che la stessa situazione si è verificata nella colonna Profit e anche in altre tabelle. Con ulteriori indagini si scopre che i dati usati non sono validi e devono essere aggiornati, quindi si esegue immediatamente l'aggiornamento. Senza questo grafico, è possibile che un errore di questo tipo non venga intercettato altrettanto rapidamente ed è questo il motivo per cui la distribuzione dei valori è essenziale.

Dopo aver completato le modifiche in editor di Power Query e sono pronti per iniziare a creare oggetti visivi, tornare a Home sulla barra multifunzione editor di Power Query. Selezionare Chiudi & Applica, che restituirà Power BI Desktop e verranno applicate anche le modifiche/trasformazioni delle colonne.

Sono stati ora determinati gli elementi che costituiscono i dati di profilatura in Power BI, che includono il caricamento dei dati in Power BI, la ricerca delle proprietà delle colonne per ottenere chiarezza e apportare ulteriori modifiche al tipo e al formato dei dati nelle colonne, trovare anomalie dei dati e visualizzare le statistiche dei dati in editor di Power Query. Con queste conoscenze è possibile includere tra le proprie competenze la possibilità di studiare i dati in modo efficiente ed efficace.