Condividi tramite


Sfogliare ed esaminare il punteggio di qualità dei dati del patrimonio dati

Dopo aver creato le regole di qualità dei dati ed eseguito un'analisi della qualità dei dati, gli asset di dati riceveranno un punteggio di qualità dei dati in base ai risultati delle regole. Questo articolo illustra il modo in cui i punteggi vengono calcolati per offrire una conoscenza più approfondita dei risultati della qualità dei dati e per sviluppare elementi di azione per migliorare l'integrità dei dati.

Informazioni sui punteggi di qualità dei dati

L'obiettivo delle regole di qualità dei dati è fornire una descrizione dello stato dei dati. In particolare, mostra la distanza dei dati dallo stato ideale descritto dalle regole. Ogni regola, quando viene eseguita, produce un punteggio che descrive la vicinanza dei dati allo stato desiderato. La maggior parte delle regole è molto semplice; dividono il numero totale di righe che hanno superato la valutazione per il numero totale di righe da raggiungere al punteggio.

La formula usata per calcolare il punteggio di qualità dei dati per una regola rispetto ai dati in una colonna è:

[(total number of passed records)/(passed records + failed records + miscast records + empty records + ignored records)]

  • Numerator = numero di record passati
  • Denominator = numero totale di record (numero di record superati + numero di record non riusciti + numero di record non recapitati correttamente + numero di record vuoti + numero di record ignorati)
    • Passato : numero di record che hanno superato una regola applicata
    • Non valutabile: le colonne necessarie per valutare questa regola non sono valutabili
    • Non riuscita: numero di record che non hanno superato una regola applicata
    • Miscast: il tipo di dati dell'asset e il tipo che il cliente ha elencato come non corrispondenti. Non può essere convertito nel tipo espresso.
    • Vuoto : record null o vuoti
    • Ignorato: le righe non hanno partecipato alla valutazione delle regole. I clienti possono esprimere righe da ignorare. Come ignorare tutte le righe con posta elettronica = "n/a" o Ignora tutte le righe in cui departmentCode = 'test' o 'internal'

Qualità dei dati di Microsoft Purview quindi dà un senso per lo stato di ogni colonna generando un punteggio di colonna. Questo punteggio è la media di tutti i punteggi delle regole in tale colonna.

Screenshot che mostra i punteggi di Data Quality a livello di colonna.

Una volta calcolati i punteggi delle colonne, la formula usata per calcolare il punteggio medio di qualità dei dati percentuale per i prodotti dati e i domini di governance è:

[(Percentage 1 + Percentage 2) / (Sample size 1 + Sample size 2)] x 100

Il punteggio viene moltiplicato per 100 per rendere i punteggi più leggibili.

Calcolo di esempio

Si supponga che sia presente una colonna in cui non è definita la regola "Campi vuoti/vuoti". Ciò implica che i valori Null sono consentiti per questa colonna. Quindi alcune regole, come la regola dei valori univoci, escluderanno i valori Null in questo caso.

Ad esempio: se l'asset contiene 10.000 righe in una tabella, ma 3.000 erano null e 500 non erano univoche, il punteggio sarebbe: ((10000 - 3000 - 500)/(10000 - 3000) )* 100 = 93

Le righe Null vengono ignorate durante la valutazione dei dati e la determinazione di un punteggio.

Punteggi delle regole specifici

Per le regole personalizzate è disponibile una funzionalità simile a quella visualizzata per la regola dei valori univoci, ma in questo caso il filtro non è sui valori Null, ma sull'espressione di filtro.

Alcune regole, ad esempio la regola di aggiornamento, sono pass o fail. Quindi i loro punteggi saranno 0 o 100. E la regola di aggiornamento viene applicata a livello di asset di dati, non a livello di colonne.

Dettagli e cronologia delle regole

È possibile visualizzare i dettagli e la cronologia dei punteggi delle regole selezionando una regola. Selezionando un nome di regola specifico e passando alla scheda cronologia delle regole, verrà visualizzata la tendenza delle diverse esecuzioni di analisi per la regola specifica.

  • Dettagli regola fornirà informazioni sul numero di righe passate, non riuscite e ignorate per le varie esecuzioni per la regola specifica. Le regole in stato bozza (stato OFF) non avranno punteggi che contribuiscono al punteggio globale. Le regole in uno stato bozza non verranno eseguite durante le analisi della qualità e quindi non avranno punteggi.

    Screenshot che mostra i punteggi di Data Quality a livello di regola.

  • Le colonne e le regole hanno una relazione molti-a-molti, la stessa regola può essere applicata a molte colonne e molte regole possono essere applicate alla stessa colonna. È possibile visualizzare il modello di tendenza di ogni regola visualizzando la riga Tendenza nel riquadro Schema .

    Screenshot che mostra la linea di tendenza per una regola

  • Le tendenze del punteggio di qualità dei dati a livello di asset sono disponibili per le ultime 50 esecuzioni. Questa tendenza del punteggio di qualità consente agli amministratori della qualità dei dati di monitorare le tendenze di qualità dei dati e le fluttuazioni mensili. La qualità dei dati può anche attivare avvisi per ogni analisi della qualità dei dati se il punteggio di qualità non soddisfa la soglia o le aspettative aziendali.

    Screenshot della tendenza del punteggio data quality per un'entità dati.

  • Il punteggio globale è la media di tutte le regole di produzione definite nell'asset. Viene anche eseguito il rollback del punteggio globale a livello di asset al livello di prodotto dati e al livello di dominio di governance. Il punteggio globale deve essere la definizione ufficiale dello stato dell'asset di dati, del prodotto dati e del dominio di governance nel contesto della qualità dei dati.

    Screenshot che mostra i punteggi globali di Data Quality per i domini di governance.

  • Viene creato un report di riepilogo per le dimensioni di qualità dei dati, che contiene il punteggio di qualità dei dati per ogni dimensione di qualità dei dati. Il punteggio globale per il dominio di governance viene pubblicato anche in questo report. È possibile esplorare il punteggio di qualità per ogni dominio di governance, prodotto dati e asset di dati da questo report di Power BI.

    Report della dimensione Data Quality

Nota

Le dimensioni data Quality sono termini riconosciuti usati dai professionisti dei dati per descrivere una funzionalità di dati che possono essere misurati o valutati in base a standard definiti al fine di quantificare il livello di qualità dei dati usati per gestire l'azienda.

Passaggi successivi