Configurare ed eseguire la profilatura dei dati per un asset di dati

2025-06-19

La profilatura dei dati è il processo di esame dei dati disponibili in origini dati diverse e di raccolta di statistiche e informazioni su questi dati. La profilatura dei dati consente di valutare il livello di qualità dei dati in base a un set definito di obiettivi. Se i dati sono di scarsa qualità o gestiti in strutture che non possono essere integrate per soddisfare le esigenze dell'azienda, i processi aziendali e il processo decisionale soffrono. La profilatura dei dati consente di comprendere l'affidabilità e la qualità dei dati, che è un prerequisito per prendere decisioni basate sui dati che migliorano i ricavi e favoriscono la crescita.

Prerequisiti

Per eseguire e pianificare analisi di valutazione della qualità dei dati, gli utenti devono avere il ruolo di amministratore della qualità dei dati.
Attualmente, l'account Microsoft Purview può essere impostato per consentire l'accesso pubblico o la rete virtuale gestita in modo da poter eseguire analisi della qualità dei dati.

Ciclo di vita della qualità dei dati

La profilatura dei dati è il quinto passaggio del ciclo di vita della qualità dei dati per un asset di dati. I passaggi precedenti sono:

Assegnare agli utenti le autorizzazioni di amministratore della qualità dei dati in Unified Catalog per usare tutte le funzionalità di qualità dei dati.
Registrare ed analizzare un'origine dati nel Microsoft Purview Data Map.
Aggiungere l'asset di dati a un prodotto dati
Configurare una connessione all'origine dati per preparare l'origine per la valutazione della qualità dei dati.

Origini dati multicloud supportate

Esplorare il documento dell'origine dati supportato per visualizzare l'elenco delle origini dati supportate, inclusi i formati di file per la profilatura dei dati e l'analisi della qualità dei dati, con e senza supporto della rete virtuale.

Importante

La qualità dei dati per il file Parquet è progettata per supportare:

Directory con il file di parte Parquet. Ad esempio: ./Sales/{Parquet Part Files}. Il nome completo deve seguire https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}. Assicurarsi di non avere {n} modelli nella struttura di directory/sottodirectory; deve essere un FQN diretto che porta a {SparkPartitions}.
Directory con file Parquet partizionati, partizionata in base alle colonne all'interno del set di dati, ad esempio i dati di vendita partizionati per anno e mese. Ad esempio: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Sono supportati entrambi questi scenari essenziali, che presentano uno schema coerente del set di dati Parquet. Limitazione: Non è progettato per o non supporta N gerarchie arbitrarie di directory con file Parquet. È consigliabile presentare i dati nella struttura costruita (1) o (2).

Metodi di autenticazione supportati

Attualmente, Microsoft Purview può eseguire analisi della qualità dei dati solo usando l'opzione di autenticazione Identità gestita . I servizi data quality vengono eseguiti in Apache Spark 3.4 e Delta Lake 2.4. Per altre informazioni sulle aree supportate, vedere Panoramica della qualità dei dati.

Importante

Se lo schema viene aggiornato nell'origine dati, è necessario eseguire di nuovo l'analisi della mappa dati prima di eseguire una profilatura dei dati. È possibile importare lo schema dalla pagina di panoramica della qualità dei dati usando la funzionalità di importazione dello schema. Se l'origine dati è in esecuzione nella rete virtuale gestita o nell'endpoint privato, la funzionalità di importazione dello schema non è supportata.
La rete virtuale non è supportata per Azure Databricks, Google BigQuery e Snowflake.
Nella versione corrente è possibile profilare 50 colonne per batch. Se l'asset di dati include più di 50 colonne, è possibile profilare colonne aggiuntive in più batch.
Se una colonna contiene un valore distinto, è consigliabile non profilare tale colonna. Una colonna con valori distinti non è in grado di creare una distribuzione normale.

Passaggi per configurare il processo di profilatura dei dati

Se non è già stato fatto, configurare una connessione all'origine dati per gli asset di cui si sta analizzando la qualità dei dati .
In Microsoft Purview Unified Catalog selezionare Gestione integrità e quindi Qualità dati.
Selezionare un dominio di governance dall'elenco.
Selezionare un prodotto dati per profilare un asset di dati collegato a tale prodotto.
Selezionare un asset di dati per passare alla pagina Panoramica della qualità dei dati per la profilatura.
Selezionare il pulsante Profilo per eseguire il processo di profilatura per l'asset di dati selezionato.
Il motore di raccomandazione per l'intelligenza artificiale suggerisce colonne potenzialmente importanti su cui eseguire la profilatura dei dati. È possibile deselezionare le colonne consigliate e/o selezionare altre colonne da profilare.
Dopo aver selezionato le colonne pertinenti, selezionare Esegui profilo.
Mentre il processo è in esecuzione, è possibile monitorarne lo stato dalla pagina di monitoraggio della qualità dei dati nel dominio di governance.
Al termine del processo, selezionare la scheda Profilo dal menu a sinistra della pagina della qualità dei dati dell'asset per visualizzare l'elenco dei risultati della profilatura e dello snapshot statistico. Potrebbero essere presenti diverse pagine dei risultati del profilo a seconda di quante colonne hanno gli asset di dati.There could be several profile result pages depending on how many columns your data assets have.
Esplorare i risultati della profilatura e le misure statistiche per ogni colonna.

Informazioni sui risultati della profilatura

Minimo: lunghezza minima dei caratteri nella colonna.
Massimo: lunghezza massima del carattere nella colonna.
Distribuzione: distribuzione normale dei dati.
Valori univoci: lo stesso valore non viene ripetuto; è unico.
Valori duplicati: lo stesso valore viene ripetuto più volte.
Valori vuoti/vuoti: la colonna è vuota o vuota.
Null: nella colonna è presente un valore Null.
Media: valore medio o media aritmetica.
Standard deviazione: misura statistica che quantifica la quantità di variazione o dispersione in un set di valori.

Passaggi successivi

Configurare le regole di qualità dei dati in base ai risultati della profilatura e applicarle all'asset di dati.
Configurare ed eseguire un'analisi della qualità dei dati in un prodotto dati per valutare la qualità di tutti gli asset supportati nel prodotto dati.
Esaminare i risultati dell'analisi per valutare la qualità dei dati corrente del prodotto dati.

Condividi tramite