panoramica Qualità dei dati di Microsoft Purview
Qualità dei dati di Microsoft Purview è una soluzione completa che consente ai proprietari del dominio di governance e dei dati di valutare e supervisionare la qualità del proprio ecosistema di dati, facilitando azioni mirate per il miglioramento. Nell'attuale panorama basato sull'intelligenza artificiale, l'affidabilità dei dati influisce direttamente sull'accuratezza delle informazioni dettagliate e delle raccomandazioni basate sull'IA. Senza dati affidabili, c'è il rischio di erodere la fiducia nei sistemi di IA e di ostacolarne l'adozione.
La scarsa qualità dei dati o strutture di dati incompatibili possono ostacolare i processi aziendali e le funzionalità decisionali. Qualità dei dati di Microsoft Purview risolve questi problemi offrendo agli utenti la possibilità di valutare la qualità dei dati usando regole senza codice/codice basso, incluse le regole predefinite (OOB) e le regole generate dall'intelligenza artificiale. Queste regole vengono applicate a livello di colonna e aggregate per fornire punteggi a livello di asset di dati, prodotti dati e domini di governance, garantendo una visibilità end-to-end della qualità dei dati all'interno di ogni dominio.
Qualità dei dati di Microsoft Purview incorpora anche funzionalità di profilatura dei dati basate sull'intelligenza artificiale, consigliando le colonne per la profilatura, consentendo al contempo all'intervento umano di perfezionare queste raccomandazioni. Questo processo iterativo non solo migliora l'accuratezza della profilatura dei dati, ma contribuisce anche al miglioramento continuo dei modelli di intelligenza artificiale sottostanti.
Applicando Qualità dei dati di Microsoft Purview, le organizzazioni possono misurare, monitorare e migliorare in modo efficace la qualità degli asset di dati, aumentando l'affidabilità delle informazioni dettagliate basate sull'intelligenza artificiale e promuovendo la fiducia nei processi decisionali basati sull'IA.
Ciclo di vita della qualità dei dati
- Assegnare agli utenti le autorizzazioni di amministratore della qualità dei dati nel catalogo dati per usare tutte le funzionalità di qualità dei dati.
- Registrare ed analizzare un'origine dati nel Microsoft Purview Data Map.
- Aggiungere l'asset di dati a un prodotto dati
- Configurare una connessione all'origine dati per preparare l'origine per la valutazione della qualità dei dati.
-
Configurare ed eseguire la profilatura dei dati per un asset nell'origine dati.
- Al termine della profilatura, esplorare i risultati di ogni colonna nell'asset di dati per comprendere la struttura e lo stato correnti dei dati.
- Configurare le regole di qualità dei dati in base ai risultati della profilatura e applicarle all'asset di dati.
- Configurare ed eseguire un'analisi della qualità dei dati in un prodotto dati per valutare la qualità di tutti gli asset supportati nel prodotto dati.
- Esaminare i risultati dell'analisi per valutare la qualità dei dati corrente del prodotto dati.
- Ripetere periodicamente i passaggi da 5 a 8 durante il ciclo di vita dell'asset di dati per garantire la qualità.
- Monitorare continuamente la qualità dei dati
- Esaminare le azioni di qualità dei dati per identificare e risolvere i problemi.
- Impostare le notifiche sulla qualità dei dati per segnalare problemi di qualità.
Aree di qualità dei dati supportate
Qualità dei dati di Microsoft Purview è attualmente supportato nelle aree seguenti
Origini dati multi-cloud supportate
- Azure Data Lake Storage (ADLS Gen2)
- Tipi di file: Delta Parquet e Parquet
- database SQL di Azure
- Data estate dell'infrastruttura in OneLake, inclusi collegamenti e proprietà dei dati di mirroring. L'analisi della qualità dei dati è supportata solo per le tabelle delta e i file Parquet di Lakehouse.
- Data estate di mirroring: CosmosDB, Snowflake, Azure SQL
- Data estate di collegamento: AWS S3, GCS, AdlsG2 e dataverse
- Azure Synapse serverless e data warehouse
- Catalogo Unity Azure Databricks
- Fiocco di neve
- Google Big Query (anteprima privata)
Importante
La qualità dei dati per il file Parquet è progettata per supportare:
- Directory con il file di parte Parquet. Ad esempio: ./Sales/{Parquet Part Files}. Il nome completo deve seguire
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
. Assicurarsi di non avere {n} modelli nella struttura di directory/sottodirectory, ma deve essere un FQN diretto che porta a {SparkPartitions}. - Directory con file Parquet partizionati, partizionata in base alle colonne all'interno del set di dati, ad esempio i dati di vendita partizionati per anno e mese. Ad esempio: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.
Sono supportati entrambi questi scenari essenziali che presentano uno schema di set di dati Parquet coerente.
Limitazione: Non è progettato per o non supporterà N gerarchie arbitrarie di directory con file Parquet.
Si consiglia al cliente di presentare i dati nella struttura costruita (1) o (2).
Attualmente, Microsoft Purview può eseguire analisi della qualità dei dati solo usando l'opzione di autenticazione Identità gestita . I servizi Data Quality vengono eseguiti in Apache Spark 3.4 e Delta Lake 2.4.
Funzionalità di qualità dei dati
-
Configurazione della connessione all'origine dati
- Configurare la connessione per consentire all'applicazione SaaS Purview DQ di avere accesso in lettura ai dati per l'analisi e la profilatura della qualità.
- MS Purview usa l'identità gestita come opzione di autenticazione
-
Profilatura dei dati
- Esperienza di profilatura dei dati abilitata per l'intelligenza artificiale
- Snapshot statistico standard del settore (distribuzione, min, max, deviazione standard, univocità, completezza, duplicato, ...)
- Eseguire il drill-down delle misure di profilatura a livello di colonna.
-
Regole di qualità dei dati
- Regole predefinite per misurare sei standard di settore Dimensioni di qualità dei dati (completezza, coerenza, conformità, accuratezza, freschezza e univocità)
- Le funzionalità di creazione di regole personalizzate includono il numero di funzioni predefinite e i valori delle espressioni.
- Regole generate automaticamente con esperienza integrata di intelligenza artificiale
-
Analisi della qualità dei dati
- Selezionare e assegnare regole alle colonne per l'analisi della qualità dei dati.
- Applicare la regola di aggiornamento dei dati nel livello di entità/tabella per misurare il contratto di servizio di aggiornamento dei dati.
- Pianificazione del processo di analisi della qualità dei dati per il periodo di tempo (orario, giornaliero, settimanale, mensile e così via)
-
Monitoraggio dei processi di qualità dei dati
- Abilitare lo stato del processo di monitoraggio della qualità dei dati (attivo, completato, non riuscito e così via)
- Abilitare l'esplorazione della cronologia di analisi DQ.
-
Punteggio di qualità dei dati
- Punteggio di qualità dei dati a livello di regola (qual è il punteggio di qualità per una regola applicata a una colonna)
- Punteggio di qualità dei dati per asset di dati, prodotti dati e domini di governance (un dominio di governance può avere molti prodotti dati, un prodotto dati può avere molti asset di dati, un asset di dati può avere molte colonne di dati)
-
Qualità dei dati per gli elementi di dati critici (CDE)
- Questa è una delle funzionalità principali di Purview Data Quality, è la possibilità di applicare regole di qualità dei dati al costrutto logico di CDE, che quindi si propagano fino agli elementi dati fisici che li comprendono. Definendo regole di qualità dei dati a livello di CDE, le organizzazioni possono stabilire criteri e soglie specifici che le cde devono soddisfare per mantenere la qualità
-
Avvisi sulla qualità dei dati
- Configurare gli avvisi per notificare ai proprietari dei dati, agli amministratori dei dati se la soglia di qualità dei dati non è stata prevista.
- configurare l'alias di posta elettronica o il gruppo di distribuzione per inviare la notifica sui problemi di qualità dei dati.
-
Azioni di qualità dei dati
- Centro azioni per DQ con azioni per risolvere gli stati di anomalia DQ, incluse le query di diagnostica per l'amministratore DQ a zero nei dati specifici da correggere per ogni stato di anomalia.
-
Rete virtuale gestita con qualità dei dati
- Una rete virtuale gestita dalla qualità dei dati che si connette con endpoint privati alle origini dati di Azure.
Limitazione
- La rete virtuale non è supportata per il catalogo Unity di Google Big Query, Snowflake e Azure Data Bricks.
Contenuto correlato
- Data Quality for Fabric Data Estate
- Data Quality per le origini dati con mirroring di Fabric
- Data Quality for Fabric shortcut data sources
- Data Quality per Azure Synapse serverless e data warehouse
- Data Quality for Azure Databricks Unity Catalog
- Data Quality per le origini dati Snowflake
- Qualità dei dati per Google Big Query
Passaggi successivi
- Assegnare agli utenti le autorizzazioni di amministratore della qualità dei dati nel catalogo dati per usare tutte le funzionalità di qualità dei dati.
- Configurare una connessione all'origine dati per preparare l'origine per la valutazione della qualità dei dati.
- Configurare ed eseguire la profilatura dei dati per un asset nell'origine dati.