Qualità dei dati con Microsoft Purview Unified Catalog
Articolo
La qualità dei dati in Microsoft Purview Unified Catalog consente ai proprietari del dominio di governance e dei dati di valutare e supervisionare la qualità del proprio ecosistema di dati, facilitando azioni mirate per il miglioramento. Nell'attuale panorama basato sull'intelligenza artificiale, l'affidabilità dei dati influisce direttamente sull'accuratezza delle informazioni dettagliate e delle raccomandazioni basate sull'IA. Senza dati affidabili, c'è il rischio di erodere la fiducia nei sistemi di IA e di ostacolarne l'adozione.
La scarsa qualità dei dati o strutture di dati incompatibili possono ostacolare i processi aziendali e le funzionalità decisionali. La qualità dei dati risolve questi problemi offrendo agli utenti la possibilità di valutare la qualità dei dati usando regole senza codice/codice basso, incluse le regole predefinite (OOB) e le regole generate dall'intelligenza artificiale. Queste regole vengono applicate a livello di colonna e aggregate per fornire punteggi a livello di asset di dati, prodotti dati e domini di governance, garantendo una visibilità end-to-end della qualità dei dati all'interno di ogni dominio.
La qualità dei dati incorpora anche funzionalità di profilatura dei dati basate sull'intelligenza artificiale, consigliando le colonne per la profilatura, consentendo al contempo all'intervento umano di perfezionare queste raccomandazioni. Questo processo iterativo non solo migliora l'accuratezza della profilatura dei dati, ma contribuisce anche al miglioramento continuo dei modelli di intelligenza artificiale sottostanti.
Applicando la qualità dei dati, le organizzazioni possono misurare, monitorare e migliorare in modo efficace la qualità degli asset di dati, aumentando l'affidabilità delle informazioni dettagliate basate sull'intelligenza artificiale e promuovendo la fiducia nei processi decisionali basati sull'IA.
Data estate dell'infrastruttura in OneLake, inclusi collegamenti e proprietà dei dati di mirroring. L'analisi della qualità dei dati è supportata solo per le tabelle delta di Lakehouse e i file Parquet.
Data estate di mirroring: Cosmos DB, Snowflake, Azure SQL
Data estate di collegamento: AWS S3, GCS, AdlsG2 e dataverse
Azure Synapse serverless e data warehouse
Catalogo Unity Azure Databricks
Fiocco di neve
Google Big Query (anteprima privata)
Dati iceberg in ADLS Gen2, Microsoft Fabric Lakehouse, AWS S3 e GCP GCS
Importante
La qualità dei dati per il file Parquet è progettata per supportare:
Directory con il file di parte Parquet. Ad esempio: ./Sales/{Parquet Part Files}. Il nome completo deve seguire https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}. Assicurarsi di non avere {n} modelli nella struttura di directory/sottodirectory, ma deve essere un FQN diretto che porta a {SparkPartitions}.
Directory con file Parquet partizionati, partizionata in base alle colonne all'interno del set di dati, ad esempio i dati di vendita partizionati per anno e mese. Ad esempio: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.
Sono supportati entrambi questi scenari essenziali, che presentano uno schema coerente del set di dati Parquet.
Limitazione: Non è progettato per o non supporta N gerarchie arbitrarie di directory con file Parquet.
È consigliabile presentare i dati nella struttura costruita (1) o (2).
Attualmente, Microsoft Purview può eseguire analisi della qualità dei dati solo usando l'opzione di autenticazione Identità gestita . I servizi data quality vengono eseguiti in Apache Spark 3.4 e Delta Lake 2.4.
Configurare la connessione per consentire all'applicazione SaaS Purview DQ di avere accesso in lettura ai dati per l'analisi e la profilatura della qualità.
MS Purview usa l'identità gestita come opzione di autenticazione
Regole predefinite per misurare sei standard di settore Dimensioni di qualità dei dati (completezza, coerenza, conformità, accuratezza, freschezza e univocità)
Le funzionalità di creazione di regole personalizzate includono il numero di funzioni predefinite e i valori delle espressioni.
Regole generate automaticamente con esperienza integrata di intelligenza artificiale
Punteggio di qualità dei dati a livello di regola (qual è il punteggio di qualità per una regola applicata a una colonna)
Punteggio di qualità dei dati per asset di dati, prodotti dati e domini di governance (un dominio di governance può avere molti prodotti dati, un prodotto dati può avere molti asset di dati, un asset di dati può avere molte colonne di dati)
Si tratta di una delle funzionalità principali della qualità dei dati, ovvero la possibilità di applicare regole di qualità dei dati al costrutto logico dei CDE, che quindi si propagano fino agli elementi dati fisici che li comprendono. Definendo regole di qualità dei dati a livello di CDE, le organizzazioni possono stabilire criteri e soglie specifici che le cde devono soddisfare per mantenere la qualità
Centro azioni per DQ con azioni per risolvere gli stati di anomalia DQ, incluse le query di diagnostica per l'amministratore DQ a zero nei dati specifici da correggere per ogni stato di anomalia.
Ce module de formation vous guide dans la création d’une pile complète de gestion des données de référence et de gouvernance des données de bout en bout avec Microsoft Purview et CluedIn. Il comprend le développement d’enregistrements de référence, la déduplication, la traçabilité des données et des stratégies de qualité des données.
Faites la démonstration d’une compréhension des tâches d’engineering données courantes pour implémenter et gérer des charges de travail d’engineering données sur Microsoft Azure en utilisant un certain nombre de services Azure.