Configurare ed eseguire la profilatura dei dati per un asset di dati
La profilatura dei dati è il processo di esame dei dati disponibili in origini dati diverse e di raccolta di statistiche e informazioni su questi dati. La profilatura dei dati consente di valutare il livello di qualità dei dati in base a un set definito di obiettivi. Se i dati sono di scarsa qualità o gestiti in strutture che non possono essere integrate per soddisfare le esigenze dell'azienda, i processi aziendali e il processo decisionale soffrono. La profilatura dei dati consente di comprendere l'affidabilità e la qualità dei dati, che è un prerequisito per prendere decisioni basate sui dati che migliorano i ricavi e favoriscono la crescita.
Prerequisiti
- Per eseguire e pianificare analisi di valutazione della qualità dei dati, gli utenti devono avere il ruolo di amministratore della qualità dei dati.
- Attualmente, l'account Microsoft Purview può essere impostato per consentire l'accesso pubblico o la rete virtuale gestita in modo da poter eseguire analisi della qualità dei dati.
Ciclo di vita della qualità dei dati
La profilatura dei dati è il quinto passaggio del ciclo di vita della qualità dei dati per un asset di dati. I passaggi precedenti sono:
- Assegnare agli utenti le autorizzazioni di amministratore della qualità dei dati nel catalogo dati per usare tutte le funzionalità di qualità dei dati.
- Registrare ed analizzare un'origine dati nel Microsoft Purview Data Map.
- Aggiungere l'asset di dati a un prodotto dati
- Configurare una connessione all'origine dati per preparare l'origine per la valutazione della qualità dei dati.
Origini dati multi-cloud supportate
- Azure Data Lake Storage (ADLS Gen2)
- Tipi di file: Delta Parquet e Parquet
- database SQL di Azure
- Il data estate di Fabric in OneLake include il collegamento e il mirroring dei dati. La profilatura dei dati è supportata solo per le tabelle delta di Lakehouse e i file Parquet.
- Data estate di mirroring: CosmosDB, Snowflake, Azure SQL
- Data estate di collegamento: AWS S3, GCS, AdlsG2 e dataverse
- Azure Synapse serverless e data warehouse
- Catalogo Unity Azure Databricks
- Fiocco di neve
- Google Big Query (anteprima privata)
Importante
La qualità dei dati per il file Parquet è progettata per supportare:
- Directory con il file di parte Parquet. Ad esempio: ./Sales/{Parquet Part Files}. Il nome completo deve seguire
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
. Assicurarsi di non avere {n} modelli nella struttura di directory/sottodirectory, ma deve essere un FQN diretto che porta a {SparkPartitions}. - Directory con file Parquet partizionati, partizionata in base alle colonne all'interno del set di dati, ad esempio i dati di vendita partizionati per anno e mese. Ad esempio: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.
Sono supportati entrambi questi scenari essenziali che presentano uno schema di set di dati Parquet coerente.
Limitazione: Non è progettato per o non supporterà N gerarchie arbitrarie di directory con file Parquet.
Si consiglia al cliente di presentare i dati nella struttura costruita (1) o (2).
Metodi di autenticazione supportati
Attualmente, Microsoft Purview può eseguire analisi della qualità dei dati solo usando l'opzione di autenticazione Identità gestita . I servizi Data Quality vengono eseguiti in Apache Spark 3.4 e Delta Lake 2.4. Per altre informazioni sulle aree supportate, vedere Panoramica della qualità dei dati.
Importante
Se lo schema viene aggiornato nell'origine dati, è necessario eseguire di nuovo l'analisi della mappa dati prima di eseguire una profilatura dei dati.
Passaggi per configurare il processo di profilatura dei dati
Configurare una connessione all'origine dati all'asset se non ne è già stata creata una.
In Microsoft Purview Data Catalog selezionare il menu Gestione integrità e il sottomenu Data quality .from Microsoft Purview Data Catalog, select the Health Management menu and Data quality submenu.
Nel sottomenu Data Quality (Qualità dei dati) selezionare il dominio Governance per la profilatura dei dati.
Selezionare un prodotto dati per profilare un asset di dati collegato a tale prodotto.
Selezionare un asset di dati per passare alla pagina Panoramica della qualità dei dati per la profilatura.
Selezionare il pulsante Profilo per eseguire il processo di profilatura per l'asset di dati selezionato.
Il motore di raccomandazione per l'intelligenza artificiale suggerisce colonne potenzialmente importanti su cui eseguire la profilatura dei dati. È possibile deselezionare le colonne consigliate e/o selezionare altre colonne da profilare.
Dopo aver selezionato le colonne pertinenti, selezionare Esegui profilo.
Mentre il processo è in esecuzione, è possibile monitorarne lo stato dalla pagina di monitoraggio della qualità dei dati nel dominio di governance.
Al termine del processo, selezionare la scheda Profilo dal menu a sinistra della pagina della qualità dei dati dell'asset per visualizzare l'elenco dei risultati della profilatura e dello snapshot statistico. Potrebbero essere presenti diverse pagine dei risultati del profilo a seconda di quante colonne hanno gli asset di dati.There could be several profile result pages depending on how many columns your data assets have.
Esplorare i risultati della profilatura e le misure statistiche per ogni colonna.
Importante
Per profilare il file Parquet è necessario modificare il tipo di asset di dati in Parquet. Vedere la schermata seguente:
Come illustrato nello screenshot seguente, modificare il tipo di asset di dati predefinito delta in Parquet prima di configurare il processo di profilatura.
Contenuto correlato
- Data Quality for Fabric Data Estate
- Data Quality per le origini dati con mirroring di Fabric
- Data Quality for Fabric shortcut data sources
- Data Quality per Azure Synapse serverless e data warehouse
- Data Quality for Azure Databricks Unity Catalog
- Data Quality per le origini dati Snowflake
- Qualità dei dati per Google Big Query
Passaggi successivi
- Configurare le regole di qualità dei dati in base ai risultati della profilatura e applicarle all'asset di dati.
- Configurare ed eseguire un'analisi della qualità dei dati in un prodotto dati per valutare la qualità di tutti gli asset supportati nel prodotto dati.
- Esaminare i risultati dell'analisi per valutare la qualità dei dati corrente del prodotto dati.