Condividi tramite


Configurare ed eseguire l'analisi della qualità dei dati

Le analisi della qualità dei dati esaminano gli asset di dati in base alle regole di qualità dei dati applicate e producono un punteggio. Gli amministratori dei dati possono usare tale punteggio per valutare l'integrità dei dati e risolvere eventuali problemi che potrebbero ridurre la qualità dei dati.

Prerequisiti

  • Per eseguire e pianificare analisi di valutazione della qualità dei dati, gli utenti devono avere il ruolo di amministratore della qualità dei dati.
  • Attualmente, l'account Microsoft Purview può essere impostato per consentire l'accesso pubblico o la rete virtuale gestita in modo che possano essere eseguite analisi della qualità dei dati.

Ciclo di vita della qualità dei dati

L'analisi della qualità dei dati è il settimo passaggio del ciclo di vita della qualità dei dati per un asset di dati. I passaggi precedenti sono:

  1. Assegnare agli utenti le autorizzazioni di amministratore della qualità dei dati nel catalogo dati per usare tutte le funzionalità di qualità dei dati.
  2. Registrare ed analizzare un'origine dati nel Microsoft Purview Data Map.
  3. Aggiungere l'asset di dati a un prodotto dati
  4. Configurare una connessione all'origine dati per preparare l'origine per la valutazione della qualità dei dati.
  5. Configurare ed eseguire la profilatura dei dati per un asset nell'origine dati.
    1. Al termine della profilatura, esplorare i risultati di ogni colonna nell'asset di dati per comprendere la struttura e lo stato correnti dei dati.
  6. Configurare le regole di qualità dei dati in base ai risultati della profilatura e applicarle all'asset di dati.

Origini dati multi-cloud supportate

  • Azure Data Lake Storage (ADLS Gen2)
    • Tipi di file: Delta Parquet e Parquet
  • database SQL di Azure
  • Il data estate di Fabric in OneLake include il collegamento e il mirroring dei dati. L'analisi della qualità dei dati è supportata solo per le tabelle delta e i file Parquet di Lakehouse.
    • Data estate di mirroring: CosmosDB, Snowflake, Azure SQL
    • Data estate di collegamento: AWS S3, GCS, AdlsG2 e dataverse
  • Azure Synapse serverless e data warehouse
  • Catalogo Unity Azure Databricks
  • Fiocco di neve
  • Google Big Query (anteprima privata)

Importante

La qualità dei dati per il file Parquet è progettata per supportare:

  1. Directory con il file di parte Parquet. Ad esempio: ./Sales/{Parquet Part Files}. Il nome completo deve seguire https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}. Assicurarsi di non avere {n} modelli nella struttura di directory/sottodirectory, ma deve essere un FQN diretto che porta a {SparkPartitions}.
  2. Directory con file Parquet partizionati, partizionata in base alle colonne all'interno del set di dati, ad esempio i dati di vendita partizionati per anno e mese. ad esempio: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Sono supportati entrambi questi scenari essenziali che presentano uno schema di set di dati Parquet coerente.
Limitazione: Non è progettato per o non supporterà N gerarchie arbitrarie di directory con file Parquet. Si consiglia al cliente di presentare i dati nella struttura costruita (1) o (2).

Metodi di autenticazione supportati

Attualmente, Microsoft Purview può eseguire analisi della qualità dei dati solo usando l'opzione di autenticazione Identità gestita . I servizi Data Quality vengono eseguiti in Apache Spark 3.4 e Delta Lake 2.4. Per altre informazioni sulle aree supportate, vedere Panoramica della qualità dei dati.

Importante

Se lo schema viene aggiornato nell'origine dati, è necessario eseguire di nuovo l'analisi della mappa dati prima di eseguire un'analisi della qualità dei dati.

Eseguire un'analisi della qualità dei dati

  1. Configurare le connessioni di un'origine dati agli asset che si stanno analizzando per verificare la qualità dei dati, se non sono già stati creati.

  2. In Microsoft Purview Data Catalog selezionare il menu Gestione integrità e il sottomenu Data quality .from Microsoft Purview Data Catalog, select the Health Management menu and Data quality submenu.

  3. Selezionare un dominio di governance dall'elenco.

    Screenshot di un dominio di governance e di un prodotto dati.

  4. Selezionare un prodotto dati per valutare la qualità dei dati degli asset di dati collegati a tale prodotto.

    Screenshot della selezione dell'asset di dati del prodotto dati.

  5. Selezionando il prodotto dati si passa alla pagina Panoramica della qualità dei dati. È possibile esplorare le regole di qualità dei dati esistenti e aggiungere nuove regole selezionando il menu Regole in questa pagina. È possibile esplorare lo schema dell'asset di dati selezionando il menu Schema da questa pagina.

    Screenshot della pagina di panoramica dell'analisi della qualità dei dati.

  6. Esplorare le regole già aggiunte all'analisi per individuare gli asset selezionati e attivarli o disattivarli nella colonna Stato .

    Screenshot della pagina delle regole di qualità dei dati.

  7. Eseguire l'analisi della qualità selezionando il pulsante Esegui analisi qualità nella pagina di panoramica.

    Screenshot della pagina di panoramica della qualità dei dati con il pulsante Esegui analisi qualità evidenziato.

  8. Mentre l'analisi è in esecuzione, è possibile monitorarne lo stato dalla pagina di monitoraggio della qualità dei dati nel dominio di governance.

Pianificare analisi della qualità dei dati

Anche se le analisi della qualità dei dati possono essere eseguite ad hoc selezionando il pulsante Esegui analisi qualità , negli scenari di produzione è probabile che i dati di origine vengano costantemente aggiornati e, pertanto, si vuole assicurarsi di monitorarne regolarmente la qualità per rilevare eventuali problemi. Per consentirci di gestire analisi di qualità ad aggiornamento regolare, è possibile automatizzare il processo di analisi.

  1. In Microsoft Purview Data Catalog selezionare il menu Gestione integrità e il sottomenu Data quality .from Microsoft Purview Data Catalog, select the Health Management menu and Data quality submenu.

  2. Selezionare un dominio di governance dall'elenco.

  3. Selezionare il pulsante Gestisci dal lato destro della pagina e selezionare Scansioni pianificate.

    Screenshot della pagina della qualità dei dati per un dominio di governance, con il pulsante scansioni pianificate evidenziato.

  4. Compilare il modulo nella pagina Crea analisi pianificata . Aggiungere un nome e una descrizione per l'origine che si sta configurando la pianificazione.

    Screenshot della scheda Di panoramica della pagina di creazione di un'analisi pianificata.

  5. Selezionare Continua.

  6. Nella scheda Ambito selezionare singoli prodotti dati e asset o tutti i prodotti dati e gli asset di dati dell'intero dominio di governance.

    Screenshot della scheda Creare un ambito della pagina di analisi pianificata.

  7. Selezionare Continua.

  8. Impostare una pianificazione in base alle preferenze e selezionare Continua.

    Screenshot della scheda crea una pianificazione della pagina di analisi pianificata.

  9. Nella scheda Revisione selezionare Salva (o Salva ed esegui per testare immediatamente) per completare la pianificazione dell'analisi di valutazione della qualità dei dati.

    Screenshot della scheda di revisione della pagina di creazione di un'analisi pianificata.

  10. È possibile monitorare le analisi pianificate nella pagina di monitoraggio del processo di qualità dei dati nella scheda Scansioni .

Eliminare le analisi della qualità dei dati precedenti

  1. In Microsoft Purview Data Catalog selezionare il menu Gestione integrità e il sottomenu Data quality .from Microsoft Purview Data Catalog, select the Health Management menu and Data quality submenu.
  2. Selezionare un dominio di governance dall'elenco.
  3. Selezionare il pulsante con i puntini di sospensione ('...') nella parte superiore della pagina.
  4. Selezionare Elimina dati di qualità dei dati per eliminare la cronologia delle esecuzioni di qualità dei dati.

Nota

È consigliabile usare questa eliminazione solo per le esecuzioni di test, le esecuzioni di qualità dei dati con errori o nel caso in cui si stia rimuovendo un asset di dati da un prodotto dati.

Se si vuole rimuovere un asset di dati da un prodotto dati, se tale asset di dati ha un punteggio di qualità dei dati, è prima necessario eliminare il punteggio di qualità dei dati, quindi rimuovere l'asset di dati dal prodotto dati.

Importante

Per profilare il file Parquet è necessario modificare il tipo di asset di dati in Parquet. Vedere la schermata seguente:

Come illustrato nello screenshot seguente, modificare il tipo di asset di dati predefinito delta in Parquet prima di configurare il processo di analisi della qualità dei dati.

Screenshot della selezione del tipo di asset.

Passaggi successivi