Derivazione dei dati in Microsoft Purview

Questo articolo offre una panoramica della derivazione dei dati in Microsoft Purview Data Catalog. Illustra anche come i sistemi dati possono integrarsi con il catalogo per acquisire la derivazione dei dati. Microsoft Purview può acquisire la derivazione dei dati in parti diverse del patrimonio di dati dell'organizzazione e a diversi livelli di preparazione, tra cui:

  • Dati non elaborati gestiti da diverse piattaforme
  • Dati trasformati e preparati
  • Dati usati dalle piattaforme di visualizzazione.

Casi d'uso

La derivazione dei dati è ampiamente intesa come ciclo di vita che si estende sull'origine dei dati e dove si sposta nel tempo nell'intero patrimonio di dati. Viene usato per diversi tipi di scenari di ricerca all'indietro, ad esempio la risoluzione dei problemi, la traccia della causa radice nelle pipeline di dati e il debug. La derivazione viene usata anche per scenari di analisi della qualità dei dati, conformità e "simulazione" spesso definiti analisi dell'impatto. La derivazione è rappresentata visivamente per mostrare i dati che passano dall'origine alla destinazione, inclusa la modalità di trasformazione dei dati. Data la complessità della maggior parte degli ambienti dati aziendali, queste viste possono essere difficili da comprendere senza eseguire un consolidamento o mascheramento dei punti dati periferici.

Esperienza di derivazione in Microsoft Purview Data Catalog

Microsoft Purview Data Catalog si connetterà ad altri sistemi di elaborazione, archiviazione e analisi dei dati per estrarre informazioni di derivazione. Le informazioni vengono combinate per rappresentare un'esperienza di derivazione generica specifica dello scenario nel catalogo.

Derivazione end-end che mostra i dati copiati dall'archivio BLOB fino al dashboard di Power BI

Il patrimonio di dati può includere sistemi che eseguono l'estrazione dei dati, la trasformazione (sistemi ETL/ELT), l'analisi e i sistemi di visualizzazione. Ognuno dei sistemi acquisisce metadati statici e operativi avanzati che descrivono lo stato e la qualità dei dati all'interno dei limiti dei sistemi. L'obiettivo della derivazione in un catalogo dati è estrarre lo spostamento, la trasformazione e i metadati operativi da ogni sistema dati al livello più basso possibile.

L'esempio seguente è un tipico caso d'uso dei dati che si spostano tra più sistemi, in cui il Data Catalog si connette a ognuno dei sistemi per la derivazione.

  • Data Factory copia i dati dalla zona locale/non elaborata a una zona di destinazione nel cloud.
  • I sistemi di elaborazione dati come Synapse, Databricks elaborano e trasformano i dati dalla zona di destinazione alla zona curato usando i notebook.
  • Ulteriore elaborazione dei dati in modelli analitici per prestazioni e aggregazioni ottimali delle query.
  • I sistemi di visualizzazione dei dati utilizzeranno i set di dati ed elaborano tramite il relativo metamodelli per creare un dashboard bi, esperimenti di Machine Learning e così via.

Granularità di derivazione

La sezione seguente illustra i dettagli sulla granularità delle quali vengono raccolte le informazioni di derivazione da Microsoft Purview. Questa granularità può variare in base ai sistemi dati supportati in Microsoft Purview.

Derivazione a livello di entità: Destinazioni di processo > di origine/i >

  • La derivazione è rappresentata come grafico, in genere contiene entità di origine e di destinazione nei sistemi di archiviazione dati connessi da un processo richiamato da un sistema di calcolo.
  • I sistemi dati si connettono al catalogo dati per generare e segnalare un oggetto univoco che fa riferimento all'oggetto fisico del sistema dati sottostante, ad esempio stored procedure SQL, notebook e così via.
  • La derivazione ad alta fedeltà con altri metadati come la proprietà viene acquisita per mostrare la derivazione in un formato leggibile per le entità di destinazione di origine & . ad esempio: derivazione a livello di tabella hive anziché partizioni o a livello di file.

Derivazione a livello di colonna o attributo

Identificare gli attributi di un'entità di origine usata per creare o derivare attributi nell'entità di destinazione. Il nome dell'attributo di origine può essere conservato o rinominato in una destinazione. Sistemi come ADF possono eseguire una copia uno-uno dall'ambiente locale al cloud. Ad esempio: Table1/ColumnA -> Table2/ColumnA.

Stato di esecuzione del processo

Per supportare scenari di analisi della causa radice e qualità dei dati, viene acquisito lo stato di esecuzione dei processi nei sistemi di elaborazione dati. Questo requisito non ha nulla a che fare con la sostituzione delle funzionalità di monitoraggio di altri sistemi di elaborazione dati, né l'obiettivo è sostituirli.

Riepilogo

La derivazione è una funzionalità fondamentale del Microsoft Purview Data Catalog per supportare scenari di qualità, attendibilità e controllo. L'obiettivo di un catalogo dati è creare un framework affidabile in cui tutti i sistemi dati all'interno dell'ambiente possono naturalmente connettersi e segnalare la derivazione. Una volta disponibili i metadati, il catalogo dati può riunire i metadati forniti dai sistemi dati per alimentare i casi d'uso di governance dei dati.

Passaggi successivi