Derivazione dei dati in Microsoft Purview

Questo articolo offre una panoramica della derivazione dei dati in Microsoft Purview Data Catalog. Descrive anche in che modo i sistemi dati possono integrarsi con il catalogo per acquisire la derivazione dei dati. Microsoft Purview può acquisire la derivazione dei dati in diverse parti del patrimonio dati dell'organizzazione e a diversi livelli di preparazione, tra cui:

  • Dati non elaborati in fasi da varie piattaforme
  • Dati trasformati e preparati
  • Dati usati dalle piattaforme di visualizzazione

Situazioni di utilizzo

La derivazione dei dati è ampiamente intesa come il ciclo di vita che si estende sull'origine dei dati e sulla posizione in cui si sposta nel tempo nell'area dati. Viene usato per diversi tipi di scenari dall'aspetto indietro, ad esempio la risoluzione dei problemi, la traccia della causa radice nelle pipeline di dati e il debug. La derivazione viene usata anche per l'analisi della qualità dei dati, la conformità e gli scenari "what if" spesso definiti analisi di impatto. La derivazione viene rappresentata visivamente per mostrare i dati che passano dall'origine alla destinazione, incluso il modo in cui i dati sono stati trasformati. Data la complessità della maggior parte degli ambienti dati aziendali, queste visualizzazioni possono essere difficili da comprendere senza eseguire un consolidamento o una maschera dei punti dati periferici.

Esperienza di derivazione in Microsoft Purview Data Catalog

Microsoft Purview Data Catalog si connetterà ad altri sistemi di elaborazione dati, archiviazione e analisi per estrarre informazioni sulla derivazione. Le informazioni vengono combinate per rappresentare un'esperienza di derivazione generica e specifica dello scenario nel catalogo.

derivazione end-end che mostra i dati copiati dall'archivio BLOB fino al dashboard di Power BI

Il data estate può includere sistemi che eseguono l'estrazione, la trasformazione dei dati (sistemi ETL/ELT), i sistemi di analisi e visualizzazione. Ognuno dei sistemi acquisisce metadati statici e operativi avanzati che descrivono lo stato e la qualità dei dati all'interno del limite dei sistemi. L'obiettivo della derivazione in un catalogo dati è estrarre lo spostamento, la trasformazione e i metadati operativi da ogni sistema di dati alla granularità più bassa possibile.

L'esempio seguente è un tipico caso d'uso di dati che si spostano tra più sistemi, in cui il Data Catalog si connette a ognuno dei sistemi per la derivazione.

  • Data Factory copia i dati dalla zona locale/non elaborata a una zona di destinazione nel cloud.
  • I sistemi di elaborazione dati come Synapse e Databricks elaborano e trasformano i dati dalla zona di destinazione alla zona curata usando notebook.
  • Ulteriore elaborazione dei dati in modelli analitici per ottimizzare le prestazioni e l'aggregazione delle query.
  • I sistemi di visualizzazione dei dati utilizzeranno i set di dati ed eseguono il loro metamodelli per creare un dashboard bi, esperimenti di machine learning e così via.

Granularità di derivazione

La sezione seguente illustra i dettagli sulla granularità di cui vengono raccolte le informazioni di derivazione da Microsoft Purview. Questa granularità può variare in base ai sistemi dati supportati in Microsoft Purview.

Derivazione a livello di entità: destinazione/i processo>/i > di origine/i

  • La derivazione è rappresentata come grafo, in genere contiene entità di origine e di destinazione nei sistemi di archiviazione dati connessi da un processo richiamato da un sistema di calcolo.
  • I sistemi dati si connettono al catalogo dati per generare e segnalare un oggetto univoco che fa riferimento all'oggetto fisico del sistema dati sottostante, ad esempio: stored procedure SQL, notebook e così via.
  • La derivazione ad alta fedeltà con altri metadati come la proprietà viene acquisita per mostrare la derivazione in un formato leggibile per le entità di destinazione di origine & . ad esempio: derivazione a livello di tabella hive anziché partizioni o livello di file.

Derivazione a livello di colonna o di attributo

Identificare gli attributi di un'entità di origine usata per creare o derivare attributi nell'entità di destinazione. Il nome dell'attributo di origine può essere mantenuto o rinominato in una destinazione. Sistemi come ADF possono eseguire una copia singola dall'ambiente locale al cloud. Ad esempio: Table1/ColumnA -> Table2/ColumnA.

Stato di esecuzione del processo

Per supportare l'analisi della causa radice e gli scenari di qualità dei dati, viene acquisito lo stato di esecuzione dei processi nei sistemi di elaborazione dati. Questo requisito non ha nulla a che fare con la sostituzione delle funzionalità di monitoraggio di altri sistemi di elaborazione dati, né l'obiettivo è quello di sostituirli.

Riepilogo

La derivazione è una funzionalità fondamentale del Microsoft Purview Data Catalog per supportare scenari di qualità, attendibilità e controllo. L'obiettivo di un catalogo dati è creare un framework affidabile in cui tutti i sistemi dati all'interno dell'ambiente possano connettersi e segnalare naturalmente la derivazione. Una volta disponibili i metadati, il catalogo dati può riunire i metadati forniti dai sistemi dati per alimentare i casi d'uso di governance dei dati.

Passaggi successivi