Microsoft Purview Data Catalog guida per l'utente di derivazione
Questo articolo offre una panoramica delle funzionalità di derivazione dei dati in Microsoft Purview Data Catalog.
Background
Una delle funzionalità della piattaforma di Microsoft Purview è la possibilità di mostrare la derivazione tra i set di dati creati dai processi di dati. Sistemi come Data Factory, Condivisione dati e Power BI acquisiscono la derivazione dei dati man mano che si spostano. La creazione di report personalizzati sulla derivazione è supportata anche tramite hook Atlas e l'API REST.
Collezione di derivazione
I metadati raccolti in Microsoft Purview dai sistemi dati aziendali vengono uniti per mostrare una derivazione dei dati end-to-end. I sistemi di dati che raccolgono la derivazione in Microsoft Purview sono classificati in tre tipi:
Ogni sistema supporta un diverso livello di ambito di derivazione. Controllare le sezioni seguenti, o l'articolo sulla derivazione individuale del sistema, per confermare l'ambito della derivazione attualmente disponibile.
Limitazioni note
- Le viste di database usate come origine dell'attività del processo (Azure Data Factory, Pipeline di Synapse, database Azure SQL, Azure Condivisione dati) vengono attualmente acquisite come oggetti tabella di database in Microsoft Purview. Se viene analizzato anche il database, gli asset di visualizzazione vengono individuati separatamente in Microsoft Purview. In questo scenario, due asset con lo stesso nome acquisiti in Microsoft Purview, uno come tabella con derivazione dei dati e un altro come visualizzazione.
- Se una stored procedure contiene istruzioni drop o create, non vengono attualmente acquisite in derivazione.
Sistemi di elaborazione dati
L'integrazione dei dati e gli strumenti ETL possono eseguire il push della derivazione in Microsoft Purview in fase di esecuzione. Strumenti come Data Factory, Condivisione dati, Synapse, Azure Databricks e così via appartengono a questa categoria di sistemi di elaborazione dati. I sistemi di elaborazione dati fanno riferimento ai set di dati come origine da database e soluzioni di archiviazione diversi per creare set di dati di destinazione. L'elenco dei sistemi di elaborazione dati attualmente integrati con Microsoft Purview per la derivazione è elencato nella tabella seguente.
Sistema di elaborazione dati | Ambito supportato |
---|---|
Flusso d' aria | Derivazione del flusso d'aria |
Azure Condivisione dati | Condividere lo snapshot |
Azure Data Factory |
attività Copy Attività del flusso di dati Eseguire l'attività del pacchetto SSIS |
database Azure SQL (anteprima) | Estrazione della derivazione per le esecuzioni di stored procedure |
Azure Synapse Analytics |
attività Copy Attività del flusso di dati |
Sistemi di archiviazione dati
Le soluzioni di archiviazione dei database & , ad esempio Oracle, Teradata e SAP, dispongono di motori di query per trasformare i dati usando il linguaggio di scripting. Le informazioni sulla derivazione dei dati da viste/stored procedure/ecc vengono raccolte in Microsoft Purview e unite con derivazione da altri sistemi. La derivazione è supportata per le origini dati seguenti tramite l'analisi dei dati di Microsoft Purview. Altre informazioni sugli scenari di derivazione supportati sono disponibili nel rispettivo articolo.
Categoria | Origine dati |
---|---|
Azure | Azure Databricks |
Database | Cassandra |
Db2 | |
Google BigQuery | |
Hive Metastore Database | |
Mysql | |
Oracle | |
Postgresql | |
Fiocco | |
Teradata | |
Servizi e app | Erwin |
Looker | |
SAP ECC | |
SAP S/4HANA |
Sistemi di analisi dei dati e report
I sistemi di analisi dei dati e creazione di report, ad esempio Azure Machine Learning e Power BI, consentono di passare a Microsoft Purview. Questi sistemi useranno i set di dati dei sistemi di archiviazione ed elaborano attraverso il loro metamodelli per creare dashboard bi, esperimenti di machine learning e così via.
Sistema di report di analisi dei & dati | Ambito supportato |
---|---|
Power BI | Set di dati, flussi di dati, dashboard report & |
Introduzione alla derivazione
La derivazione in Microsoft Purview include set di dati e processi. I set di dati vengono anche definiti nodi, mentre i processi possono essere definiti anche archi:
Set di dati (nodo):set di dati (strutturato o non strutturato) fornito come input per un processo. Ad esempio, una tabella SQL, un BLOB di Azure e file (ad esempio .csv e .xml), sono tutti considerati set di dati. Nella sezione derivazione di Microsoft Purview i set di dati sono rappresentati da caselle rettangolari.
Processo (Edge):un'attività o una trasformazione eseguita su un set di dati è denominata processo. Ad esempio, ADF attività Copy, Condivisione dati snapshot e così via. Nella sezione derivazione di Microsoft Purview i processi sono rappresentati da caselle con bordi arrotondati.
Per accedere alle informazioni sulla derivazione di un asset in Microsoft Purview, seguire questa procedura:
Aprire il portale di governance di Microsoft Purview:
- Passare direttamente all'account https://web.purview.azure.com Microsoft Purview e selezionarlo.
- Apertura del portale di Azure, ricerca e selezione dell'account Microsoft Purview. Selezione del pulsante del portale di governance di Microsoft Purview .
Nella home page del portale di governance di Microsoft Purview cercare un nome del set di dati o il nome del processo, ad esempio Copia di Azure Data Factory o attività di Flusso di dati. Quindi premere INVIO.
Dai risultati della ricerca selezionare l'asset e selezionare la relativa scheda Derivazione .
Derivazione a livello di asset
Microsoft Purview supporta la derivazione a livello di asset per i set di dati e i processi. Per visualizzare la derivazione a livello di asset, passare alla scheda Derivazione dell'asset corrente nel catalogo. Selezionare il nodo dell'asset del set di dati corrente. Per impostazione predefinita, l'elenco delle colonne appartenenti ai dati viene visualizzato nel riquadro sinistro.
Derivazione manuale
La derivazione dei dati in Microsoft Purview è automatizzata per molti asset in ambienti locali, multicloud e SaaS. Anche se continuiamo ad aggiungere altre origini automatizzate, la derivazione manuale consente di documentare i metadati di derivazione per le origini in cui l'automazione non è ancora supportata, senza usare codice.
Per aggiungere derivazione manuale per uno qualsiasi degli asset, seguire questa procedura:
Cercare l'asset nel catalogo dati e selezionarlo per visualizzare i dettagli.
Selezionare Modifica, passare alla scheda Derivazione e selezionare Aggiungi derivazione manuale nel pannello inferiore.
Per configurare la derivazione degli asset:
- Selezionare l'elenco a discesa asset per trovare l'asset dall'elenco suggerito o Visualizza altro per cercare il catalogo completo. Selezionare l'asset da collegare.
- Selezionare l'icona di scambio per configurare la direzione della relazione come Produce (per derivazione downstream) o Consumes (per derivazione upstream).
- Se si vuole eliminare una derivazione, selezionare l'icona del cestino.
Quando si aggiunge la derivazione tra due asset di dati, è anche possibile configurare la derivazione a livello di colonna. Selezionare l'icona di espansione all'inizio della riga, selezionare le colonne upstream e downstream negli elenchi a discesa corrispondenti per configurare il mapping delle colonne. Selezionare l'icona più per aggiungere altre derivazione di colonna; selezionare l'icona del cestino per eliminare quelli esistenti.
È possibile aggiungere altre derivazione a livello di asset selezionando di nuovo il pulsante Aggiungi derivazione manuale . Al termine, selezionare il pulsante Salva per salvare la derivazione e uscire dalla modalità di modifica.
Limitazioni note della derivazione manuale
- L'esperienza di selezione degli asset corrente consente di selezionare un solo asset alla volta.
- La derivazione manuale a livello di colonna è attualmente supportata per la derivazione tra due asset di dati, mentre non è supportata quando l'asset di processo è coinvolto tra loro.
- Accesso alla cura dei dati necessario sia per gli asset di origine che per gli asset di destinazione.
- Questi tipi di asset attualmente non consentono la derivazione manuale perché supportano la derivazione automatizzata:
- Azure Data Factory
- Pipeline di Synapse
- Set di dati di Power BI
- Stored procedure Teradata
- Azure SQL stored procedure
Derivazione della colonna del set di dati
Per visualizzare la derivazione a livello di colonna di un set di dati, passare alla scheda Derivazione dell'asset corrente nel catalogo e seguire questa procedura:
Dopo aver fatto clic sulla scheda derivazione, nel riquadro sinistro selezionare la casella di controllo accanto a ogni colonna da visualizzare nella derivazione dei dati.
Passare il puntatore del mouse su una colonna selezionata nel riquadro sinistro o nel set di dati dell'area di disegno di derivazione per visualizzare il mapping della colonna. Tutte le istanze della colonna sono evidenziate.
Se il numero di colonne è maggiore di quello che può essere visualizzato nel riquadro sinistro, usare l'opzione di filtro per selezionare una colonna specifica in base al nome. In alternativa, è possibile usare il mouse per scorrere l'elenco.
Se l'area di disegno di derivazione contiene più nodi e bordi, usare il filtro per selezionare l'asset di dati o elaborare i nodi in base al nome. In alternativa, è possibile usare il mouse per eseguire la panoramica della finestra di derivazione.
Usare l'interruttore nel riquadro sinistro per evidenziare l'elenco di set di dati nell'area di disegno di derivazione. Se si disattiva l'interruttore, viene visualizzato qualsiasi asset che contiene almeno una delle colonne selezionate. Se si attiva l'interruttore, vengono visualizzati solo i set di dati che contengono tutte le colonne.
Derivazione della colonna del processo
È anche possibile visualizzare i processi dati, ad esempio le attività di copia, nel catalogo dati. Ad esempio, in questo flusso di derivazione selezionare l'attività di copia:
L'attività di copia verrà espansa e quindi sarà possibile selezionare il pulsante Passa all'asset , che fornirà ulteriori dettagli sul processo stesso.
Il processo di dati può richiedere uno o più set di dati di input per produrre uno o più output. In Microsoft Purview la derivazione a livello di colonna è disponibile per i nodi di processo.
Passare da un set di dati di input a un set di dati di output da un elenco a discesa nel pannello colonne.
Selezionare colonne da una o più tabelle per visualizzare la derivazione che passa dal set di dati di input al set di dati di output corrispondente.
Esplorare gli asset in derivazione
Selezionare Passa all'asset in qualsiasi asset per visualizzare i metadati corrispondenti dalla visualizzazione derivazione. Questa operazione è un modo efficace per passare a un altro asset nel catalogo dalla visualizzazione derivazione.
L'area di disegno di derivazione potrebbe diventare complessa per i set di dati più diffusi. Per evitare confusione, la visualizzazione predefinita mostrerà solo cinque livelli di derivazione per l'asset nello stato attivo. Il resto della derivazione può essere espanso selezionando le bolle nell'area di disegno di derivazione. I consumer di dati possono anche nascondere gli asset nell'area di disegno che non sono di interesse. Per ridurre ulteriormente il disordine, disattivare l'interruttore More Lineage nella parte superiore dell'area di disegno di derivazione. Questa azione nasconderà tutte le bolle nell'area di disegno di derivazione.
Usare i pulsanti intelligenti nell'area di disegno di derivazione per ottenere una visualizzazione ottimale della derivazione:
- Schermo intero
- Zoom per adattarlo
- Zoom avanti/indietro
- Allineamento automatico
- Anteprima dello zoom
- E altre opzioni:
- Centrare l'asset corrente
- Reimpostare la visualizzazione predefinita