Come connettersi Azure Data Factory e Microsoft Purview

Questo documento illustra i passaggi necessari per connettere un account Azure Data Factory con un account Microsoft Purview per tenere traccia della derivazione dei dati e inserire le origini dati. Il documento include anche i dettagli dell'ambito di copertura delle attività e dei modelli di derivazione supportati.

Quando si connette un Azure Data Factory a Microsoft Purview, ogni volta che viene eseguita un'attività di Azure Data Factory supportata, i metadati relativi ai dati di origine dell'attività, ai dati di output e all'attività vengono inseriti automaticamente nel Microsoft Purview Data Map.

Se un'origine dati è già stata analizzata ed esiste nella mappa dati, il processo di inserimento aggiungerà le informazioni di derivazione da Azure Data Factory a tale origine esistente. Se l'origine o l'output non esiste nel mapping dei dati ed è supportato da Azure Data Factory derivazione Microsoft Purview aggiungerà automaticamente i metadati da Azure Data Factory nella mappa dati sotto la raccolta radice.

Questo può essere un ottimo modo per monitorare il patrimonio dati mentre gli utenti spostano e trasformano le informazioni usando Azure Data Factory.

Visualizzare le connessioni di Data Factory esistenti

Più data factory di Azure possono connettersi a un singolo Microsoft Purview per eseguire il push delle informazioni sulla derivazione. Il limite corrente consente di connettere fino a 10 account di Data Factory alla volta dal centro di gestione Microsoft Purview. Per visualizzare l'elenco degli account di Data Factory connessi all'account Microsoft Purview, eseguire le operazioni seguenti:

  1. Selezionare Gestione nel riquadro di spostamento a sinistra.

  2. In Connessioni di derivazione selezionare Data Factory.

  3. Viene visualizzato l'elenco di connessioni di Data Factory.

    Screenshot che mostra un elenco di connessioni di data factory.

  4. Si noti i vari valori per Stato connessione:

    • Connesso: la data factory è connessa all'account Microsoft Purview.
    • Disconnesso: la data factory ha accesso al catalogo, ma è connessa a un altro catalogo. Di conseguenza, la derivazione dei dati non verrà segnalata automaticamente al catalogo.
    • CannotAccess: l'utente corrente non ha accesso alla data factory, quindi lo stato della connessione è sconosciuto.

Nota

Per visualizzare le connessioni di Data Factory, è necessario assegnare il ruolo seguente. L'ereditarietà dei ruoli dal gruppo di gestione non è supportata. Ruolo Degli amministratori della raccolta nella raccolta radice.

Creare una nuova connessione a Data Factory

Nota

Per aggiungere o rimuovere le connessioni di Data Factory, è necessario assegnare il ruolo seguente. L'ereditarietà dei ruoli dal gruppo di gestione non è supportata. Ruolo Degli amministratori della raccolta nella raccolta radice.

Inoltre, richiede che gli utenti siano "Proprietario" o "Collaboratore" della data factory.

La data factory deve avere l'identità gestita assegnata dal sistema abilitata.

Seguire la procedura seguente per connettere una data factory esistente all'account Microsoft Purview. È anche possibile connettere Data Factory all'account Microsoft Purview da ADF.

  1. Selezionare Gestione nel riquadro di spostamento a sinistra.

  2. In Connessioni di derivazione selezionare Data Factory.

  3. Nella pagina di connessione di Data Factory selezionare Nuovo.

  4. Selezionare l'account di Data Factory dall'elenco e selezionare OK. È anche possibile filtrare in base al nome della sottoscrizione per limitare l'elenco.

    Alcune istanze di Data Factory potrebbero essere disabilitate se la data factory è già connessa all'account Microsoft Purview corrente o se la data factory non ha un'identità gestita.

    Verrà visualizzato un messaggio di avviso se una delle data factory selezionate è già connessa a un altro account Microsoft Purview. Quando si seleziona OK, la connessione di Data Factory con l'altro account Microsoft Purview verrà disconnessa. Non sono necessarie altre conferme.

    Screenshot che mostra l'avviso di disconnessione Azure Data Factory.

Nota

È supportata l'aggiunta di un massimo di 10 account Azure Data Factory contemporaneamente. Se si desidera aggiungere più di 10 account di data factory, eseguire questa operazione in più batch.

Funzionamento dell'autenticazione

L'identità gestita della data factory viene usata per autenticare le operazioni push di derivazione dalla data factory a Microsoft Purview. Quando si connette la data factory a Microsoft Purview nell'interfaccia utente, l'assegnazione di ruolo viene aggiunta automaticamente.

Concedere il ruolo di curatore dati dell'identità gestita della data factory nella raccolta radice di Microsoft Purview. Altre informazioni sul controllo di accesso in Microsoft Purview e Aggiungere ruoli e limitare l'accesso tramite raccolte.

Rimuovere le connessioni di Data Factory

Per rimuovere una connessione data factory, eseguire le operazioni seguenti:

  1. Nella pagina connessione data factory selezionare il pulsante Rimuovi accanto a una o più connessioni data factory.

  2. Selezionare Conferma nel popup per eliminare le connessioni alla data factory selezionate.

    Screenshot che mostra come selezionare data factory per rimuovere la connessione.

Nel portale di governance di Microsoft Purview è possibile monitorare i collegamenti di Data Factory.

Attività Azure Data Factory supportate

Microsoft Purview acquisisce la derivazione del runtime dalle attività di Azure Data Factory seguenti:

Importante

Microsoft Purview elimina la derivazione se l'origine o la destinazione usa un sistema di archiviazione dati non supportato.

L'integrazione tra Data Factory e Microsoft Purview supporta solo un subset dei sistemi dati supportati da Data Factory, come descritto nelle sezioni seguenti.

supporto attività Copy

Archivio dati Supportato
Archiviazione BLOB di Azure
Ricerca cognitiva di Azure
Azure Cosmos DB per NoSQL *
Azure Cosmos DB per MongoDB *
Azure Esplora dati *
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Database di Azure per MariaDB *
Database di Azure per MySQL *
Database di Azure per PostgreSQL *
File di Azure
database Azure SQL *
Istanza gestita di SQL di Azure *
Azure Synapse Analytics *
Pool SQL dedicato di Azure (in precedenza SQL DW) *
Archiviazione tabelle di Azure
Amazon S3
Alveare*
Oracle*
Tabella SAP (quando ci si connette a SAP ECC o SAP S/4HANA)
SQL Server *
Teradata*

* Microsoft Purview attualmente non supporta query o stored procedure per la derivazione o l'analisi. La derivazione è limitata solo alle origini di tabella e visualizzazione.

Se si usa Integration Runtime self-hosted, prendere nota della versione minima con supporto di derivazione per:

  • Qualsiasi caso d'uso: versione 5.9.7885.3 o successiva
  • Copia di dati da Oracle: versione 5.10 o successiva
  • Copia di dati in Azure Synapse Analytics tramite il comando COPY o PolyBase: versione 5.10 o successiva

Limitazioni sulla derivazione dell'attività di copia

Attualmente, se si usano le funzionalità di attività di copia seguenti, la derivazione non è ancora supportata:

  • Copiare i dati in Azure Data Lake Storage Gen1 usando il formato binario.
  • Impostazione di compressione per file binari, testo delimitato, Excel, JSON e XML.
  • Opzioni di partizione di origine per database Azure SQL, Istanza gestita di SQL di Azure, analisi Azure Synapse, SQL Server e tabella SAP.
  • Copiare i dati nel sink basato su file con l'impostazione del numero massimo di righe per file.
  • La derivazione a livello di colonna non è attualmente supportata dall'attività di copia quando l'origine/sink è un set di risorse.

Oltre alla derivazione, lo schema dell'asset di dati (illustrato nella scheda Asset -> Schema) viene segnalato per i connettori seguenti:

  • File CSV e Parquet in BLOB di Azure, File di Azure, ADLS Gen1, ADLS Gen2 e Amazon S3
  • Azure Esplora dati, database Azure SQL, Istanza gestita di SQL di Azure, Azure Synapse Analytics, SQL Server, Teradata

supporto Flusso di dati

Archivio dati Supportato
Archiviazione BLOB di Azure
Azure Cosmos DB per NoSQL *
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Database di Azure per MySQL *
Database di Azure per PostgreSQL *
database Azure SQL *
Istanza gestita di SQL di Azure *
Azure Synapse Analytics *
Pool SQL dedicato di Azure (in precedenza SQL DW) *

* Microsoft Purview attualmente non supporta query o stored procedure per la derivazione o l'analisi. La derivazione è limitata solo alle origini di tabella e visualizzazione.

Limitazioni sulla derivazione del flusso di dati

  • La derivazione del flusso di dati può generare un set di risorse a livello di cartella senza visibilità sui file coinvolti.
  • La derivazione a livello di colonna non è attualmente supportata quando source/sink è un set di risorse.
  • Per la derivazione dell'attività del flusso di dati, Microsoft Purview supporta solo la visualizzazione dell'origine e del sink coinvolti. La derivazione dettagliata per la trasformazione del flusso di dati non è ancora supportata.

Eseguire il supporto del pacchetto SSIS

Fare riferimento agli archivi dati supportati.

Accedere all'account Microsoft Purview protetto

Se l'account Microsoft Purview è protetto dal firewall, informazioni su come consentire a Data Factory di accedere a un account Microsoft Purview protetto tramite endpoint privati di Microsoft Purview.

Portare la derivazione di Data Factory in Microsoft Purview

Per una procedura dettagliata end-to-end, seguire l'esercitazione: Eseguire il push dei dati di derivazione di Data Factory in Microsoft Purview.

Modelli di derivazione supportati

Esistono diversi modelli di derivazione supportati da Microsoft Purview. I dati di derivazione generati si basano sul tipo di origine e sink usato nelle attività di Data Factory. Anche se Data Factory supporta oltre 80 origini e sink, Microsoft Purview supporta solo un subset, come indicato in Attività di Azure Data Factory supportate.

Per configurare Data Factory per l'invio di informazioni sulla derivazione, vedere Introduzione alla derivazione.

Alcuni altri modi per trovare informazioni nella visualizzazione derivazione includono quanto segue:

  • Nella scheda Derivazione passare il puntatore del mouse sulle forme per visualizzare in anteprima informazioni aggiuntive sull'asset nella descrizione comando.
  • Selezionare il nodo o il bordo per visualizzare il tipo di asset a cui appartiene o per cambiare asset.
  • Le colonne di un set di dati vengono visualizzate sul lato sinistro della scheda Derivazione . Per altre informazioni sulla derivazione a livello di colonna, vedere Derivazione di colonne del set di dati.

Derivazione dei dati per le operazioni 1:1

Il modello più comune per l'acquisizione della derivazione dei dati è lo spostamento dei dati da un singolo set di dati di input a un singolo set di dati di output, con un processo in mezzo.

Di seguito è riportato un esempio di questo modello:

  • 1 origine/input: Cliente (tabella SQL)
  • 1 sink/output: Customer1.csv (BLOB di Azure)
  • 1 processo: CopyCustomerInfo1#Customer1.csv (Data Factory attività Copy)

Screenshot che mostra la derivazione per un'operazione di copia da uno a uno di Data Factory.

Spostamento dei dati con supporto per derivazione e caratteri jolly 1:1

Un altro scenario comune per l'acquisizione della derivazione consiste nell'usare un carattere jolly per copiare i file da un singolo set di dati di input a un singolo set di dati di output. Il carattere jolly consente all'attività di copia di corrispondere a più file per la copia usando una parte comune del nome del file. Microsoft Purview acquisisce la derivazione a livello di file per ogni singolo file copiato dall'attività di copia corrispondente.

Di seguito è riportato un esempio di questo modello:

  • Origine/input: CustomerCall*.csv (percorso ADLS Gen2)
  • Sink/output: CustomerCall*.csv (file BLOB di Azure)
  • 1 processo: CopyGen2ToBlob#CustomerCall.csv (Data Factory attività Copy)

Screenshot che mostra la derivazione per un'operazione di copia singola con supporto con caratteri jolly.

Spostamento dei dati con derivazione n:1

È possibile usare Flusso di dati attività per eseguire operazioni sui dati, ad esempio merge, join e così via. È possibile usare più di un set di dati di origine per produrre un set di dati di destinazione. In questo esempio Microsoft Purview acquisisce la derivazione a livello di file per singoli file di input in una tabella SQL che fa parte di un'attività di Flusso di dati.

Di seguito è riportato un esempio di questo modello:

  • 2 origini/input: Customer.csv, Sales.parquet (percorso ADLS Gen2)
  • 1 sink/output: dati aziendali (tabella Azure SQL)
  • 1 processo: DataFlowBlobsToSQL (attività Flusso di dati di Data Factory)

Screenshot che mostra la derivazione di un'operazione di Flusso di dati A D F da n a uno.

Derivazione per i set di risorse

Un set di risorse è un oggetto logico nel catalogo che rappresenta molti file di partizione nell'archiviazione sottostante. Per altre informazioni, vedere Informazioni sui set di risorse. Quando Microsoft Purview acquisisce la derivazione dal Azure Data Factory, applica le regole per normalizzare i singoli file di partizione e creare un singolo oggetto logico.

Nell'esempio seguente viene prodotto un set di risorse di Azure Data Lake Gen2 da un BLOB di Azure:

  • 1 origine/input: Employee_management.csv (BLOB di Azure)
  • 1 sink/output: Employee_management.csv (Azure Data Lake Gen 2)
  • 1 processo: CopyBlobToAdlsGen2_RS (data factory attività Copy)

Screenshot che mostra la derivazione per un set di risorse.

Passaggi successivi

Esercitazione: Eseguire il push dei dati di derivazione di Data Factory in Microsoft Purview

Guida per l'utente della derivazione del catalogo

Collegamento ad Azure Condivisione dati per la derivazione