Connettersi a tabelle Delta in Azure Data Lake Storage
Connettiti ai dati nelle tabelle Delta e portali in Dynamics 365 Customer Insights - Data.
Motivi principali per connettersi ai dati archiviati nel formato Delta:
- Importare direttamente i dati formattati Delta per risparmiare tempo e fatica.
- Eliminare i costi di elaborazione e archiviazione associati alla trasformazione e all'archiviazione di una copia dei tuoi dati lakehouse.
- Migliora automaticamente l'affidabilità dell'inserimento dei dati in Customer Insights - Data forniti dal controllo delle versioni Delta.
Funzionalità e versioni supportate di Databricks
Customer Insights - Data supporta le funzionalità di Databricks con 'minReaderVersion' pari a 2 o precedente. Le funzionalità di Databricks che richiedono Databricks Lettore versione 3 o successiva non sono supportate. La tabella mostra le funzionalità di Databricks supportate e non supportate.
Funzionalità supportate | Funzionalità non supportate |
---|---|
Funzionalità di base | Vettori di delezione |
Modifica feed dati | Clustering liquido |
Controllare i vincoli | Caratteristiche della tabella scrittura |
Mapping colonna | Marca temporaleNTZ |
Genera colonne | Ampliamento del tipo |
Colonne di identità | Variante |
Monitoraggio delle righe | |
Caratteristiche della tabella lette | |
Uniforme |
Scopri di più: In che modo Databricks gestisce la compatibilità delle funzionalità di Delta Lake?.
Prerequisiti
Azure Data Lake Storage deve trovarsi nello stesso tenant e nella stessa area di Azure di Customer Insights - Data.
L'entità servizio Customer Insights - Data deve avere le autorizzazioni di Collaboratore dati BLOB di archiviazione per accedere all'account di archiviazione. Per altre informazioni, vedi Concedere le autorizzazioni all'entità servizio per accedere all'account di archiviazione.
L'utente che configura o aggiorna l'origine dati necessita almeno delle autorizzazioni di archiviazione dei dati BLOB di archiviazione sull'account Azure Data Lake Storage.
I dati memorizzati nei servizi online possono essere archiviati in una posizione diversa da quella in cui i dati vengono elaborati o archiviati. Importando o connettendoti a dati archiviati nei servizi online, accetti che i dati possano essere trasferiti. Per ulteriori informazioni, consulta il Centro protezione Microsoft.
Customer Insights - Data supporta la versione 2 del lettore Databricks. Le tabelle Delta che usano funzionalità che richiedono la versione 3 del lettore Databricks o successiva non sono supportate. Scopri di più: Funzionalità supportate da Databricks.
Le tabelle Delta devono trovarsi in una cartella nel contenitore di archiviazione e non possono trovarsi nella directory root del contenitore. Ad esempio:
storageaccountcontainer/ DeltaDataRoot/ ADeltaTable/ _delta_log/ 0000.json 0001.json part-0001-snappy.parquet part-0002-snappy.parquet
- I dati in Azure Data Lake Storage devono essere in tabelle Delta. Customer Insights - Data si basa sulla proprietà della versione nella cronologia della tabella per identificare le ultime modifiche per l'elaborazione incrementale.
Connettiti ai dati Delta da Azure Data Lake Storage
Vai a Dati>Origini dati.
Seleziona Aggiungere un'origine dati.
Seleziona Tabelle Delta Azure Data Lake.
Immetti un Nome dell'origine dati e una Descrizione opzionale. Al nome viene fatto riferimento nei processi di downstream e non è possibile modificarlo dopo la creazione dell'origine dati.
Scegli una delle seguenti opzioni per Connetti lo spazio di archiviazione tramite.
- Sottoscrizione di Azure: Seleziona la Sottoscrizione e quindi il Gruppo di risorse e Account di archiviazione.
- Risorsa di Azure: immettere l' ID risorsa.
Facoltativamente, se desideri inserire i dati da un account di archiviazione tramite un collegamento privato di Azure, seleziona Abilita collegamento privato. Per altre informazioni, vedi Collegamenti privati.
Scegli il nome del Contenitore che contiene la cartella dei tuoi dati e seleziona Avanti.
Passa alla cartella che contiene i dati in tabelle Delta e selezionala. Quindi seleziona Avanti. Viene visualizzato un elenco delle tabelle disponibili.
Seleziona le tabelle da includere.
Per le tabelle selezionate in cui non è stata definita una chiave primaria, Obbligatoria viene visualizzato in Chiave primaria. Per ciascuna di queste tabelle:
- Seleziona Obbligatoria. Viene visualizzato il riquadro Modifica tabella.
- Scegli la chiave primaria. La chiave primaria è un attributo univoco per la tabella. Affinché un attributo sia una chiave primaria valida, non deve includere valori duplicati, valori mancanti o valori null. Gli attributi del tipo di dati String, Integer e GUID sono supportati come chiavi primarie.
- Seleziona Chiudi per salvare e chiudere il pannello.
Per abilitare la profilazione dei dati su una qualsiasi delle colonne, seleziona il numero di Colonne per la tabella. Visualizzata la pagina Gestisci gli attributi.
- Seleziona Profilazione dati per l'intera tabella o per colonne specifiche. Per impostazione predefinita, nessuna tabella è abilitata per il profiling dei dati.
- Seleziona Fatto.
Seleziona Salva. Verrà aperta la pagina Origine datiche mostra la nuova origine dati con stato Aggiornamento in corso.
Mancia
Essitono stati per attività e processi. La maggior parte dei processi dipende da altri processi upstream, come origini dati e aggiornamenti di profiling dei dati.
Seleziona lo stato per aprire il riquadro Dettagli stato e visualizza lo stato delle attività. Per annullare il processo, seleziona Annulla processo nella parte inferiore del riquadro.
In ogni attività puoi selezionare il collegamento Vedi dettagli per altre informazioni sullo stato, ad esempio tempo di elaborazione, data dell'ultima elaborazione ed eventuali errori e avvisi applicabili associati all'attività o al processo. Seleziona Visualizza stato del sistema nella parte inferiore del pannello per vedere altri processi nel sistema.
Il caricamento dei dati può richiedere tempo. Al termine dell'aggiornamento, i dati inseriti possono essere esaminati nella pagina Tabelle.
Gestione delle modifiche allo schema
Quando una colonna viene aggiunta o rimossa dallo schema di un'origine dati delle cartelle Delta, il sistema esegue un aggiornamento completo dei dati. Gli aggiornamenti completi richiedono più tempo per elaborare tutti i dati rispetto agli aggiornamenti incrementali.
Aggiungere una colonna
Quando una colonna viene aggiunta all'origine dati, le informazioni vengono aggiunte automaticamente ai dati in Customer Insights - Data una volta effettuato l'aggiornamento. Se l'unificazione è già configurata per la tabella, la nuova colonna deve essere aggiunta al processo di unificazione.
Dal passaggio Dati dei clienti, seleziona Seleziona tabelle e colonne e seleziona la nuova colonna.
Nel passaggio Visualizzazione dati unificata, assicurati che la colonna non venga esclusa dal profilo cliente. Seleziona Escluso e leggi la colonna.
Nel passaggio Esegui aggiornamenti al profilo unificato, seleziona Unifica profili cliente e dipendenze.
Modificare o rimuovere una colonna
Quando una colonna viene rimossa da un'origine dati, il sistema verifica le dipendenze in altri processi. Se è presente una dipendenza sulle colonne, il sistema interrompe l'aggiornamento e mostra un errore che indica che le dipendenze devono essere rimosse. Queste dipendenze vengono visualizzate in una notifica per aiutarti a individuarle e rimuoverle.
Convalidare una modifica allo schema
Dopo l'aggiornamento dell'origine dati, vai alla pagina Dati>Tabelle. Seleziona la tabella per l'origine dati e verifica lo schema.
Delta Lake Time Travel e aggiornamento dati
Delta Lake Time Travel è la possibilità di eseguire query sulle versioni della tabella in base a un timestamp o a un numero di versione. Le modifiche alle cartelle Delta sono dotate di controllo della versione e Customer Insights - Data utilizza le versioni della cartella Delta per tenere traccia di quali dati elaborare. In un aggiornamento regolare della tabella delta, i dati vengono estratti da tutte le versioni della tabella dati dall'ultimo aggiornamento. Finché sono presenti tutte le versioni, Customer Insights - Data può elaborare solo gli elementi modificati e fornire risultati più rapidi. Scopri di più sul viaggio nel tempo.
Ad esempio, se Customer Insights – Data è stato sincronizzato l'ultima volta con la versione 23 dei dati della cartella Delta, si prevede di trovare disponibili la versione 23 e possibilmente le versioni successive. Se le versioni dei dati previste non sono disponibili, la sincronizzazione dei dati non riesce e richiede un aggiornamento manuale completo dei dati. La sincronizzazione dei dati può non riuscire se i dati della cartella Delta sono stati eliminati e poi ricreati. O se Customer Insights - Data non si è connesso alle cartelle Delta per un periodo prolungato mentre le versioni continuavano ad avanzare.
Per evitare la necessità di un aggiornamento completo dei dati, ti consigliamo di mantenere un backlog storico ragionevole, ad esempio 15 giorni.
Esegui manualmente un aggiornamento completo dei dati su una cartella della tabella Delta
Un aggiornamento completo prende tutti i dati da una tabella in formato Delta e li ricarica dalla versione zero (0) della tabella Delta. Le modifiche allo schema della cartella Delta attivano un aggiornamento completo automatico. Per attivare manualmente un aggiornamento completo, esegui i passaggi seguenti.
Vai a Dati>Origini dati.
Seleziona l'origine dati Tabelle Delta Azure Data Lake.
Seleziona la tabella da aggiornare. Viene visualizzato il riquadro Modifica tabella.
Seleziona Esegui aggiornamento completo una tantum.
Seleziona Salva per eseguire l'aggiornamento. Verrà aperta la pagina Origine datiche mostra la nuova origine dati con stato Aggiornamento in corso, ma l'aggiornamento è in corso solo per la tabella selezionata.
Se applicabile, ripeti la procedura per le altre tabelle.
Errore di sincronizzazione dati
La sincronizzazione dei dati può non riuscire se i dati della cartella Delta sono stati eliminati e poi ricreati. O se Customer Insights - Data non si è connesso alle cartelle Delta per un periodo prolungato mentre le versioni continuavano ad avanzare. Per ridurre al minimo l'impatto nel caso in cui un errore intermittente della pipeline di dati crei la necessità di un aggiornamento completo, ti consigliamo di mantenere un backlog cronologico ragionevole, ad esempio 15 giorni.