Condividi tramite


Connettersi a tabelle Delta in Azure Data Lake Storage

Connettiti ai dati nelle tabelle Delta e portali in Dynamics 365 Customer Insights - Data.

Delta è un termine introdotto con Delta Lake, la base per l'archiviazione di dati e tabelle nella piattaforma Databricks Lakehouse. Delta Lake è un livello di storage open source che porta le transazioni ACID (atomicità, coerenza, isolamento e durabilità) ai carichi di lavoro di Big Data. Per ulteriori informazioni, vedi la pagina della documentazione Delta Lake.

Motivi principali per connettersi ai dati archiviati nel formato Delta:

  • Importare direttamente i dati formattati Delta per risparmiare tempo e fatica.
  • Eliminare i costi di elaborazione e archiviazione associati alla trasformazione e all'archiviazione di una copia dei tuoi dati lakehouse.
  • Migliora automaticamente l'affidabilità dell'inserimento dei dati in Customer Insights - Data forniti dal controllo delle versioni Delta.

Prerequisiti

  • Azure Data Lake Storage deve trovarsi nello stesso tenant e nella stessa area di Azure di Customer Insights - Data.

  • L'entità servizio Customer Insights - Data deve avere le autorizzazioni di Collaboratore dati BLOB di archiviazione per accedere all'account di archiviazione. Per altre informazioni, vedi Concedere le autorizzazioni all'entità servizio per accedere all'account di archiviazione.

  • L'utente che configura o aggiorna l'origine dati necessita almeno delle autorizzazioni di archiviazione dei dati BLOB di archiviazione sull'account Azure Data Lake Storage.

  • I dati memorizzati nei servizi online possono essere archiviati in una posizione diversa da quella in cui i dati vengono elaborati o archiviati. Importando o connettendoti a dati archiviati nei servizi online, accetti che i dati possano essere trasferiti. Per saperne di più, visita il Microsoft Trust Center.

  • Le tabelle Delta devono trovarsi in una cartella nel contenitore di archiviazione e non possono trovarsi nella directory root del contenitore. Ad esempio:

    storageaccountcontainer/
        DeltaDataRoot/
           ADeltaTable/
                 _delta_log/
                     0000.json
                     0001.json
                 part-0001-snappy.parquet
                 part-0002-snappy.parquet
    
  • I dati in Azure Data Lake Storage devono essere in tabelle Delta. Customer Insights - Data si basa sulla proprietà della versione nella cronologia della tabella per identificare le ultime modifiche per l'elaborazione incrementale.

Connettiti ai dati Delta da Azure Data Lake Storage

  1. Vai a Dati>Origini dati.

  2. Seleziona Aggiungere un'origine dati.

  3. Seleziona Tabelle Delta Azure Data Lake.

    Finestra di dialogo per immettere i dettagli della connessione per Delta Lake.

  4. Immetti un Nome dell'origine dati e una Descrizione opzionale. Al nome viene fatto riferimento nei processi di downstream e non è possibile modificarlo dopo la creazione dell'origine dati.

  5. Scegli una delle seguenti opzioni per Connetti lo spazio di archiviazione tramite.

    • Sottoscrizione di Azure: seleziona Sottoscrizione e quindi Gruppo di risorse e Account di archiviazione.
    • Risorsa di Azure: immetti l'ID risorsa.
  6. Facoltativamente, se desideri inserire i dati da un account di archiviazione tramite un collegamento privato di Azure, seleziona Abilita collegamento privato. Per altre informazioni, vedi Collegamenti privati.

  7. Scegli il nome del Contenitore che contiene la cartella dei tuoi dati e seleziona Avanti.

  8. Passa alla cartella che contiene i dati in tabelle Delta e selezionala. Quindi seleziona Avanti. Viene visualizzato un elenco delle tabelle disponibili.

  9. Seleziona le tabelle da includere.

  10. Per le tabelle selezionate in cui non è stata definita una chiave primaria, Obbligatoria viene visualizzato in Chiave primaria. Per ciascuna di queste tabelle:

    1. Seleziona Obbligatoria. Viene visualizzato il riquadro Modifica tabella.
    2. Scegli la chiave primaria. La chiave primaria è un attributo univoco per la tabella. Affinché un attributo sia una chiave primaria valida, non deve includere valori duplicati, valori mancanti o valori null. Gli attributi del tipo di dati String, Integer e GUID sono supportati come chiavi primarie.
    3. Seleziona Chiudi per salvare e chiudere il pannello.

    Finestra di dialogo che mostra Richiesto per la chiave primaria

  11. Per abilitare la profilazione dei dati su una qualsiasi delle colonne, seleziona il numero di Colonne per la tabella. Visualizzata la pagina Gestisci gli attributi.

    Finestra di dialogo per selezionare il profiling dei dati.

    1. Seleziona Profilazione dati per l'intera tabella o per colonne specifiche. Per impostazione predefinita, nessuna tabella è abilitata per il profiling dei dati.
    2. Seleziona Fatto.
  12. Seleziona Salva. Verrà aperta la pagina Origine datiche mostra la nuova origine dati con stato Aggiornamento in corso.

    Mancia

    Essitono stati per attività e processi. La maggior parte dei processi dipende da altri processi upstream, come origini dati e aggiornamenti di profiling dei dati.

    Seleziona lo stato per aprire il riquadro Dettagli stato e visualizza lo stato delle attività. Per annullare il processo, seleziona Annulla processo nella parte inferiore del riquadro.

    In ogni attività puoi selezionare il collegamento Vedi dettagli per altre informazioni sullo stato, ad esempio tempo di elaborazione, data dell'ultima elaborazione ed eventuali errori e avvisi applicabili associati all'attività o al processo. Seleziona Visualizza stato del sistema nella parte inferiore del pannello per vedere altri processi nel sistema.

Il caricamento dei dati può richiedere tempo. Al termine dell'aggiornamento, i dati inseriti possono essere esaminati nella pagina Tabelle.

Gestione delle modifiche allo schema

Quando una colonna viene aggiunta o rimossa dallo schema di un'origine dati delle cartelle Delta, il sistema esegue un aggiornamento completo dei dati. Gli aggiornamenti completi richiedono più tempo per elaborare tutti i dati rispetto agli aggiornamenti incrementali.

Aggiungere una colonna

Quando una colonna viene aggiunta all'origine dati, le informazioni vengono aggiunte automaticamente ai dati in Customer Insights - Data una volta effettuato l'aggiornamento. Se hai già configurato l'unificazione per la tabella, la nuova colonna deve essere aggiunta al processo di unificazione.

  1. Dal passaggio Dati dei clienti, seleziona Seleziona tabelle e colonne e seleziona la nuova colonna.

  2. Nel passaggio Visualizzazione dati unificata, assicurati che la colonna non venga esclusa dal profilo cliente. Seleziona Escluso e leggi la colonna.

  3. Nel passaggio Esegui aggiornamenti al profilo unificato, seleziona Unifica profili cliente e dipendenze.

Modificare o rimuovere una colonna

Quando una colonna viene rimossa da un'origine dati, il sistema verifica le dipendenze in altri processi. Se è presente una dipendenza sulle colonne, il sistema interrompe l'aggiornamento e mostra un errore che indica che le dipendenze devono essere rimosse. Queste dipendenze vengono visualizzate in una notifica per aiutarti a individuarle e rimuoverle.

Convalidare una modifica allo schema

Dopo l'aggiornamento dell'origine dati, vai alla pagina Dati>Tabelle. Seleziona la tabella per l'origine dati e verifica lo schema.

Delta Lake Time Travel e aggiornamento dati

Delta Lake Time Travel è la possibilità di eseguire query sulle versioni della tabella in base a un timestamp o a un numero di versione. Le modifiche alle cartelle Delta sono dotate di controllo della versione e Customer Insights - Data utilizza le versioni della cartella Delta per tenere traccia di quali dati elaborare. In un aggiornamento regolare della tabella delta, i dati vengono estratti da tutte le versioni della tabella dati dall'ultimo aggiornamento. Finché sono presenti tutte le versioni, Customer Insights - Data può elaborare solo gli elementi modificati e fornire risultati più rapidi. Scopri di più su Time Travel

Ad esempio, se Customer Insights – Data è stato sincronizzato l'ultima volta con la versione 23 dei dati della cartella Delta, si prevede di trovare disponibili la versione 23 e possibilmente le versioni successive. Se le versioni dei dati previste non sono disponibili, la sincronizzazione dei dati non riesce e richiede un aggiornamento manuale completo dei dati. La sincronizzazione dei dati può non riuscire se i dati della cartella Delta sono stati eliminati e poi ricreati. O se Customer Insights - Data non si è connesso alle cartelle Delta per un periodo prolungato mentre le versioni continuavano ad avanzare.

Per evitare la necessità di un aggiornamento completo dei dati, ti consigliamo di mantenere un backlog storico ragionevole, ad esempio 15 giorni.

Esegui manualmente un aggiornamento completo dei dati su una cartella della tabella Delta

Un aggiornamento completo prende tutti i dati da una tabella in formato Delta e li ricarica dalla versione zero (0) della tabella Delta. Le modifiche allo schema della cartella Delta attivano un aggiornamento completo automatico. Per attivare manualmente un aggiornamento completo, esegui i passaggi seguenti.

  1. Vai a Dati>Origini dati.

  2. Seleziona l'origine dati Tabelle Delta Azure Data Lake.

  3. Seleziona la tabella da aggiornare. Viene visualizzato il riquadro Modifica tabella.

    Modifica il riquadro della tabella per selezionare un aggiornamento completo una tantum.

  4. Seleziona Esegui aggiornamento completo una tantum.

  5. Seleziona Salva per eseguire l'aggiornamento. Verrà aperta la pagina Origine datiche mostra la nuova origine dati con stato Aggiornamento in corso, ma l'aggiornamento è in corso solo per la tabella selezionata.

  6. Se applicabile, ripeti la procedura per le altre tabelle.

Errore di sincronizzazione dati

La sincronizzazione dei dati può non riuscire se i dati della cartella Delta sono stati eliminati e poi ricreati. O se Customer Insights - Data non si è connesso alle cartelle Delta per un periodo prolungato mentre le versioni continuavano ad avanzare. Per ridurre al minimo l'impatto nel caso in cui un errore intermittente della pipeline di dati crei la necessità di un aggiornamento completo, ti consigliamo di mantenere un backlog cronologico ragionevole, ad esempio 15 giorni.

Passaggi successivi