Conectați-vă la tabelele Delta în Azure Data Lake Storage

Conectați-vă la datele din tabelele Delta și introduceți-le în Dynamics 365 Customer Insights - Data.

Delta este un termen introdus cu Delta Lake, fundația pentru stocarea datelor și a tabelelor în Platforma Databricks Lakehouse. Delta Lake este un strat de stocare open-source care aduce tranzacții ACID (atomicitate, consistență, izolare și durabilitate) la sarcinile de lucru de date mari. Pentru mai multe informații, consultați Pagina de documentare a lacului Delta.

Motive cheie pentru a vă conecta la datele stocate în format Delta:

  • Importați direct datele formatate Delta pentru a economisi timp și efort.
  • Eliminați costurile de calcul și stocare asociate cu transformarea și stocarea unei copii a datelor dvs. de lakehouse.
  • Îmbunătățiți automat fiabilitatea ingerării datelor la Customer Insights - Data oferită de Versionarea Delta.

Cerințe preliminare

  • Azure Data Lake Storage trebuie să fie în același chiriaș și regiune Azure ca Customer Insights - Data.

  • Customer Insights - Data Principalul de serviciu trebuie să aibă permisiuni pentru a accesa contul de stocare. Pentru mai multe informații, consultați Acordați permisiuni principalului serviciu pentru a accesa contul de stocare.

  • Utilizatorul care configurează sau actualizează sursă de date are nevoie de cel puțin permisiuni Storage Blob Data Reader pentru contul Azure Data Lake Storage .

  • Datele stocate în serviciile online pot fi stocate într-o locație diferită de cea în care sunt procesate sau stocate datele. Prin importul sau conectarea la datele stocate în serviciile online, sunteți de acord că datele pot fi transferate. Aflați mai multe în Centrul de încredere Microsoft.

  • Tabelele Delta trebuie să fie într-un folder din containerul de stocare și nu pot fi în directorul rădăcină al containerului. De exemplu:

    storageaccountcontainer/
        DeltaDataRoot/
           ADeltaTable/
                 _delta_log/
                     0000.json
                     0001.json
                 part-0001-snappy.parquet
                 part-0002-snappy.parquet
    
  • Datele din Azure Data Lake Storage trebuie să fie în tabelele Delta. Customer Insights - Data se bazează pe proprietatea versiunii din istoricul tabelului pentru a identifica cele mai recente modificări pentru procesarea incrementală.

Conectați-vă la datele Delta de la Azure Data Lake Storage

  1. Accesați Date>Surse de date.

  2. Selectați Adăugați un sursă de date.

  3. Selectați Tabelele Azure Data Lake Delta.

    Casetă de dialog pentru a introduce detaliile de conectare pentru Delta Lake.

  4. Introduceți un sursă de date nume și o Descriere opțională. Numele este referit în procesele din aval și nu este posibil să îl schimbați după crearea sursă de date.

  5. Alegeți una dintre următoarele opțiuni pentru Conectați spațiul de stocare folosind.

    • Abonament Azure: selectați Abonament și apoi Grupul de resurse și Cont de stocare.
    • Resursa Azure: introduceți Idul resursei.
  6. Opțional, dacă doriți să ingerați date dintr-un cont de stocare printr-o legătură privată Azure, selectați Activați legătura privată. Pentru mai multe informații, consultați Legături private.

  7. Alegeți numele Container care conține folderul datelor dvs. și selectați Următorul.

  8. Navigați la folderul care conține datele din tabelele Delta și selectați-l. Apoi, selectați Următorul. Se afișează o listă de tabele disponibile.

  9. Selectați tabelele pe care doriți să le includeți.

  10. Pentru tabelele selectate pentru care nu a fost definită o cheie primară, Necesar se afișează sub Cheie primară. Pentru fiecare dintre aceste tabele:

    1. Selectați Necesar. Se afișează panoul Editare tabel .
    2. Alegeți cheia principală. Cheia primară este un atribut unic pentru tabel. Pentru ca un atribut să fie o cheie primară validă, nu ar trebui să includă valori duplicate, valori lipsă sau valori nule. Atributele tipului de date șir, întreg și GUID sunt acceptate ca chei primare.
    3. Selectați Închidere pentru a salva și a închide panoul.

    Caseta de dialog care arată Necesar pentru cheia primară

  11. Pentru a activa profilarea datelor pe oricare dintre coloane, selectați numărul de Coloane pentru tabel. Se afișează pagina Gestionați atributele .

    Casetă de dialog pentru a selecta profilarea datelor.

    1. Selectați Profilarea datelor pentru întreg tabelul sau pentru anumite coloane. În mod implicit, niciun tabel nu este activat pentru profilarea datelor.
    2. Selectați Terminat.
  12. Selectați Salvați. Se deschide pagina Surse de date afișând noul sursă de date în starea Actualizare .

    Sfat

    Există stări pentru sarcini și procese. Majoritatea proceselor depind de alte procese din amonte, cum ar fi sursele de date și profilarea datelor reîmprospătările.

    Selectați starea pentru a deschide panoul Detalii progres și vizualizați progresul sarcinilor. Pentru a anula lucrarea, selectați Anulare lucrare în partea de jos a panoului.

    Sub fiecare sarcină, puteți selecta Vedeți detalii pentru mai multe informații despre progres, cum ar fi timpul de procesare, data ultimei procesări și orice erori și avertismente aplicabile asociate sarcinii sau procesului. . Selectați Vizualizați starea sistemului din partea de jos a panoului pentru a vedea alte procese din sistem.

Încărcarea datelor poate dura timp. După o reîmprospătare cu succes, datele ingerate pot fi examinate din pagina Tabele .

Gestionați modificările schemei

Când o coloană este adăugată sau eliminată din schema unui folder Delta sursă de date, sistemul rulează o reîmprospătare completă a datelor. Actualizările complete durează mai mult pentru a procesa toate datele decât reîmprospătările incrementale.

Adăugați o coloană

Când o coloană este adăugată la sursă de date, informațiile sunt atașate automat la date în Customer Insights - Data odată ce are loc o reîmprospătare. Dacă ați configurat deja unificarea pentru tabel, noua coloană trebuie adăugată la procesul de unificare.

  1. Din pasul Date client , selectați Selectați tabelele și coloanele și selectați noua coloană.

  2. În pasul Vizualizarea datelor unificate , asigurați-vă că coloana nu este exclusă din profilul clientului. Selectați Exclus și citiți coloana.

  3. În pasul Executați actualizări ale profilului unificat , selectați Unificați profilurile și dependențele clienților.

Schimbați sau eliminați o coloană

Când o coloană este eliminată dintr-un sursă de date, sistemul verifică dependențe în alte procese. Dacă există o dependență de coloane, sistemul oprește reîmprospătarea și furnizează o eroare care indică faptul că dependențele trebuie eliminate. Aceste dependențe se afișează într-o notificare pentru a vă ajuta să le localizați și să le eliminați.

Validați o modificare de schemă

După reîmprospătarea sursă de date, accesați pagina Date>Tabele . Selectați tabelul pentru sursă de date și verificați schema.

Călătoria în timp a lacului Delta și reîmprospătarea datelor

Călătoria în timp a lacului Delta este capacitatea de a interoga prin versiuni de tabel pe baza unui marcaj temporal sau a unui număr de versiune. Modificările la folderele Delta sunt versiuni și Customer Insights - Data folosește versiunile folderelor Delta pentru a ține evidența ce date trebuie procesate. Într-o reîmprospătare obișnuită a tabelului delta, datele sunt extrase din toate versiunile tabelului de date de la ultima reîmprospătare. Atâta timp cât toate versiunile sunt prezente, Customer Insights - Data poate procesa doar elementele modificate și poate oferi rezultate mai rapide. Aflați mai multe despre călătoria în timp.

De exemplu, dacă Customer Insights – Data s-a sincronizat ultima dată cu versiunea 23 a datelor din folderul Delta, se așteaptă să găsească versiunea 23 și eventual versiuni ulterioare disponibile. Dacă versiunile de date așteptate nu sunt disponibile, sincronizarea datelor eșuează și necesită o reîmprospătare manuală completă a datelor. Sincronizarea datelor poate eșua dacă datele din folderul Delta au fost șterse și apoi recreate. Sau dacă Customer Insights - Data nu s-a putut conecta la folderele Delta pentru o perioadă lungă de timp în timp ce versiunile au avansat.

Pentru a evita necesitatea unei reîmprospătări complete a datelor, vă recomandăm să mențineți un istoric rezonabil, cum ar fi 15 zile.

Rulați manual o reîmprospătare completă a datelor într-un folder tabel Delta

O reîmprospătare completă preia toate datele dintr-un tabel în format Delta și le reîncarcă din versiunea zero a tabelului Delta (0). Modificările aduse schemei folderului Delta declanșează o reîmprospătare completă automată. Pentru a declanșa manual o reîmprospătare completă, efectuați următorii pași.

  1. Accesați Date>Surse de date.

  2. Selectați tabelele Azure Data Lake Delta sursă de date.

  3. Selectați tabelul pe care doriți să îl reîmprospătați. Se afișează panoul Editare tabel .

    Editați panoul tabelului pentru a selecta o reîmprospătare completă o singură dată.

  4. Selectați Executați o singură reîmprospătare completă.

  5. Selectați Salvare pentru a rula reîmprospătarea. Se deschide pagina Surse de date afișând sursă de date în starea Actualizare , dar numai tabelul selectat este reîmprospătat.

  6. Repetați procesul pentru alte tabele, dacă este cazul.

Eroare de sincronizare a datelor

Sincronizarea datelor poate eșua dacă datele din folderul Delta au fost șterse și apoi recreate. Sau dacă Customer Insights - Data nu s-a putut conecta la folderele Delta pentru o perioadă lungă de timp în timp ce versiunile au avansat. Pentru a minimiza impactul în cazul în care o defecțiune intermitentă a conductei de date creează necesitatea unei reîmprospătări complete, vă recomandăm să mențineți un istoric rezonabil, cum ar fi 15 zile.

Pașii următori