Deli putem


Postepeno osvežavanje izvora Power Query podataka za i Data Lake Storage

Postepeno osvežavanje izvora podataka na osnovu Power Query (verzija za pregled) ili Azure Data Lake Storage pruža sledeće prednosti:

  • Brže osvežavanje- Osvežavaju se samo podaci koji su se promenili. Na primer, možete da osvežite samo proteklih pet dana skupa podataka iz prethodnog perioda.
  • Povećana pouzdanost- Sa manjim osvežavanjem nije potrebno da održavate veze sa nestabilnim izvornim sistemima toliko dugo, smanjujući rizik od problema sa vezom.
  • Smanjena potrošnja resursa - Osvežavanje samo podskupa vaših ukupnih podataka dovodi do efikasnije upotrebe računarskih resursa i smanjuje ekološki otisak.

Konfigurisanje postepenog osvežavanja za izvore podataka zasnovane Power Query na(verzija za pregled)

[Ovaj članak predstavlja preliminarnu dokumentaciju i može se promeniti.]

Konfigurišite Power Query izvor podataka da Customer Insights - Data biste postepeno osvežali podatke. Program izvor podataka da ima kolonu primarnog ključa koja jedinstveno identifikuje zapise i kolonu datuma koja ukazuje na to kada su podaci poslednji put ažurirani.

Važno

  • Ovo je preliminarna funkcija.
  • Funkcije pregleda nisu namenjene za korišćenje u proizvodnji i mogu da imaju ograničene funkcionalnosti. Ove funkcije su dostupne pre zvaničnog objavljivanja kako bi klijenti mogli ranije da im pristupe i pruže povratne informacije.
  1. Kreirajte novi izvor podataka zasnovan na. Power Query

  2. Izaberite izvor podataka podržava postepeno osvežavanje, kao što je Azure SQL baza podataka.

  3. Izaberite tabele koje želite da unestite.

  4. Dovršite korake transformacije i kliknite na dugme " Dalje".

  5. U dijalogu Podešavanje postepenog osvežavanja izaberite opciju Podešavanje da biste otvorili postavke postepenog osvežavanja. Ako izaberete opciju Preskoči, izvor podataka osvežava celu skup podataka.

    Napojnica

    Kasnije možete primeniti i postepeno osvežavanje uređivanjem postojećeg izvora podataka.

  6. U postavkama postepenog osvežavanja konfigurišite postepeno osvežavanje za sve tabele koje ste izabrali prilikom kreiranja izvor podataka.

    Konfigurišite postepene postavke osvežavanja.

  7. Izaberite tabelu i navedite sledeće detalje:

    • Definišite primarni ključ: Izaberite primarni ključ za tabelu.
    • Definišite polje "poslednji put ažurirano": Ovo polje prikazuje samo atribute vrste datuma ili vremena. Izaberite atribut koji pokazuje kada su zapisi poslednji put ažurirani. Ovaj atribut identifikuje zapise koji se nalaze u okviru postepenog osvežavanja vremenski okvir.
    • Proverite da li postoje ispravke svakih: Navedite koliko dugo želite da postepeno osvežavate vremenski okvir bude.
  8. Kliknite na dugme "Sačuvaj" da biste dovršili kreiranje izvor podataka. Početno osvežavanje podataka je potpuno osvežavanje. Nakon toga, inkrementalno osvežavanje podataka dešava se kao što je konfigurisano u prethodnom koraku.

Konfigurisanje postepenog osvežavanja Azure Data Lake Storage izvora podataka

Microsoft preporučuje Delta Lake format da biste dobili najbolje performanse i rezultate za rad sa velikim skupovima podataka. Customer Insights - Data obezbeđuje konektor koji je optimizovan za delta Lake formatirane podatke. Unutrašnji procesi kao što je ujedinjenje optimizovani su tako da postepeno obrađuju samo promenjene podatke, što rezultira kraćim vremenom obrade.

Da biste koristili postepeno unošenje i osvežavanje za tabelu Data Lake, konfigurišite tu tabelu prilikom dodavanja ili uređivanja Azure Data Lake izvor podataka. Fascikla sa podacima tabele mora da sadrži sledeće fascikle:

  • FullData: fascikla sa datotekama sa podacima koje sadrže početne zapise
  • IncrementalData: Fascikla sa fasciklama za hijerarhiju datuma/vremena u yyyy/mm/dd/hh formatu koja sadrži postepene ispravke. Očekuje se da će fascikle godine, meseca, dana i časova biti četiri, odnosno dve cifre. hh predstavlja UTC sat ispravki i sadrži fascikle Upserts and Deletes . Upserts sadrži datoteke sa podacima sa ispravkama postojećih zapisa ili novih zapisa. Brisanja sadrže datoteke sa podacima koje treba ukloniti.

Redosled obrade postepenih podataka

Sistem obrađuje datoteke u fascikli "IncrementalData" nakon završetka navedenog UTC sata. Na primer, ako sistem počne da obrađuje postepeno osvežavanje 21. januara 2023. godine u 8:15 časova, obrađuju se sve datoteke koje se nađu u fascikli 2023/01/21/07 (koje predstavljaju datoteke sa podacima uskladištene od 7 ujutru do 8 ujutru). Sve datoteke u fascikli 2023/01/21/08 (koje predstavljaju trenutni sat u kojem se datoteke još uvek generišu) ne obrađuju se do sledećeg pokretanje.

Ako postoje dva zapisa za primarni ključ, upsert i delete, koristi Customer Insights - Data zapis sa najnovijim datumom izmene. Na primer, ako je tačka brisanja 2023-01-21T08:00:00, a upsertna tačka je 2023-01-21T08:30:00, koristi upsert zapis. Ako je do brisanja došlo nakon upsert-a, sistem pretpostavlja da je zapis izbrisan.

Konfigurisanje postepenog osvežavanja za Azure Data Lake izvore podataka

  1. Kada dodajete ili uređujete izvor podataka, dođite do okna atributa tabele.

  2. Redigujte atribute. Uverite se da je atribut kreiranog ili poslednje ažuriranog datuma podešen sa formatom podataka dateTime i kalendarom.Datumsemantičkog tipa. Uredite atribut ako je potrebno i izaberite Gotovo .

  3. U oknu "Izbor tabela" uredite tabelu. Potvrđen je izbor u polju za potvrdu Postepeno ingestion.

    Konfigurišite tabele u izvor podataka za postepeno osvežavanje.

    1. Potražite osnovnu fasciklu koja sadrži datoteke sa .csv ili .parket za potpune podatke, postepene uvećane podatke i brisanje postepenih podataka.
    2. Unesite oznaku tipa datoteke za sve podatke i postepene datoteke (.csv ili .parket).
    3. Za .csv datoteke izaberite znak razgraničavanja kolone i ako želite prvi red datoteke kao zaglavlje kolone.
    4. Izaberite stavku Sačuvaj.
  4. Za poslednji put ažurirano izaberite atribut date timestamp.

  5. Ako primarni ključ nije izabran, izaberite primarni ključ. Primarni ključ je atribut jedinstven za tabelu. Da bi atribut bio važeći primarni ključ, ne bi trebalo da sadrži duplirane vrednosti, nedostajuće vrednosti ili prazne vrednosti. Atributi tipa niska, ceo broj i GUID tip podataka su podržani kao primarni ključevi.

  6. Kliknite na dugme "Zatvori" da biste sačuvali i zatvorili okno.

  7. Nastavite sa dodavanjem ili uređivanjem izvor podataka.

Pokretanje jednovremenog potpunog osvežavanja za Azure Data Lake izvore podataka

Kada konfigurišete postepeno osvežavanje za Azure Data Lake izvore podataka, postoje trenuci kada je potrebno obraditi podatke uz potpuno osvežavanje. Fascikla sa kompletnim podacima podešena za postepeno osvežavanje mora da sadrži lokaciju svih podataka.

  1. Kada uređujete izvor podataka, dođite do okna "Izaberi tabele " i uredite tabelu koju želite da osvežite.

  2. U oknu za uređivanje tabele pomerite se do polja za potvrdu Pokreni jedno vreme potpuno osvežavanje i potvrdite izbor u njemu.

    Konfigurišite tabelu u izvor podataka za jednovremeno osvežavanje.

  3. Za proces postepenih datoteka navedite datum i vreme zadržavanja postepenih datoteka. Potpuni podaci plus postepeni podaci počinju da se obrađuju nakon navedenog datuma i vremena. Na primer, ako želite da izvršite delimično osvežavanje/osvežavanje podataka do kraja novembra, a da pri tom zadržite postepene podatke od početka decembra do danas (dec 30), unesite 1. Navedite budući datum da biste zamenili sve podatke i zanemarili podatke u postepenoj fascikli.

  4. Kliknite na dugme "Zatvori" da biste sačuvali i zatvorili okno.

  5. Kliknite na dugme "Sačuvaj" da biste primenili promene i vratili se na stranicu "Izvori podataka ". Program izvor podataka statusu "Osvežavanje ", izvodeći potpuno osvežavanje.