Možnosti rozšírenej konfigurácie v Azure Synapse Link

Azure Synapse Link ponúka niekoľko spôsobov, ako zapisovať a čítať údaje tak, aby vyhovovali rôznym analytickým scenárom.

Poznámka

Azure Synapse Link for Dataverse bol predtým známy ako Export to data lake. Táto služba bola premenovaná s účinnosťou od mája 2021 a bude pokračovať v exporte údajov do Azure Data Lake aj Azure Synapse Analytics.

Čomu sa venuje tento článok:

  1. Aktualizácie na mieste v porovnaní so zápismi iba s pripojením
  2. Oddelenie údajov špecifikovaných používateľom.

Aktualizácie na mieste v porovnaní so zápismi iba s pripojením

Počas zapisovania údajov tabuľky Dataverse do Azure Data Lake na základe hodnoty createdOn, ktorá predstavuje dátum a čas, keď bol záznam vytvorený, sú na výber dve rôzne nastavenia. Ide o Aktualizácia na mieste a Iba pripojiť.

Predvoleným nastavením (pre tabuľky, kde je k dispozícii createdOn) je vykonať aktualizáciu na mieste alebo upsert (aktualizáciu alebo vloženie) prírastkových údajov v cieľovom mieste. Ak je zmena nová a v priestore Data Lake neexistuje zodpovedajúci riadok, v prípade vytvorenia sa skenujú cieľové súbory a zmeny sa vložia do zodpovedajúceho oddielu súborov v priestore Data Lake. Ak je zmenou aktualizácia a v priestore Data Lake existuje riadok, zodpovedajúci súbor v priestore Data Lake sa aktualizuje, a nie vloží, s prírastkovými údajmi. Inými slovami, predvolené nastavenie pre všetky zmeny CUD (vytvoriť, aktualizovať, odstrániť) v Dataverse tabuľkách, kde je k dispozícii createdOn , je vykonať aktualizáciu na mieste v cieli, v dátovom jazere Azure.

Predvolené správanie miestnej aktualizácie môžete zmeniť pomocou voliteľného nastavenia s názvom Iba pripojiť. Namiesto Aktualizácie na mieste sa v režime Iba pripojiť prírastkové údaje z tabuliek Dataverse pripoja k príslušnému oddielu súborov v priestore Data Lake. Toto je nastavenie podľa tabuľky a je k dispozícii ako začiarkavacie políčko v rámci Rozšírené > Zobraziť rozšírené nastavenia konfigurácie. Pre tabuľky Dataverse so zapnutou funkciou Iba pripojiť sa všetky zmeny CUD postupne pridajú k zodpovedajúcim cieľovým súborom v priestore Data Lake. Ak vyberiete túto možnosť, stratégia oddielu je predvolene nastavená na Rok a keď sa údaje zapisujú priestoru Data Lake, rozdelia sa podľa rokov. Iba pripojiť je tiež predvolené nastavenie pre tabuľky Dataverse, ktoré nemajú hodnotu createdOn.

Nasledujúca tabuľka popisuje, ako sa v priestore Data Lake narába s riadkami v prípade udalostí CUD pre každú z možností zapisovania údajov.

Udalosť Aktualizácia na mieste Iba pripojiť
Vytvoriť Riadok je vložený do súboru oddielu a je založený na hodnote createdOn na riadku. Riadok je pridaný na koniec súboru oddielu a je založený na hodnote createdOn záznamu.
Update Ak riadok existuje v súbore oddielu, nahradí sa alebo aktualizuje aktualizovanými údajmi. Ak neexistuje, vloží sa do súboru. Riadok sa spolu s aktualizovanou verziou pridá na koniec súboru oddielu.
Delete Ak riadok existuje v súbore oddielu, je zo súboru odstránený. Riadok sa pridá na koniec súboru oddielu s IsDelete column = True.

Poznámka

Pre tabuľky Dataverse, kde je povolené Iba pripojiť, sa odstránením riadku v zdroji neodstráni ani nevymaže riadok v priestore Data Lake. Namiesto toho je odstránený riadok pripojený ako nový riadok v jazere a stĺpec isDeleted je nastavený na hodnotu True.

Nečisté čítanie (ALLOW_INCONSISTENT_READS) bez servera je povolené pre režim iba pripojenia. ALLOW_INCONSISTENT_READS znamená, že používateľ môže čítať súbory, ktoré možno neustále upravovať, kým je spustený dotaz SELECT . Výsledky budú konzistentné a ekvivalentné čítaniu snímky súboru. (Nie je to ekvivalentné s izoláciou snímky databázy z dôvodu odlišného času generovania snímky.)

Nie všetky zmeny CUD budú zachytené v iba v prílohe: Synapse Link spracováva zmeny v údajoch v skupinách alebo „dávkach“ pred ich zverejnením v dátovom jazere. V dôsledku toho, ak používateľ vykoná zmeny v krátkom časovom intervale, nie všetky zmeny CUD sa zachytia v dátovom jazere.

Tu je niekoľko ďalších podrobností o tom, kedy použiť ktorúkoľvek z týchto možností.

  • Aktualizácia na mieste: Toto je predvolené nastavenie a odporúča sa, iba ak sa chcete pripojiť priamo k údajom v priestore Data Lake a potrebujete aktuálny stav (nie históriu ani postupné zmeny). Súbor obsahuje celý súbor údajov a je možné ho použiť prostredníctvom Power BI alebo kopírovaním celého súboru údajov pre kanály ETL (extrahovať, preniesť, načítať).
  • Iba pripojiť: Túto možnosť vyberte, ak sa priamo nepripájate k údajom v priestore Data Lake a chcete prírastkovo kopírovať údaje do iného cieľa pomocou kanálov ETL. Táto možnosť poskytuje históriu zmien, ktoré umožňujú scenáre AI a ML.

Môžete prepnúť Zobraziť rozšírené konfiguračné nastavenia pod Rozšírené v Azure Synapse Link for Dataverse a prispôsobiť svoju stratégiu rozdelenia údajov a vybrať možnosti zápisu do údajového jazera Azure.

Zobraziť rozšírenú konfiguráciu.

Vytváranie oblasti údajov

Keď zapisujete údaje tabuľky Dataverse do Azure data lake storage pomocou Azure Synapse Link, tabuľky sa rozdelia (namiesto vytvorenia jedného súboru) v rámci Lake na základe hodnoty createdOn v každom riadku zdroja. Predvolená stratégia rozdelenia je podľa mesiaca a údaje sa v Azure Data Lake delia podľa mesiacov.

Na základe objemu tabuľky a rozdelenia údajov v Dataverse si môžete zvoliť rozdelenie údajov podľa roka. Pri tejto možnosti, keď sa údaje tabuľky Dataverse zapisujú do Azure Data Lake, budú rozdelené podľa roka na základe hodnoty createdOn v každom riadku zdroja. V prípade tabuliek bez stĺpca createdOn sa riadky údajov rozdelia do nového súboru po každých záznamoch 5,000,000. Toto je nastavenie podľa tabuľky a je k dispozícii ako začiarkavacie políčko v rámci Rozšírené > Zobraziť rozšírené nastavenia konfigurácie.

Ďalšie podrobnosti s príkladmi toho, ako sa v priestore Data Lake zaobchádza s údajmi pomocou ročnej alebo mesačnej stratégie rozdelenia:

Stratégia oblastí.

Pozrite si tiež

Azure Synapse Link for Dataverse

Poznámka

Môžete nás informovať o svojich voľbách jazyka pre dokumentáciu? Absolvujte krátky prieskum. (upozorňujeme, že tento prieskum je v angličtine)

Prieskum bude trvať približne sedem minút. Nezhromažďujú sa žiadne osobné údaje (vyhlásenie o používaní osobných údajov).