Pokročilé možnosti konfigurace v Azure Synapse Link
Azure Synapse Link nabízí několik způsobů, jak zapisovat a číst vaše data, aby se vešly do různých analytických scénářů.
Poznámka
Azure Synapse Link for Dataverse byl dříve známý jako Export do datového jezera. Služba byla s účinností od května 2021 přejmenována a bude i nadále exportovat data do Azure Data Lake a také do Azure Synapse Analytics.
Tento článek se věnuje následujícím tématům:
- Místní aktualizace vs. zápisy pouze pro přidání.
- Uživatelsky určené rozdělení dat.
Místní aktualizace vs. zápisy pouze pro přidání
Během psaní dat tabulky Dataverse do datového jezera Azure na základě hodnoty createdOn
, což je datum a čas, kdy byl záznam vytvořen, si můžete vybrat ze dvou různých nastavení. Jsou to Aktualizace na místě a Pouze připojit.
Výchozí nastavení (pro tabulky, kde je createdOn
) je provést místní aktualizaci nebo upsert (aktualizaci nebo vložení) přírůstkových dat v cíli. Pokud je změna nová a odpovídající řádek v jezeře neexistuje, v případě vytvoření jsou cílové soubory zkontrolovány a změny jsou vloženy do odpovídajícího oddílu souboru v jezeře. Pokud je změnou aktualizace a v jezeře existuje řádek, je odpovídající soubor v jezeře aktualizován, nikoli vložen, s přírůstkovými daty. Jinými slovy, výchozí nastavení pro všechny změny CUD (vytvoření, aktualizace, odstranění) v tabulce Dataverse, kde je k dispozici createdOn
, je provést aktualizaci na místě v cíli, tedy v datovém jezeru Azure.
Výchozí chování místní aktualizace můžete přepnout pomocí volitelného nastavení s názvem Pouze připojit. Místo Aktualizace na místě v režimu Pouze připojit jsou přírůstková data z tabulky Dataverse připojena k odpovídajícímu oddílu souborů v jezeře. Toto je nastavení podle tabulky a je k dispozici jako zaškrtávací políčko pod Pokročilé > Zobrazit pokročilé nastavení konfigurace. Pro tabulky Dataverse se zapnutým Pouze připojit, jsou všechny změny CUD postupně připojeny k odpovídajícím cílovým souborům v jezeře. Když zvolíte tuto možnost, použije se výchozí strategie rozdělení disku Rok, a když jsou data zapsána do datového jezera, jsou rozdělena na roční bázi. Pouze připojit je také výchozí nastavení pro tabulky Dataverse, které nemají hodnotu createdOn
.
Níže uvedená tabulka popisuje, jak jsou řádky zpracovávány v jezeře proti událostem CUD pro každou z možností zápisu dat.
Událost | Aktualizace na místě | Jen připojit |
---|---|---|
Vytvoření | Řádek je vložen do souboru oddílu a je založen na hodnotě createdOn na řádku. |
Řádek je přidán na konec souboru oddílu a je založen na hodnotě createdOn záznamu. |
Aktualizovat | Pokud řádek existuje v souboru oddílu, je nahrazen nebo aktualizován aktualizovanými daty. Pokud neexistuje, vloží se do souboru. | Řádek je spolu s aktualizovanou verzí přidán na konec souboru oddílu. |
Odstranění | Pokud řádek v souboru oddílu existuje, je ze souboru odstraněn. | Řádek je s IsDelete column = True přidán na konec souboru oddílu. |
Poznámka
Pro tabulky Dataverse, kde je povoleno Pouze připojit, smazání řádku ve zdroji nesmaže ani neodstraní řádek v jezeře. Místo toho se odstraněný řádek připojí jako nový řádek v jezeře a sloupec isDeleted
se nastaví na True.
Nečisté čtení (ALLOW_INCONSISTENT_READS) pro bezserverovou možnost je zapnuto pro režim pouze připojení. ALLOW_INCONSISTENT_READS znamená, že uživatel může číst soubory, které lze neustále upravovat, zatímco je spuštěn dotaz SELECT
. Výsledky budou konzistentní a ekvivalentní čtení snímku souboru. (Není to ekvivalentní izolaci snímku databáze kvůli odlišné době generování snímku.)
Ne všechny změny CUD budou zachyceny ve vlastnosti pouze připojit: Synapse Link zpracovává změny v datech ve skupinách nebo „dávkách“ před jejich publikováním do datového jezera. V důsledku toho, pokud uživatel provede změny v krátkém časovém intervalu, ne všechny změny CUD budou zachyceny v datovém jezeře.
Zde je několik podrobností o tom, kdy použít jednu z možností.
- Zavedená aktualizace: Tato možnost je výchozí nastavení a doporučuje se pouze v případě, že se chcete připojit přímo k datům v jezeře a potřebujete aktuální stav (nikoli historii nebo postupné změny). Soubor obsahuje celou datovou sadu a lze jej použít prostřednictvím Power BI nebo zkopírováním celého souboru dat pro potrubí ETL (Extract, Transfer, Load).
- Pouze připojit: Tuto možnost vyberte, pokud se nepřipojujete přímo k datům v jezeře a chcete přírůstkově kopírovat data do jiného cíle pomocí kanálů ETL. Tato možnost poskytuje historii změn umožňujících scénáře AI a ML.
Přepnutím možnosti Zobrazit pokročilé nastavení konfigurace v části Upřesnit v Azure Synapse Link for Dataverse můžete přizpůsobit strategii datových oddílů a vybrat možnosti zápisu do datového jezera Azure.
Rozdělení dat
Když zapisujete data tabulky Dataverse do Azure Data Lake Storage pomocí Azure Synapse Link, tabulky jsou rozděleny (místo jednoho souboru) v jezeře na základě hodnoty createdOn
každého řádku ve zdroji. Výchozí strategie dělení je podle měsíce a data se v Azure Data Lake rozdělují na základě měsíců.
Na základě objemu tabulky Dataverse a distribuci dat si můžete vybrat rozdělení dat podle roku. U této možnosti platí , že když jsou data tabulky Dataverse zapsána do Azure Data Lake, budou rozdělena podle roků na základě hodnoty createdOn
na každém řádku ve zdroji. U tabulek bez sloupce createdOn
jsou řádky dat rozděleny do souborů po 5 000 000 záznamů. Toto je nastavení podle tabulky a je k dispozici jako zaškrtávací políčko pod Rozšířená > Zobrazit rozšířená nastavení konfigurace.
Další podrobnosti s příklady, jak se s daty nakládá v jezeře s roční nebo měsíční strategií rozdělení:
Viz také
Azure Synapse Link for Dataverse
Poznámka
Můžete nám sdělit, jaké máte jazykové preference pro dokumentaci? Zúčastněte se krátkého průzkumu. (upozorňujeme, že tento průzkum je v angličtině)
Průzkum bude trvat asi sedm minut. Nejsou shromažďovány žádné osobní údaje (prohlášení o zásadách ochrany osobních údajů).
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro