Sdílet prostřednictvím


Pokročilé možnosti konfigurace v Azure Synapse Link

Azure Synapse Link nabízí několik způsobů, jak zapisovat a číst vaše data, aby se vešly do různých analytických scénářů.

Poznámka

Azure Synapse Link for Dataverse byl dříve známý jako Export do datového jezera. Služba byla s účinností od května 2021 přejmenována a bude i nadále exportovat data do Azure Data Lake a také do Azure Synapse Analytics.

Tento článek se věnuje následujícím tématům:

  1. Místní aktualizace vs. zápisy pouze pro přidání.
  2. Uživatelsky určené rozdělení dat.

Místní aktualizace vs. zápisy pouze pro přidání

Během psaní dat tabulky Dataverse do datového jezera Azure na základě hodnoty createdOn, což je datum a čas, kdy byl záznam vytvořen, si můžete vybrat ze dvou různých nastavení. Jsou to Aktualizace na místě a Pouze připojit.

Výchozí nastavení (pro tabulky, kde je createdOn) je provést místní aktualizaci nebo upsert (aktualizaci nebo vložení) přírůstkových dat v cíli. Pokud je změna nová a odpovídající řádek v jezeře neexistuje, v případě vytvoření jsou cílové soubory zkontrolovány a změny jsou vloženy do odpovídajícího oddílu souboru v jezeře. Pokud je změnou aktualizace a v jezeře existuje řádek, je odpovídající soubor v jezeře aktualizován, nikoli vložen, s přírůstkovými daty. Jinými slovy, výchozí nastavení pro všechny změny CUD (vytvoření, aktualizace, odstranění) v tabulce Dataverse, kde je k dispozici createdOn, je provést aktualizaci na místě v cíli, tedy v datovém jezeru Azure.

Výchozí chování místní aktualizace můžete přepnout pomocí volitelného nastavení s názvem Pouze připojit. Místo Aktualizace na místě v režimu Pouze připojit jsou přírůstková data z tabulky Dataverse připojena k odpovídajícímu oddílu souborů v jezeře. Toto je nastavení podle tabulky a je k dispozici jako zaškrtávací políčko pod Pokročilé > Zobrazit pokročilé nastavení konfigurace. Pro tabulky Dataverse se zapnutým Pouze připojit, jsou všechny změny CUD postupně připojeny k odpovídajícím cílovým souborům v jezeře. Když zvolíte tuto možnost, použije se výchozí strategie rozdělení disku Rok, a když jsou data zapsána do datového jezera, jsou rozdělena na roční bázi. Pouze připojit je také výchozí nastavení pro tabulky Dataverse, které nemají hodnotu createdOn.

Níže uvedená tabulka popisuje, jak jsou řádky zpracovávány v jezeře proti událostem CUD pro každou z možností zápisu dat.

Událost Aktualizace na místě Jen připojit
Vytvoření Řádek je vložen do souboru oddílu a je založen na hodnotě createdOn na řádku. Řádek je přidán na konec souboru oddílu a je založen na hodnotě createdOn záznamu.
Aktualizovat Pokud řádek existuje v souboru oddílu, je nahrazen nebo aktualizován aktualizovanými daty. Pokud neexistuje, vloží se do souboru. Řádek je spolu s aktualizovanou verzí přidán na konec souboru oddílu.
Odstranění Pokud řádek v souboru oddílu existuje, je ze souboru odstraněn. Řádek je s IsDelete column = True přidán na konec souboru oddílu.

Poznámka

Pro tabulky Dataverse, kde je povoleno Pouze připojit, smazání řádku ve zdroji nesmaže ani neodstraní řádek v jezeře. Místo toho se odstraněný řádek připojí jako nový řádek v jezeře a sloupec isDeleted se nastaví na True.

Nečisté čtení (ALLOW_INCONSISTENT_READS) pro bezserverovou možnost je zapnuto pro režim pouze připojení. ALLOW_INCONSISTENT_READS znamená, že uživatel může číst soubory, které lze neustále upravovat, zatímco je spuštěn dotaz SELECT. Výsledky budou konzistentní a ekvivalentní čtení snímku souboru. (Není to ekvivalentní izolaci snímku databáze kvůli odlišné době generování snímku.)

Ne všechny změny CUD budou zachyceny ve vlastnosti pouze připojit: Synapse Link zpracovává změny v datech ve skupinách nebo „dávkách“ před jejich publikováním do datového jezera. V důsledku toho, pokud uživatel provede změny v krátkém časovém intervalu, ne všechny změny CUD budou zachyceny v datovém jezeře.

Zde je několik podrobností o tom, kdy použít jednu z možností.

  • Zavedená aktualizace: Tato možnost je výchozí nastavení a doporučuje se pouze v případě, že se chcete připojit přímo k datům v jezeře a potřebujete aktuální stav (nikoli historii nebo postupné změny). Soubor obsahuje celou datovou sadu a lze jej použít prostřednictvím Power BI nebo zkopírováním celého souboru dat pro potrubí ETL (Extract, Transfer, Load).
  • Pouze připojit: Tuto možnost vyberte, pokud se nepřipojujete přímo k datům v jezeře a chcete přírůstkově kopírovat data do jiného cíle pomocí kanálů ETL. Tato možnost poskytuje historii změn umožňujících scénáře AI a ML.

Přepnutím možnosti Zobrazit pokročilé nastavení konfigurace v části Upřesnit v Azure Synapse Link for Dataverse můžete přizpůsobit strategii datových oddílů a vybrat možnosti zápisu do datového jezera Azure.

Zobrazení upřesněné konfigurace.

Rozdělení dat

Když zapisujete data tabulky Dataverse do Azure Data Lake Storage pomocí Azure Synapse Link, tabulky jsou rozděleny (místo jednoho souboru) v jezeře na základě hodnoty createdOn každého řádku ve zdroji. Výchozí strategie dělení je podle měsíce a data se v Azure Data Lake rozdělují na základě měsíců.

Na základě objemu tabulky Dataverse a distribuci dat si můžete vybrat rozdělení dat podle roku. U této možnosti platí , že když jsou data tabulky Dataverse zapsána do Azure Data Lake, budou rozdělena podle roků na základě hodnoty createdOn na každém řádku ve zdroji. U tabulek bez sloupce createdOn jsou řádky dat rozděleny do souborů po 5 000 000 záznamů. Toto je nastavení podle tabulky a je k dispozici jako zaškrtávací políčko pod Rozšířená > Zobrazit rozšířená nastavení konfigurace.

Další podrobnosti s příklady, jak se s daty nakládá v jezeře s roční nebo měsíční strategií rozdělení:

Strategie dělení na oddíly.

Viz také

Azure Synapse Link for Dataverse

Poznámka

Můžete nám sdělit, jaké máte jazykové preference pro dokumentaci? Zúčastněte se krátkého průzkumu. (upozorňujeme, že tento průzkum je v angličtině)

Průzkum bude trvat asi sedm minut. Nejsou shromažďovány žádné osobní údaje (prohlášení o zásadách ochrany osobních údajů).