Spuštění aktualizace v kanálu Delta Live Tables

Tento článek vysvětluje, co je aktualizace kanálu Delta Live Tables a jak ji spustit.

Jakmile vytvoříte kanál a budete připraveni ho spustit, spustíte aktualizaci. Aktualizace kanálu provede následující:

  • Spustí cluster se správnou konfigurací.
  • Vyhledá všechny definované tabulky a zobrazení a vyhledá všechny chyby analýzy, jako jsou neplatné názvy sloupců, chybějící závislosti a chyby syntaxe.
  • Vytvoří nebo aktualizuje tabulky a zobrazení s nejnovějšími dostupnými daty.

Můžete zkontrolovat problémy ve zdrojovém kódu kanálu bez čekání na vytvoření nebo aktualizaci tabulek pomocí aktualizace Ověřit. Tato Validate funkce je užitečná při vývoji nebo testování kanálů tím, že umožňuje rychle vyhledat a opravit chyby v kanálu, jako jsou nesprávné názvy tabulek nebo sloupců.

Pokud chcete zjistit, jak vytvořit kanál, přečtěte si kurz : Spuštění prvního kanálu Delta Live Tables.

Spuštění aktualizace kanálu

Azure Databricks nabízí několik možností spuštění aktualizací kanálu, včetně následujících:

  • V uživatelském rozhraní Delta Live Tables máte následující možnosti:
    • Klikněte na Ikona Start tabulky Delta Live tlačítko na stránce podrobností kanálu.
    • V seznamu kanálů klikněte do Ikona šipky vpravosloupce Akce.
  • Pokud chcete spustit aktualizaci v poznámkovém bloku, klikněte na tlačítko Delta Live Tables > Start na panelu nástrojů poznámkového bloku. Viz Otevření nebo spuštění kanálu Delta Live Tables z poznámkového bloku.
  • Kanály můžete aktivovat programově pomocí rozhraní API nebo rozhraní příkazového řádku. Viz příručka k rozhraní Delta Live Tables API.
  • Kanál můžete naplánovat jako úlohu pomocí uživatelského rozhraní Delta Live Tables nebo uživatelského rozhraní úloh. Viz Plánování kanálu.

Jak Delta Live Tables aktualizuje tabulky a zobrazení

Tabulky a zobrazení se aktualizovaly a způsob aktualizace těchto tabulek závisí na typu aktualizace:

  • Aktualizovat vše: Všechny živé tabulky se aktualizují tak, aby odrážely aktuální stav vstupních zdrojů dat. U všech streamovaných tabulek se k tabulce připojí nové řádky.
  • Úplná aktualizace: Všechny živé tabulky se aktualizují tak, aby odrážely aktuální stav vstupních zdrojů dat. U všech streamovaných tabulek se Delta Live Tables pokusí vymazat všechna data z každé tabulky a pak načíst všechna data ze zdroje streamování.
  • Výběr aktualizace: Chování refresh selection je stejné jako refresh all, ale umožňuje aktualizovat pouze vybrané tabulky. Vybrané živé tabulky se aktualizují tak, aby odrážely aktuální stav vstupních zdrojů dat. U vybraných streamovaných tabulek se k tabulce připojí nové řádky.
  • Výběr úplné aktualizace: Chování full refresh selection je identické full refresh alls , ale umožňuje provést úplnou aktualizaci pouze vybraných tabulek. Vybrané živé tabulky se aktualizují tak, aby odrážely aktuální stav vstupních zdrojů dat. U vybraných streamovaných tabulek se Delta Live Tables pokusí vymazat všechna data z každé tabulky a pak načíst všechna data ze zdroje streamování.

U existujících živých tabulek má aktualizace stejné chování jako SQL REFRESH v materializovaném zobrazení. U nových živých tabulek je chování stejné jako operace SQL CREATE .

Spuštění aktualizace kanálu pro vybrané tabulky

Je možné, že budete chtít znovu zpracovat data pouze pro vybrané tabulky v kanálu. Během vývoje například změníte jenom jednu tabulku a chcete zkrátit dobu testování nebo se nezdaří aktualizace kanálu a chcete aktualizovat pouze neúspěšné tabulky.

Poznámka:

Selektivní aktualizaci můžete použít pouze s aktivovanými kanály.

Pokud chcete spustit aktualizaci, která aktualizuje jenom vybrané tabulky, na stránce podrobností kanálu:

  1. Klikněte na Vybrat tabulky pro aktualizaci. Zobrazí se dialogové okno Vybrat tabulky pro aktualizaci .

    Pokud tlačítko Vybrat tabulky pro aktualizaci nevidíte, ujistěte se, že stránka s podrobnostmi kanálu zobrazuje nejnovější aktualizaci a aktualizace je dokončená. Pokud se například pro nejnovější aktualizaci nezobrazuje dag, protože aktualizace selhala, tlačítko Vybrat tabulky pro aktualizaci se nezobrazí.

  2. Pokud chcete vybrat tabulky, které se mají aktualizovat, klikněte na každou tabulku. Vybrané tabulky jsou zvýrazněné a označené. Pokud chcete tabulku z aktualizace odebrat, klikněte znovu na tabulku.

  3. Klikněte na Aktualizovat výběr.

    Poznámka:

    Tlačítko Aktualizovat výběr zobrazuje počet vybraných tabulek v závorkách.

Chcete-li znovu zpracovat data, která již byla ingestována pro vybrané tabulky, klikněte na Modrá stříška dolů tlačítko Aktualizovat výběr a klikněte na výběr úplné aktualizace.

Spuštění aktualizace kanálu pro neúspěšné tabulky

Pokud aktualizace kanálu selže kvůli chybám v jedné nebo více tabulkách v grafu kanálu, můžete spustit aktualizaci pouze neúspěšných tabulek a všech podřízených závislostí.

Poznámka:

Vyloučené tabulky se neaktualizuje, i když závisí na neúspěšné tabulce.

Pokud chcete aktualizovat neúspěšné tabulky, klikněte na stránce Podrobností kanálu na Aktualizovat neúspěšné tabulky.

Aktualizace pouze vybraných neúspěšných tabulek:

  1. Klikněte vedle Tlačítko s šipkou dolůtlačítka Aktualizovat neúspěšné tabulky a klikněte na Vybrat tabulky pro aktualizaci. Zobrazí se dialogové okno Vybrat tabulky pro aktualizaci .

  2. Pokud chcete vybrat tabulky, které se mají aktualizovat, klikněte na každou tabulku. Vybrané tabulky jsou zvýrazněné a označené. Pokud chcete tabulku z aktualizace odebrat, klikněte znovu na tabulku.

  3. Klikněte na Aktualizovat výběr.

    Poznámka:

    Tlačítko Aktualizovat výběr zobrazuje počet vybraných tabulek v závorkách.

Chcete-li znovu zpracovat data, která již byla ingestována pro vybrané tabulky, klikněte na Modrá stříška dolů tlačítko Aktualizovat výběr a klikněte na výběr úplné aktualizace.

Kontrola chyb v kanálu bez čekání na aktualizaci tabulek

Důležité

Funkce aktualizace Delta Live Tables Validate je ve verzi Public Preview.

Pokud chcete zkontrolovat, jestli je zdrojový kód kanálu platný bez spuštění úplné aktualizace, použijte funkci Ověřit. Aktualizace Validate vyřeší definice datových sad a toků definovaných v kanálu, ale ne materializuje ani nepublikuje žádné datové sady. Chyby zjištěné během ověřování, například nesprávné názvy tabulek nebo sloupců, jsou hlášeny v uživatelském rozhraní.

Pokud chcete spustit Validate aktualizaci, klikněte na stránce podrobností kanálu na Modrá stříška dolů tlačítko Spustit a klikněte na Ověřit.

Validate Po dokončení aktualizace protokol událostí zobrazuje události související pouze s Validate aktualizací a v DAG se nezobrazují žádné metriky. Pokud jsou nalezeny chyby, podrobnosti jsou k dispozici v protokolu událostí.

Zobrazí se výsledky pouze pro nejnovější Validate aktualizaci. Validate Pokud byla aktualizace naposledy spuštěnou aktualizací, můžete výsledky zobrazit tak, že ji vyberete v historii aktualizací. Pokud se po Validate aktualizaci spustí jiná aktualizace, výsledky už nebudou v uživatelském rozhraní k dispozici.

Průběžné a aktivované spuštění kanálu

Pokud kanál používá aktivovaný režim spuštění, systém přestane zpracovávat po úspěšné aktualizaci všech tabulek nebo vybraných tabulek v kanálu jednou a zajistí aktualizaci každé tabulky, která je součástí aktualizace, na základě dat dostupných při spuštění aktualizace.

Pokud kanál používá průběžné spouštění, Delta Live Tables zpracovává nová data při příchodu do zdrojů dat, aby tabulky zůstaly v celém kanálu aktuální.

Režim provádění je nezávislý na typu počítané tabulky. Materializovaná zobrazení i tabulky streamování je možné aktualizovat v obou režimech spuštění. Aby se zabránilo zbytečnému zpracování v režimu průběžného spouštění, kanály automaticky monitorují závislé tabulky Delta a provádějí aktualizaci pouze v případě, že se změnil obsah těchto závislých tabulek.

Poznámka:

Modul runtime Delta Live Tables nedokáže rozpoznat změny v jiných zdrojích dat než Delta. Tabulka je stále pravidelně aktualizována, ale s vyšším výchozím intervalem aktivační události, aby se zabránilo nadměrnému přepočítacímu zpomalování jakéhokoli přírůstkového zpracování probíhajícího v clusteru.

Tabulka porovnání režimů spuštění datového kanálu

Následující tabulka uvádí rozdíly mezi těmito režimy provádění:

Aktivované Průběžné
Kdy se aktualizace zastaví? Po dokončení se automaticky dokončí. Běží nepřetržitě, dokud ručně nezastavíte.
Jaká data se zpracovávají? Data dostupná při spuštění aktualizace. Všechna data při příchodu do nakonfigurovaných zdrojů.
Jaké požadavky na aktuálnost dat jsou nejlepší? Aktualizace dat se spouštějí každých 10 minut, každou hodinu nebo denně. Data se aktualizují každých 10 sekund až několik minut.

Aktivované kanály můžou snížit spotřebu prostředků a výdaje, protože cluster běží dostatečně dlouho, aby mohl kanál spustit. Nová data se ale nezpracují, dokud se kanál neaktivuje. Průběžné kanály vyžadují vždy spuštěný cluster, který je dražší, ale snižuje latenci zpracování.

Režim spouštění můžete nakonfigurovat pomocí možnosti Režim kanálu v nastavení.

Jak zvolit hranice kanálu

Kanál Delta Live Tables může zpracovávat aktualizace jedné tabulky, mnoho tabulek se závislými relacemi, mnoho tabulek bez relací nebo více nezávislých toků tabulek se závislými relacemi. Tato část obsahuje důležité informace, které vám pomůžou určit, jak rozdělit kanály.

Větší kanály Dynamických tabulek Delta mají řadu výhod. Patří mezi ně následující:

  • Efektivněji používejte prostředky clusteru.
  • Snižte počet kanálů ve vašem pracovním prostoru.
  • Snižte složitost orchestrace pracovních postupů.

Mezi běžná doporučení týkající se rozdělení kanálů zpracování patří:

  • Rozdělení funkcí na hranicích týmu Váš datový tým může například udržovat kanály pro transformaci dat, zatímco datoví analytici udržují kanály, které analyzují transformovaná data.
  • Rozdělte funkce na hranicích specifických pro aplikaci, abyste omezili párování a usnadnili opětovné použití běžných funkcí.

Vývojové a produkční režimy

Spuštění kanálu můžete optimalizovat přepnutím mezi režimy vývoje a produkce. Ikona přepínače prostředí Delta Live Tables Pomocí tlačítek v uživatelském rozhraní Pipelines můžete přepínat mezi těmito dvěma režimy. Ve výchozím nastavení se kanály spouštějí v režimu vývoje.

Při spuštění kanálu ve vývojovém režimu provede systém Delta Live Tables následující:

  • Znovu použije cluster, aby se zabránilo režii restartování. Clustery ve výchozím nastavení běží po dobu dvou hodin, když je povolený režim vývoje. Toto nastavení můžete změnit pomocí pipelines.clusterShutdown.delay nastavení Konfigurace výpočetních prostředků.
  • Zakáže opakování kanálu, abyste mohli okamžitě zjišťovat a opravovat chyby.

V produkčním režimu systém Delta Live Tables provede následující:

  • Restartuje cluster pro konkrétní obnovitelné chyby, včetně nevracení paměti a zastaralých přihlašovacích údajů.
  • Opakuje provádění v případě konkrétních chyb, například při selhání spuštění clusteru.

Poznámka:

Přepínání mezi režimy vývoje a produkce řídí pouze chování clusteru a spouštění kanálů. Umístění úložiště a cílová schémata v katalogu pro tabulky publikování musí být nakonfigurovaná jako součást nastavení kanálu a při přepínání mezi režimy to neovlivní.

Naplánování kanálu

Aktivovaný kanál můžete spustit ručně nebo spustit kanál podle plánu pomocí úlohy Azure Databricks. Úlohu můžete vytvořit a naplánovat s jednou úlohou kanálu přímo v uživatelském rozhraní Delta Live Tables nebo přidat úlohu kanálu do pracovního postupu s více úlohami v uživatelském rozhraní úloh.

Vytvoření úlohy s jedním úkolem a plánu pro úlohu v uživatelském rozhraní Delta Live Tables:

  1. Klikněte na Naplánovat > přidání plánu. Tlačítko Plán se aktualizuje tak, aby zobrazovalo počet existujících plánů, pokud je kanál součástí jedné nebo více naplánovaných úloh, například Plán (5).
  2. Do pole Název úlohy zadejte název úlohy.
  3. Nastavte plán na Naplánovaný.
  4. Zadejte období, počáteční čas a časové pásmo.
  5. Nakonfigurujte jednu nebo více e-mailových adres pro příjem upozornění na spuštění kanálu, úspěch nebo selhání.
  6. Klikněte na Vytvořit.