Spuštění úlohy Azure Databricks s bezserverovými výpočetními prostředky pro pracovní postupy

Článek
07/16/2024

Důležité

Vzhledem k tomu, že výpočetní prostředky bez serveru pro pracovní postupy nepodporují řízení odchozího provozu, mají vaše úlohy plný přístup k internetu.

Bezserverové výpočetní prostředky pro pracovní postupy umožňují spouštět úlohu Azure Databricks bez konfigurace a nasazení infrastruktury. Díky bezserverovým výpočetním prostředkům se zaměřujete na implementaci kanálů zpracování a analýzy dat a Azure Databricks efektivně spravuje výpočetní prostředky, včetně optimalizace a škálování výpočetních prostředků pro vaše úlohy. Automatické škálování a Photon jsou automaticky povolené pro výpočetní prostředky, které spouští vaši úlohu.

Bezserverové výpočetní prostředky pro pracovní postupy automatické optimalizace automaticky optimalizují výpočetní prostředky výběrem vhodných prostředků, jako jsou typy instancí, paměť a procesorové moduly založené na vaší úloze. Automatická optimalizace také automaticky opakuje neúspěšné úlohy.

Databricks automaticky upgraduje verzi Databricks Runtime tak, aby podporovala vylepšení a upgrady na platformu a současně zajišťuje stabilitu úloh Azure Databricks. Pokud chcete zobrazit aktuální verzi databricks Runtime používanou bezserverovými výpočetními prostředky pro pracovní postupy, přečtěte si poznámky k verzi bezserverového výpočetního prostředí.

Vzhledem k tomu, že oprávnění k vytvoření clusteru není potřeba, můžou všichni uživatelé pracovního prostoru ke spouštění pracovních postupů používat bezserverové výpočetní prostředky.

Tento článek popisuje použití uživatelského rozhraní úloh Azure Databricks k vytváření a spouštění úloh, které používají bezserverové výpočetní prostředky. Můžete také automatizovat vytváření a spouštění úloh, které používají bezserverové výpočetní prostředky pomocí rozhraní API úloh, sad prostředků Databricks a sady Databricks SDK pro Python.

Informace o použití rozhraní API úloh k vytváření a spouštění úloh, které používají bezserverové výpočetní prostředky, najdete v referenčních informacích k úlohům v rozhraní REST API.
Další informace o použití sad prostředků Databricks k vytváření a spouštění úloh, které používají bezserverové výpočetní prostředky, najdete v tématu Vývoj úlohy v Azure Databricks pomocí sad prostředků Databricks.
Další informace o použití sady Databricks SDK pro Python k vytváření a spouštění úloh, které používají bezserverové výpočetní prostředky, najdete v tématu Databricks SDK pro Python.

Požadavky

Váš pracovní prostor Azure Databricks musí mít povolený katalog Unity.
Vzhledem k tomu, že výpočetní prostředky bez serveru pro pracovní postupy používají režim sdíleného přístupu, musí vaše úlohy podporovat tento režim přístupu.
Váš pracovní prostor Azure Databricks musí být v podporované oblasti. Viz Dostupnost funkcí.
Váš účet Azure Databricks musí mít povolené bezserverové výpočetní prostředky. Viz Povolení výpočetních prostředků bez serveru.

Vytvoření úlohy pomocí bezserverového výpočetního prostředí

Poznámka:

Vzhledem k tomu, že výpočetní prostředí bez serveru pro pracovní postupy zajišťuje, že jsou pro spouštění úloh zřízeny dostatečné prostředky, může dojít ke zvýšení doby spuštění při spuštění úlohy Azure Databricks, která vyžaduje velké množství paměti nebo zahrnuje mnoho úloh.

Bezserverové výpočetní prostředky se podporují v typech úloh poznámkového bloku, skriptu Pythonu, dbt a kolečka Pythonu. Ve výchozím nastavení se výpočetní prostředky bez serveru při vytváření nové úlohy vyberou jako typ výpočetních prostředků a přidají jeden z těchto podporovaných typů úloh.

Vytvoření úlohy bez serveru

Databricks doporučuje používat bezserverové výpočetní prostředky pro všechny úlohy. Můžete také zadat různé typy výpočetních prostředků pro úkoly v úloze, které se můžou vyžadovat, pokud typ úkolu nepodporuje výpočetní prostředky bez serveru pro pracovní postupy.

Konfigurace existující úlohy pro použití bezserverového výpočetního prostředí

Existující úlohu můžete přepnout tak, aby při úpravě úlohy používala bezserverové výpočetní prostředky pro podporované typy úloh. Pokud chcete přepnout na výpočetní prostředí bez serveru, proveďte jednu z těchto akcí:

Na bočním panelu Podrobnosti úlohy klikněte na Prohodit v části Výpočty, klikněte na Nový, zadejte nebo aktualizujte všechna nastavení a klepněte na tlačítko Aktualizovat.
Klikněte v rozevírací nabídce Compute a vyberte Bezserverový.

Přepnutí úlohy na bezserverové výpočetní prostředky

Naplánování poznámkového bloku pomocí bezserverového výpočetního prostředí

Kromě použití uživatelského rozhraní úloh k vytvoření a naplánování úlohy pomocí bezserverového výpočetního prostředí můžete vytvořit a spustit úlohu, která používá bezserverové výpočetní prostředky přímo z poznámkového bloku Databricks. Viz Vytvoření a správa naplánovaných úloh poznámkového bloku.

Nastavení parametrů konfigurace Sparku

Pokud chcete automatizovat konfiguraci Sparku na bezserverových výpočetních prostředcích, Databricks umožňuje nastavit pouze konkrétní parametry konfigurace Sparku. Seznam povolených parametrů najdete v tématu Podporované konfigurační parametry Sparku.

Parametry konfigurace Sparku můžete nastavit pouze na úrovni relace. Uděláte to tak, že je nastavíte v poznámkovém bloku a přidáte ho do úkolu, který je součástí stejné úlohy, která používá parametry. Viz Získání a nastavení vlastností konfigurace Apache Sparku v poznámkovém bloku.

Konfigurace prostředí a závislostí

Informace o instalaci libárek a závislostí pomocí bezserverového výpočetního prostředí najdete v tématu Instalace závislostí poznámkového bloku.

Konfigurace automatické optimalizace výpočetních prostředků bez serveru tak, aby se nepovolily opakování

Bezserverové výpočetní prostředky pro pracovní postupy automatická optimalizace automaticky optimalizuje výpočetní prostředky používané ke spouštění úloh a opakování neúspěšných úloh. Ve výchozím nastavení je povolená automatická optimalizace a Databricks doporučuje nechat ji povolenou, aby se zajistilo úspěšné spuštění důležitých úloh alespoň jednou. Pokud ale máte úlohy, které se musí spouštět najednou, například úlohy, které nejsou idempotentní, můžete při přidávání nebo úpravách úlohy vypnout automatickou optimalizaci:

Vedle možnosti Opakování klikněte na Přidat (nebo pokud už existuje zásada opakování).
V dialogovém okně Zásady opakování zrušte zaškrtnutí políčka Povolit automatickou optimalizaci bez serveru (může obsahovat další opakování).
Klikněte na tlačítko Potvrdit.
Pokud přidáváte úkol, klikněte na Vytvořit úkol. Pokud upravujete úkol, klikněte na Uložit úkol.

Monitorování nákladů na úlohy, které používají bezserverové výpočetní prostředky pro pracovní postupy

Náklady na úlohy, které používají bezserverové výpočetní prostředky pro pracovní postupy, můžete monitorovat dotazováním fakturovatelné systémové tabulky využití. Tato tabulka se aktualizuje tak, aby zahrnovala atributy uživatelů a úloh týkající se nákladů na bezserverovou architekturu. Viz Referenční informace k tabulce systému fakturovatelného využití.

Zobrazení podrobností o dotazech Sparku

Bezserverové výpočetní prostředky pro pracovní postupy mají nové rozhraní pro zobrazení podrobných informací o modulu runtime pro příkazy Sparku, jako jsou metriky a plány dotazů. Zobrazení přehledů dotazů pro příkazy Sparku, které jsou součástí úloh spuštěných na bezserverových výpočetních prostředcích:

Na bočním panelu klikněte na Pracovní postupy.
Ve sloupci Název klikněte na název úlohy, pro kterou chcete zobrazit přehledy.
Klikněte na konkrétní spuštění, pro které chcete zobrazit přehledy.
V části Výpočty na bočním panelu Spuštění úlohy klikněte na Historii dotazů.
Budete přesměrováni do historie dotazů, která je předem filtrovaná na základě ID spuštění úlohy, ve které jste byli.

Informace o používání historie dotazů najdete v tématu Historie dotazů.

Omezení

Seznam bezserverových výpočetních prostředků pro omezení pracovních postupů najdete v poznámkách k verzi bezserverových výpočetních prostředků bez serveru.

Sdílet prostřednictvím