Konfigurace a úprava úloh Databricks
Tento článek se zaměřuje na pokyny pro vytváření, konfiguraci a úpravy úloh pomocí uživatelského rozhraní pracovního prostoru Pracovních postupů . Azure Databricks má další vstupní body a nástroje pro konfiguraci, včetně následujících:
- Další informace o vytváření a spouštění úloh pomocí rozhraní příkazového řádku Databricks najdete v tématu Co je rozhraní příkazového řádku Databricks?
- Další informace o použití rozhraní API úloh k vytváření a spouštění úloh najdete v tématu Úlohy v referenčních informacích k rozhraní REST API.
- Informace o tom, jak spouštět a plánovat úlohy přímo v poznámkovém bloku Databricks, najdete v tématu Vytváření a správa naplánovaných úloh poznámkového bloku.
Tip
Pokud chcete zobrazit úlohu jako YAML, klikněte na nabídku Kebab vlevo od příkazu Spustit pro úlohu a potom klikněte na přepnout na verzi kódu (YAML).
Vytvoření nové úlohy
Tato část popisuje minimální konfiguraci potřebnou k vytvoření nové úlohy pro naplánování úlohy poznámkového bloku s uživatelským rozhraním pracovního prostoru.
Úlohy obsahují jeden nebo více úkolů. Novou úlohu vytvoříte konfigurací prvního úkolu pro danou úlohu.
Poznámka:
Každý typ úlohy má v uživatelském rozhraní pracovního prostoru dynamické možnosti konfigurace. Viz Konfigurace a úprava úloh Databricks.
- Na bočním panelu klikněte na Pracovní postupy a klikněte na .
- Zadejte název úkolu.
- Vyberte poznámkový blok pro pole Cesta .
- Klikněte na Vytvořit úkol.
Pokud váš pracovní prostor není povolený pro bezserverové výpočetní prostředky pro úlohy, musíte vybrat možnost Compute . Databricks doporučuje při konfiguraci úloh vždy používat výpočetní prostředky úloh.
V seznamu úloh pracovního prostoru se zobrazí nová úloha s výchozím názvem New Job <date> <time>
.
Vyberte úlohu, kterou chcete upravit v pracovním prostoru.
Pokud chcete upravit existující úlohu pomocí uživatelského rozhraní pracovního prostoru, postupujte takto:
- Na bočním panelu klikněte na Pracovní postupy.
- Ve sloupci Název klikněte na název úlohy.
Pomocí uživatelského rozhraní úloh proveďte následující akce:
- Úprava nastavení úlohy
- Přejmenování, klonování nebo odstranění úlohy
- Přidání nových úkolů do existující úlohy
- Upravit nastavení úkolu
Poznámka:
Můžete si také prohlédnout definice JSON pro použití s rozhraním REST API get, create a resetovat koncové body.
Úprava nastavení úlohy
Boční panel obsahuje podrobnosti o úloze. Můžete změnit aktivační událost úlohy, konfiguraci výpočetních prostředků, oznámení, maximální počet souběžných spuštění, nakonfigurovat prahové hodnoty doby trvání a přidat nebo změnit značky. Pokud je povolené řízení přístupu k úlohám, můžete také upravit oprávnění úlohy.
Přidání parametrů pro všechny úkoly úlohy
Parametry nakonfigurované na úrovni úlohy se předávají úkolům úlohy, které přijímají parametry klíč-hodnota, včetně souborů kol Pythonu nakonfigurovaných tak, aby přijímaly argumenty klíčových slov. Viz Parametrizovat úlohy.
Přidání značek do úlohy
Pokud chcete do úlohy přidat popisky nebo atributy klíč-hodnota, můžete při úpravě úlohy přidat značky . Značky můžete použít k filtrování úloh v seznamu Úloh. Pomocí značky department
můžete například filtrovat všechny úlohy, které patří do konkrétního oddělení.
Poznámka:
Vzhledem k tomu, že značky úloh nejsou navržené tak, aby ukládaly citlivé informace, jako jsou identifikovatelné osobní údaje nebo hesla, doporučuje Databricks používat značky pouze pro necitlivých hodnot.
Značky se také šíří do clusterů úloh vytvořených při spuštění úlohy, což umožňuje používat značky se stávajícím monitorováním clusteru.
Pokud chcete přidat nebo upravit značky, klikněte na bočním panelu Podrobnosti úlohy na tlačítko + Značka. Značku můžete přidat jako popisek nebo pár klíč-hodnota. Pokud chcete přidat popisek, zadejte ho do pole Klíč a pole Hodnota nechte prázdné.
Přejmenování, klonování nebo odstranění úlohy
Pokud chcete úlohu přejmenovat, přejděte do uživatelského rozhraní úloh a klikněte na název úlohy.
Novou úlohu můžete rychle vytvořit klonováním existující úlohy. Klonování úlohy vytvoří identickou kopii úlohy s výjimkou ID úlohy. Pokud chcete naklonovat úlohu, postupujte takto:
- Přejděte do uživatelského rozhraní úloh pro úlohu.
- Klikněte vedle tlačítka Spustit.
- V rozevírací nabídce vyberte úlohu Clone (Klonovat).
- Zadejte název klonované úlohy.
- Klikněte na Klonovat.
Odstranění úlohy
Pokud chcete odstranit úlohu, přejděte na stránku úlohy, klikněte na název úlohy a v rozevírací nabídce vyberte Odstranit úlohu .
Použití Gitu s úlohami
Pokud vaše úloha obsahuje jakékoli úlohy, které podporují použití vzdáleného poskytovatele Gitu, uživatelské rozhraní úloh obsahuje pole Git a možnost přidat nebo upravit nastavení Gitu.
Pro použití vzdáleného úložiště Git můžete nakonfigurovat následující typy úloh:
- Poznámkové bloky
- Skripty Pythonu
- Soubory SQL
- dbt
Všechny úkoly v úloze musí odkazovat na stejné potvrzení ve vzdáleném úložišti. Pro úlohu, která používá vzdálené úložiště, musíte zadat pouze jednu z následujících možností:
- branch: Název větve, například
main
. - tag: Název značky,
release-1.0.0
například . - commit: Hodnota hash konkrétního potvrzení, například
e0056d01
.
Když se spustí úloha, Databricks pořídí potvrzení snímku vzdáleného úložiště, aby se zajistilo, že se celá úloha spustí ve stejné verzi kódu.
Když zobrazíte historii spuštění úlohy, která spouští kód uložený ve vzdáleném úložišti Git, obsahuje panel podrobností o spuštění úlohy podrobnosti o Gitu, včetně algoritmu SHA potvrzení přidruženého ke spuštění. Viz Zobrazení historie spuštění úlohy.
Poznámka:
Úlohy nakonfigurované pro použití vzdáleného úložiště Git nemůžou zapisovat do souborů pracovního prostoru. Musí zapisovat dočasná data do dočasného úložiště ovladačů a trvalých dat do svazku nebo tabulky.
Databricks doporučuje vytvářet úlohy odkazující na cesty pracovního prostoru ve složkách Git pouze pro rychlé iterace a testování během vývoje. Databricks doporučuje při přechodu do přípravného a produkčního prostředí překonfigurovat úlohy tak, aby odkazovala na vzdálené úložiště Git. Přečtěte si další informace o zdrojovém kódu řízeném verzí v úloze Databricks.
Konfigurace poskytovatele Gitu
Uživatelské rozhraní úloh má dialogové okno pro konfiguraci vzdáleného úložiště Git. Toto dialogové okno je přístupné z panelu Podrobností o úloze pod nadpisem Git nebo v libovolné úloze nakonfigurované pro použití poskytovatele Gitu.
Možnosti zobrazené pro přístup k dialogovému okně se liší v závislosti na typu úlohy a na tom, jestli už byl pro úlohu nakonfigurovaný odkaz gitu. Tlačítka pro spuštění dialogového okna zahrnují přidání nastavení Gitu, úpravy nebo přidání odkazu na Git.
V dialogovém okně Informace o Gitu (jen označený Git, pokud je přístup na panelu podrobností úlohy) zadejte následující podrobnosti:
- Adresa URL úložiště Git.
- V rozevíracím seznamu vyberte svého poskytovatele Gitu.
- Do referenčního pole Gitu zadejte identifikátor větve, značky nebo potvrzení, který odpovídá verzi zdrojového kódu, kterou chcete spustit.
- V rozevíracím seznamu vyberte větev, značku nebo potvrzení .
Poznámka:
V dialogovém okně se může zobrazit výzva s následujícími údaji: Chybí přihlašovací údaje Gitu pro tento účet. Přidejte přihlašovací údaje. Než ho použijete jako referenci, musíte nakonfigurovat vzdálené úložiště Git. Viz Nastavení složek Gitu (Repos) Databricks.
Konfigurace očekávaného času dokončení nebo časového limitu pro úlohu
Pro úlohu můžete nakonfigurovat volitelné prahové hodnoty doby trvání, včetně očekávané a maximální doby dokončení. Chcete-li konfigurovat prahové hodnoty doby trvání, klepněte na tlačítko Nastavit prahové hodnoty doby trvání v části Prahové hodnoty doby trvání na panelu Podrobností úlohy.
Do pole Upozornění zadejte dobu trvání, abyste nakonfigurovali očekávanou dobu dokončení úlohy. Pokud úloha tuto prahovou hodnotu překročí, aktivuje se událost. Tuto událost můžete použít k upozornění na pomalé spuštění úlohy. Viz Konfigurace oznámení pro pomalé nebo zpožděné úlohy.
Pokud chcete pro úlohu nakonfigurovat maximální dobu dokončení, zadejte do pole Časový limit maximální dobu trvání. Pokud se úloha tentokrát nedokončí, Azure Databricks nastaví její stav na Časový limit.
Volitelně můžete zadat prahové hodnoty doby trvání pro úkoly. Viz Konfigurace očekávaného času dokončení nebo časového limitu úkolu.