Konfigurace nastavení pro úlohy Azure Databricks
Tento článek obsahuje podrobnosti o konfiguraci úloh Azure Databricks a jednotlivých úloh v uživatelském rozhraní úloh. Informace o použití rozhraní příkazového řádku Databricks k úpravě nastavení úloh získáte spuštěním příkazu databricks jobs update -h
rozhraní příkazového řádku . Další informace o používání rozhraní API pro úlohy najdete v rozhraní API úloh.
Některé možnosti konfigurace jsou v úloze k dispozici a další možnosti jsou k dispozici pro jednotlivé úlohy. Například maximální počet souběžných spuštění lze nastavit pouze v úloze, zatímco zásady opakování jsou definovány pro každou úlohu.
Úprava úlohy
Změna konfigurace pro úlohu:
- Na bočním panelu klikněte na Pracovní postupy.
- Ve sloupci Název klikněte na název úlohy.
Na bočním panelu se zobrazí podrobnosti o úloze. Aktivační událost pro úlohu, konfiguraci výpočetních prostředků, oznámení, maximální počet souběžných spuštění, konfiguraci prahových hodnot doby trvání a přidání nebo změna značek můžete změnit. Pokud je povolené řízení přístupu k úloze, můžete také upravit oprávnění úlohy.
Přidání parametrů pro všechny úkoly úlohy
Můžete nakonfigurovat parametry pro úlohu, která se předává všem úkolům úlohy, které přijímají parametry klíč-hodnota, včetně souborů kol Pythonu nakonfigurovaných tak, aby přijímaly argumenty klíčových slov. Do nakonfigurovaných parametrů na úrovni úlohy se přidají parametry nastavené na úrovni úlohy. Parametry úlohy předané úkolům jsou viditelné v konfiguraci úlohy spolu s libovolnými parametry nakonfigurovanými pro úkol.
Parametry úlohy můžete také předat úkolům, které nejsou nakonfigurované s parametry klíč-hodnota, jako JAR
jsou nebo Spark Submit
úkoly. Pokud chcete těmto úkolům předat parametry úlohy, naformátujte argumenty jako {{job.parameters.[name]}}
nahrazením [name]
parametru key
, který identifikuje parametr.
Parametry úlohy mají přednost před parametry úkolu. Pokud má parametr úlohy a parametr úkolu stejný klíč, přepíše parametr úlohy parametr úkolu.
Můžete přepsat nakonfigurované parametry úlohy nebo přidat nové parametry úlohy při spuštění úlohy s různými parametry nebo opravit spuštění úlohy.
Kontext úloh a úkolů můžete také sdílet pomocí sady odkazů na dynamické hodnoty.
Chcete-li přidat parametry úlohy, klepněte na tlačítko Upravit parametry na bočním panelu Podrobnosti úlohy a zadejte klíč a výchozí hodnotu každého parametru. Chcete-li zobrazit seznam dostupných odkazů na dynamické hodnoty, klepněte na tlačítko Procházet dynamické hodnoty.
Přidání značek do úlohy
Pokud chcete do úlohy přidat popisky nebo atributy key:value, můžete při úpravě úlohy přidat značky . Značky můžete použít k filtrování úloh v seznamu Úloh. Pomocí značky můžete department
například filtrovat všechny úlohy, které patří do konkrétního oddělení.
Poznámka:
Vzhledem k tomu, že značky úloh nejsou navržené tak, aby ukládaly citlivé informace, jako jsou identifikovatelné osobní údaje nebo hesla, doporučuje Databricks používat značky pouze pro necitlivých hodnot.
Značky se také šíří do clusterů úloh vytvořených při spuštění úlohy, což umožňuje používat značky se stávajícím monitorováním clusteru.
Pokud chcete přidat nebo upravit značky, klikněte na bočním panelu Podrobnosti úlohy na tlačítko + Značka. Značku můžete přidat jako klíč a hodnotu nebo popisek. Pokud chcete přidat popisek, zadejte ho do pole Klíč a pole Hodnota nechte prázdné.
Konfigurace sdílených clusterů
Pokud chcete zobrazit úkoly přidružené ke clusteru, klikněte na kartu Úlohy a najeďte myší na cluster na bočním panelu. Chcete-li změnit konfiguraci clusteru pro všechny přidružené úlohy, klepněte na tlačítko Konfigurovat v rámci clusteru. Chcete-li nakonfigurovat nový cluster pro všechny přidružené úlohy, klepněte na tlačítko Prohodit pod clusterem.
Řízení přístupu k úloze
Řízení přístupu k úlohám umožňuje vlastníkům úloh a správcům udělit jemně odstupňovaná oprávnění k jejich úlohám. Vlastníci úloh můžou zvolit, kteří další uživatelé nebo skupiny můžou zobrazit výsledky úlohy. Vlastníci můžou také zvolit, kdo může spravovat spuštění úloh (spustit teď a zrušit oprávnění ke spuštění).
Informace o úrovních oprávnění úlohy najdete v tématu Seznamy ACL úloh.
Abyste mohli spravovat oprávnění k úloze, musíte mít oprávnění CAN MANAGE nebo IS OWNER.
Na bočním panelu klikněte na Spuštění úloh.
Klikněte na název úlohy.
Na panelu Podrobnosti úlohy klikněte na Upravit oprávnění.
V části Oprávnění Nastavení klikněte na rozevírací nabídku Vybrat uživatele, skupinu nebo instanční objekt... a vyberte uživatele, skupinu nebo instanční objekt.
Klikněte na tlačítko Přidat.
Klikněte na Uložit.
Správa vlastníka úlohy
Ve výchozím nastavení má tvůrce úlohy oprávnění IS OWNER a je uživatelem v nastavení Spustit jako úlohy. Úloha se spustí jako identita uživatele v nastavení Spustit jako . Další informace o nastavení Spustit jako najdete v tématu Spuštění úlohy jako instančního objektu.
Správci pracovního prostoru můžou změnit vlastníka úlohy na sebe. Při převodu vlastnictví se předchozímu vlastníkovi udělí oprávnění MŮŽE SPRAVOVAT.
Poznámka:
RestrictWorkspaceAdmins
Když je nastavení v pracovním prostoru nastavenéALLOW ALL
, můžou správci pracovního prostoru změnit vlastníka úlohy na libovolného uživatele nebo instančního objektu ve svém pracovním prostoru. Pokud chcete správcům pracovního prostoru omezit jenom změnu vlastníka úlohy na sebe, přečtěte si téma Omezení správců pracovního prostoru.
Konfigurace maximálního počtu souběžných spuštění
Kliknutím na upravit souběžná spuštění v části Upřesnit nastavení nastavíte maximální počet paralelních spuštění pro tuto úlohu. Azure Databricks přeskočí spuštění, pokud úloha už dosáhla maximálního počtu aktivních spuštění při pokusu o spuštění nového spuštění. Nastavte tuto hodnotu vyšší než výchozí hodnota 1, aby souběžně prováděla více spuštění stejné úlohy. To je užitečné například v případě, že úlohu aktivujete často a chcete povolit, aby se po sobě překrývala, nebo chcete aktivovat více spuštění, která se liší podle jejich vstupních parametrů.
Povolení zařadování spuštění úloh do fronty
Chcete-li povolit, aby se spuštění běhů úlohy umístila do fronty, aby se spustily později, pokud nelze spustit okamžitě z důvodu limitů souběžnosti, klikněte na přepínač Fronta v části Upřesnit nastavení. Podívejte se, co když moje úloha nemůže běžet kvůli limitům souběžnosti?
Poznámka:
Fronta je ve výchozím nastavení povolená pro úlohy vytvořené prostřednictvím uživatelského rozhraní po 15. dubnu 2024.
Konfigurace očekávaného času dokončení nebo časového limitu pro úlohu
Pro úlohu můžete nakonfigurovat volitelné prahové hodnoty doby trvání, včetně očekávané doby dokončení úlohy a maximální doby dokončení úlohy. Pokud chcete konfigurovat prahové hodnoty doby trvání, klikněte na Nastavit prahové hodnoty doby trvání.
Pokud chcete pro úlohu nakonfigurovat očekávanou dobu dokončení, zadejte do pole Upozornění očekávanou dobu trvání. Pokud úloha překročí tuto prahovou hodnotu, můžete nakonfigurovat oznámení pro pomalou úlohu. Viz Konfigurace oznámení pro pomalé nebo zpožděné úlohy.
Pokud chcete pro úlohu nakonfigurovat maximální dobu dokončení, zadejte do pole Časový limit maximální dobu trvání. Pokud se úloha tentokrát nedokončí, Azure Databricks nastaví její stav na Časový limit a úloha se zastaví.
Úprava úkolu
Nastavení možností konfigurace úlohy:
- Na bočním panelu klikněte na Pracovní postupy.
- Ve sloupci Název klikněte na název úlohy.
- Klikněte na kartu Úkoly a vyberte úkol, který chcete upravit.
Definování závislostí úkolů
Pořadí provádění úkolů v úloze můžete definovat pomocí rozevírací nabídky Závislé na . Toto pole můžete nastavit na jeden nebo více úkolů v úloze.
Poznámka:
Závisí na tom, na které není vidět, pokud se úloha skládá pouze z jednoho úkolu.
Konfigurace závislostí úkolů vytvoří řízený Acyklické graf (DAG) provádění úkolů, což je běžný způsob reprezentace pořadí provádění v plánovačích úloh. Představte si například následující úlohu, která se skládá ze čtyř úkolů:
- Úkol 1 je kořenový úkol a nezávisí na žádném jiném úkolu.
- Úkol 2 a Úkol 3 závisí na prvním dokončení úkolu 1.
- Úkol 4 nakonec závisí na úspěšném dokončení úkolu 2 a úkolu 3.
Azure Databricks spouští upstreamové úlohy před spuštěním podřízených úloh, které běží co nejvíce paralelně. Následující diagram znázorňuje pořadí zpracování těchto úloh:
Konfigurace clusteru pro úlohu
Pokud chcete nakonfigurovat cluster, ve kterém běží úloha, klikněte na rozevírací nabídku Cluster . Sdílený cluster úloh můžete upravit, ale sdílený cluster nemůžete odstranit, pokud ho stále používají jiné úlohy.
Další informace o výběru a konfiguraci clusterů pro spouštění úloh najdete v tématu Použití výpočetních prostředků Azure Databricks s úlohami.
Konfigurace závislých knihoven
Závislé knihovny se v clusteru nainstalují před spuštěním úlohy. Musíte nastavit všechny závislosti úloh, abyste zajistili, že se nainstalují před spuštěním. Postupujte podle doporučení v části Správa závislostí knihovny pro určení závislostí.
Konfigurace očekávaného času dokončení nebo časového limitu úkolu
Pro úkol můžete nakonfigurovat volitelné prahové hodnoty doby trvání, včetně očekávané doby dokončení úkolu a maximální doby dokončení úkolu. Chcete-li nakonfigurovat prahové hodnoty doby trvání, klikněte na prahovou hodnotu doby trvání.
Pokud chcete nakonfigurovat očekávanou dobu dokončení úkolu, zadejte dobu trvání do pole Upozornění . Pokud úkol překročí tuto prahovou hodnotu, aktivuje se událost. Tuto událost můžete použít k upozornění, když úloha běží pomalu. Viz Konfigurace oznámení pro pomalé nebo zpožděné úlohy.
Chcete-li pro úkol nakonfigurovat maximální dobu dokončení, zadejte do pole Časový limit maximální dobu trvání. Pokud se úkol tentokrát nedokončí, Azure Databricks nastaví jeho stav na Časový limit.
Konfigurace zásad opakování pro úlohu
Chcete-li nakonfigurovat zásadu, která určuje, kdy a kolikrát se neúspěšná spuštění úloh opakují, klikněte na + Přidat vedle opakování. Interval opakování se vypočítá v milisekundách mezi začátkem neúspěšného spuštění a následným spuštěním opakování.
Poznámka:
Pokud nakonfigurujete časový limit i opakování, časový limit platí pro každou opakování.
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro