Konfigurace nastavení pro úlohy Azure Databricks

Tento článek obsahuje podrobnosti o konfiguraci úloh Azure Databricks a jednotlivých úloh v uživatelském rozhraní úloh. Informace o použití rozhraní příkazového řádku Databricks k úpravě nastavení úloh získáte spuštěním příkazu databricks jobs update -hrozhraní příkazového řádku . Další informace o používání rozhraní API pro úlohy najdete v rozhraní API úloh.

Některé možnosti konfigurace jsou v úloze k dispozici a další možnosti jsou k dispozici pro jednotlivé úlohy. Například maximální počet souběžných spuštění lze nastavit pouze v úloze, zatímco zásady opakování jsou definovány pro každou úlohu.

Úprava úlohy

Změna konfigurace pro úlohu:

  1. Na bočním panelu klikněte na Ikona ÚlohPracovní postupy.
  2. Ve sloupci Název klikněte na název úlohy.

Na bočním panelu se zobrazí podrobnosti o úloze. Aktivační událost pro úlohu, konfiguraci výpočetních prostředků, oznámení, maximální počet souběžných spuštění, konfiguraci prahových hodnot doby trvání a přidání nebo změna značek můžete změnit. Pokud je povolené řízení přístupu k úloze, můžete také upravit oprávnění úlohy.

Přidání parametrů pro všechny úkoly úlohy

Můžete nakonfigurovat parametry pro úlohu, která se předává všem úkolům úlohy, které přijímají parametry klíč-hodnota, včetně souborů kol Pythonu nakonfigurovaných tak, aby přijímaly argumenty klíčových slov. Do nakonfigurovaných parametrů na úrovni úlohy se přidají parametry nastavené na úrovni úlohy. Parametry úlohy předané úkolům jsou viditelné v konfiguraci úlohy spolu s libovolnými parametry nakonfigurovanými pro úkol.

Parametry úlohy můžete také předat úkolům, které nejsou nakonfigurované s parametry klíč-hodnota, jako JAR jsou nebo Spark Submit úkoly. Pokud chcete těmto úkolům předat parametry úlohy, naformátujte argumenty jako {{job.parameters.[name]}}nahrazením [name] parametru key , který identifikuje parametr.

Parametry úlohy mají přednost před parametry úkolu. Pokud má parametr úlohy a parametr úkolu stejný klíč, přepíše parametr úlohy parametr úkolu.

Můžete přepsat nakonfigurované parametry úlohy nebo přidat nové parametry úlohy při spuštění úlohy s různými parametry nebo opravit spuštění úlohy.

Kontext úloh a úkolů můžete také sdílet pomocí sady odkazů na dynamické hodnoty.

Chcete-li přidat parametry úlohy, klepněte na tlačítko Upravit parametry na bočním panelu Podrobnosti úlohy a zadejte klíč a výchozí hodnotu každého parametru. Chcete-li zobrazit seznam dostupných odkazů na dynamické hodnoty, klepněte na tlačítko Procházet dynamické hodnoty.

Přidání značek do úlohy

Pokud chcete do úlohy přidat popisky nebo atributy key:value, můžete při úpravě úlohy přidat značky . Značky můžete použít k filtrování úloh v seznamu Úloh. Pomocí značky můžete department například filtrovat všechny úlohy, které patří do konkrétního oddělení.

Poznámka:

Vzhledem k tomu, že značky úloh nejsou navržené tak, aby ukládaly citlivé informace, jako jsou identifikovatelné osobní údaje nebo hesla, doporučuje Databricks používat značky pouze pro necitlivých hodnot.

Značky se také šíří do clusterů úloh vytvořených při spuštění úlohy, což umožňuje používat značky se stávajícím monitorováním clusteru.

Pokud chcete přidat nebo upravit značky, klikněte na bočním panelu Podrobnosti úlohy na tlačítko + Značka. Značku můžete přidat jako klíč a hodnotu nebo popisek. Pokud chcete přidat popisek, zadejte ho do pole Klíč a pole Hodnota nechte prázdné.

Konfigurace sdílených clusterů

Pokud chcete zobrazit úkoly přidružené ke clusteru, klikněte na kartu Úlohy a najeďte myší na cluster na bočním panelu. Chcete-li změnit konfiguraci clusteru pro všechny přidružené úlohy, klepněte na tlačítko Konfigurovat v rámci clusteru. Chcete-li nakonfigurovat nový cluster pro všechny přidružené úlohy, klepněte na tlačítko Prohodit pod clusterem.

Řízení přístupu k úloze

Řízení přístupu k úlohám umožňuje vlastníkům úloh a správcům udělit jemně odstupňovaná oprávnění k jejich úlohám. Vlastníci úloh můžou zvolit, kteří další uživatelé nebo skupiny můžou zobrazit výsledky úlohy. Vlastníci můžou také zvolit, kdo může spravovat spuštění úloh (spustit teď a zrušit oprávnění ke spuštění).

Informace o úrovních oprávnění úlohy najdete v tématu Seznamy ACL úloh.

Abyste mohli spravovat oprávnění k úloze, musíte mít oprávnění CAN MANAGE nebo IS OWNER.

  1. Na bočním panelu klikněte na Spuštění úloh.

  2. Klikněte na název úlohy.

  3. Na panelu Podrobnosti úlohy klikněte na Upravit oprávnění.

  4. V části Oprávnění Nastavení klikněte na rozevírací nabídku Vybrat uživatele, skupinu nebo instanční objekt... a vyberte uživatele, skupinu nebo instanční objekt.

    Dialogové okno Nastavení oprávnění

  5. Klikněte na tlačítko Přidat.

  6. Klikněte na Uložit.

Správa vlastníka úlohy

Ve výchozím nastavení má tvůrce úlohy oprávnění IS OWNER a je uživatelem v nastavení Spustit jako úlohy. Úloha se spustí jako identita uživatele v nastavení Spustit jako . Další informace o nastavení Spustit jako najdete v tématu Spuštění úlohy jako instančního objektu.

Správci pracovního prostoru můžou změnit vlastníka úlohy na sebe. Při převodu vlastnictví se předchozímu vlastníkovi udělí oprávnění MŮŽE SPRAVOVAT.

Poznámka:

RestrictWorkspaceAdmins Když je nastavení v pracovním prostoru nastavenéALLOW ALL, můžou správci pracovního prostoru změnit vlastníka úlohy na libovolného uživatele nebo instančního objektu ve svém pracovním prostoru. Pokud chcete správcům pracovního prostoru omezit jenom změnu vlastníka úlohy na sebe, přečtěte si téma Omezení správců pracovního prostoru.

Konfigurace maximálního počtu souběžných spuštění

Kliknutím na upravit souběžná spuštění v části Upřesnit nastavení nastavíte maximální počet paralelních spuštění pro tuto úlohu. Azure Databricks přeskočí spuštění, pokud úloha už dosáhla maximálního počtu aktivních spuštění při pokusu o spuštění nového spuštění. Nastavte tuto hodnotu vyšší než výchozí hodnota 1, aby souběžně prováděla více spuštění stejné úlohy. To je užitečné například v případě, že úlohu aktivujete často a chcete povolit, aby se po sobě překrývala, nebo chcete aktivovat více spuštění, která se liší podle jejich vstupních parametrů.

Povolení zařadování spuštění úloh do fronty

Chcete-li povolit, aby se spuštění běhů úlohy umístila do fronty, aby se spustily později, pokud nelze spustit okamžitě z důvodu limitů souběžnosti, klikněte na přepínač Fronta v části Upřesnit nastavení. Podívejte se, co když moje úloha nemůže běžet kvůli limitům souběžnosti?

Poznámka:

Fronta je ve výchozím nastavení povolená pro úlohy vytvořené prostřednictvím uživatelského rozhraní po 15. dubnu 2024.

Konfigurace očekávaného času dokončení nebo časového limitu pro úlohu

Pro úlohu můžete nakonfigurovat volitelné prahové hodnoty doby trvání, včetně očekávané doby dokončení úlohy a maximální doby dokončení úlohy. Pokud chcete konfigurovat prahové hodnoty doby trvání, klikněte na Nastavit prahové hodnoty doby trvání.

Pokud chcete pro úlohu nakonfigurovat očekávanou dobu dokončení, zadejte do pole Upozornění očekávanou dobu trvání. Pokud úloha překročí tuto prahovou hodnotu, můžete nakonfigurovat oznámení pro pomalou úlohu. Viz Konfigurace oznámení pro pomalé nebo zpožděné úlohy.

Pokud chcete pro úlohu nakonfigurovat maximální dobu dokončení, zadejte do pole Časový limit maximální dobu trvání. Pokud se úloha tentokrát nedokončí, Azure Databricks nastaví její stav na Časový limit a úloha se zastaví.

Úprava úkolu

Nastavení možností konfigurace úlohy:

  1. Na bočním panelu klikněte na Ikona ÚlohPracovní postupy.
  2. Ve sloupci Název klikněte na název úlohy.
  3. Klikněte na kartu Úkoly a vyberte úkol, který chcete upravit.

Definování závislostí úkolů

Pořadí provádění úkolů v úloze můžete definovat pomocí rozevírací nabídky Závislé na . Toto pole můžete nastavit na jeden nebo více úkolů v úloze.

Úprava závislostí úkolů

Poznámka:

Závisí na tom, na které není vidět, pokud se úloha skládá pouze z jednoho úkolu.

Konfigurace závislostí úkolů vytvoří řízený Acyklické graf (DAG) provádění úkolů, což je běžný způsob reprezentace pořadí provádění v plánovačích úloh. Představte si například následující úlohu, která se skládá ze čtyř úkolů:

Příklad diagramu závislostí úkolů

  • Úkol 1 je kořenový úkol a nezávisí na žádném jiném úkolu.
  • Úkol 2 a Úkol 3 závisí na prvním dokončení úkolu 1.
  • Úkol 4 nakonec závisí na úspěšném dokončení úkolu 2 a úkolu 3.

Azure Databricks spouští upstreamové úlohy před spuštěním podřízených úloh, které běží co nejvíce paralelně. Následující diagram znázorňuje pořadí zpracování těchto úloh:

Příklad toku závislostí úloh

Konfigurace clusteru pro úlohu

Pokud chcete nakonfigurovat cluster, ve kterém běží úloha, klikněte na rozevírací nabídku Cluster . Sdílený cluster úloh můžete upravit, ale sdílený cluster nemůžete odstranit, pokud ho stále používají jiné úlohy.

Další informace o výběru a konfiguraci clusterů pro spouštění úloh najdete v tématu Použití výpočetních prostředků Azure Databricks s úlohami.

Konfigurace závislých knihoven

Závislé knihovny se v clusteru nainstalují před spuštěním úlohy. Musíte nastavit všechny závislosti úloh, abyste zajistili, že se nainstalují před spuštěním. Postupujte podle doporučení v části Správa závislostí knihovny pro určení závislostí.

Konfigurace očekávaného času dokončení nebo časového limitu úkolu

Pro úkol můžete nakonfigurovat volitelné prahové hodnoty doby trvání, včetně očekávané doby dokončení úkolu a maximální doby dokončení úkolu. Chcete-li nakonfigurovat prahové hodnoty doby trvání, klikněte na prahovou hodnotu doby trvání.

Pokud chcete nakonfigurovat očekávanou dobu dokončení úkolu, zadejte dobu trvání do pole Upozornění . Pokud úkol překročí tuto prahovou hodnotu, aktivuje se událost. Tuto událost můžete použít k upozornění, když úloha běží pomalu. Viz Konfigurace oznámení pro pomalé nebo zpožděné úlohy.

Chcete-li pro úkol nakonfigurovat maximální dobu dokončení, zadejte do pole Časový limit maximální dobu trvání. Pokud se úkol tentokrát nedokončí, Azure Databricks nastaví jeho stav na Časový limit.

Konfigurace zásad opakování pro úlohu

Chcete-li nakonfigurovat zásadu, která určuje, kdy a kolikrát se neúspěšná spuštění úloh opakují, klikněte na + Přidat vedle opakování. Interval opakování se vypočítá v milisekundách mezi začátkem neúspěšného spuštění a následným spuštěním opakování.

Poznámka:

Pokud nakonfigurujete časový limit i opakování, časový limit platí pro každou opakování.