Monitorování a dohledatelnost pro úlohy Lakeflow

Tento článek popisuje funkce dostupné v uživatelském rozhraní Azure Databricks pro zobrazení úloh, ke kterým máte přístup, zobrazení historie spuštění úloh a zobrazení podrobností o spuštěních úloh. Pokud chcete nakonfigurovat oznámení pro úlohy, přečtěte si téma Přidání oznámení doúlohy .

Pokud chcete zjistit, jak pomocí rozhraní příkazového řádku Databricks zobrazit úlohy a spouštět úlohy, spusťte příkazy databricks jobs list -hrozhraní příkazového řádku a databricks jobs get -hdatabricks jobs run-now -h. Další informace o používání rozhraní API pro úlohy najdete v dokumentaci Jobs API.

Pokud máte přístup ke schématu system.lakeflow , můžete také zobrazit a dotazovat záznamy spuštění úloh a úkolů z celého účtu. Viz Referenční informace k systémové tabulce úloh. Systémové tabulky úloh můžete také spojit s fakturačními tabulkami, abyste mohli monitorovat náklady na úlohy napříč vaším účtem. Viz Monitorování nákladů na úlohy & výkonu pomocí systémových tabulek.

Zobrazení úloh a procesů

Pokud chcete zobrazit seznam úloh, ke kterým máte přístup, klikněte na ikonu Pracovní postupy.Úlohy a kanály na bočním panelu Karta Úlohy a kanály v uživatelském rozhraní úloh Lakeflow obsahuje informace o všech dostupných úlohách a kanálech, jako je tvůrce, trigger (pokud existuje) a výsledek posledních pěti spuštění.

Chcete-li změnit sloupce zobrazené v seznamu, klikněte na ikonu Nastavení sloupce a vyberte nebo zrušte výběr sloupců.

Důležitý

Jednotný seznam úloh a kanálů je ve verzi Public Preview. Tuto funkci můžete zakázat a vrátit se k výchozímu prostředí zakázáním úloh a kanálů: Sjednocená správa, vyhledávání a filtrování. Další informace najdete v tématu Správa verzí Preview služby Azure Databricks .

Úlohy můžete filtrovat v seznamu Úlohy a kanály , jak je znázorněno na následujícím snímku obrazovky.

zobrazení seznamu úloh s poznámkami

  1. Hledání textu: Hledání klíčových slov je podporováno pro pole Název a ID úlohy . Pokud chcete vyhledat značku vytvořenou pomocí klíče a hodnoty, můžete hledat podle klíče, hodnoty nebo klíče i hodnoty. Například pro značku s klíčem department a hodnotou finance můžete vyhledat department nebo finance, abyste našli odpovídající úlohy. Pokud chcete hledat podle klíče a hodnoty, zadejte klíč a hodnotu oddělenou dvojtečku (například department:finance).
  2. Typ: Vyberte pouze úlohy, potrubí nebo všechny.
  3. Vlastník: Vyberte pouze úlohy nebo kanály, které vlastníte.
  4. Oblíbené: Vyberte všechny úlohy nebo datové toky, které jste označili jako oblíbené.
  5. Značky: Používejte značky. Pokud chcete hledat podle značky, můžete použít rozevírací nabídku značek k filtrování až pěti značek najednou nebo přímo použít vyhledávání klíčových slov.
  6. Spustit jako: Filtrovat podle až dvou run as hodnot.

Pokud chcete spustit úlohu nebo kanál, klikněte na tlačítko ikona přehrávání. Pokud chcete pracovní postup zastavit, klikněte na tlačítko Zastavit ikonu zastavení. Pokud chcete získat přístup k dalším akcím, klikněte na ikonu nabídky Kebab. Můžete například odstranit pracovní postup nebo nastavení pro potrubí z této nabídky.

View se spouští pro jednu úlohu

Můžete zobrazit seznam aktuálně spuštěných a nedávno dokončených spuštění pro úlohu, ke které máte přístup, včetně spuštění spuštěných externími orchestračními nástroji, jako je Apache Airflow nebo Azure Data Factory. Zobrazení seznamu posledních spuštění úloh:

  1. Na bočním panelu pracovního prostoru Azure Databricks klikněte na Úlohy a kanály.

  2. Volitelně můžete vybrat filtry Práce a Vlastním.

  3. Klikněte na odkaz Název vaší úlohy.

    Záložka Spuštění se zobrazí s maticovým a seznamovým zobrazením pro aktivní a dokončené spuštění.

Zobrazení matice zobrazuje historii spuštění pro úlohu, včetně každého úkolu úlohy.

zobrazení matice úloh.

Řádek doby trvání spuštění v matici zobrazuje celkovou dobu trvání spuštění a stav spuštění. Pokud chcete zobrazit podrobnosti o spuštění, včetně času zahájení, doby trvání a stavu, umístěte kurzor na pruh v řádku Celková doba trvání spuštění.

Každá buňka v řádku Úkoly představuje úkol a odpovídající stav úkolu. Pokud chcete zobrazit podrobnosti o jednotlivých úkolech, včetně času spuštění, doby trvání, clusteru a stavu, najeďte myší na buňku pro daný úkol.

Pruhy spuštění úloh a úkolů jsou barevně označené, aby označovaly průběh. Úspěšné běhy jsou zelené. Neúspěšné běhy jsou červené, přeskočené běhy jsou růžové a čekání na opakování je označeno žlutou. Čekající, zrušené nebo vypršené jsou šedé. Výška jednotlivých spuštění úloh a pruhů spuštění úloh vizuálně označuje dobu trvání spuštění.

Pokud jste nakonfigurovali očekávanou dobu dokončení, zobrazí se v maticovém zobrazení upozornění, když doba trvání běhu překročí nakonfigurovaný čas.

Ve výchozím nastavení se v zobrazení seznamu běhů zobrazí následující:

  • Čas spuštění běhu.
  • Identifikátor spuštění. Informace o tom, jak najít a sdílet adresu URL spuštění, najdete v tématu Adresa URL a ID spuštění úlohy .
  • Jestli se spuštění aktivovalo podle plánu úlohy nebo požadavku rozhraní API, nebo se spustilo ručně.
  • Čas uplynulý pro aktuálně spuštěnou úlohu nebo celkovou dobu běhu dokončené úlohy. Pokud doba trvání překročí nakonfigurovanou očekávanou dobu dokončení, zobrazí se upozornění.
  • Stav spuštění, buď ve frontě, Čekající, Spuštěné, Přeskočené, Úspěšné, Neúspěšné, Vypršelo, Ruší se, nebo Zrušeno.
  • Kód chyby, se kterým se spuštění ukončilo.
  • Parametry spuštění.

Aktuálně aktivní běhy zobrazují tlačítko zastavení. Pokud chcete zastavit všechna aktivní spuštění a spuštění ve frontě, vyberte Zrušit spuštění nebo Zrušit všechna spuštění ve frontě z rozevírací nabídky.

Použijte ikonu nabídky Kebab. Pokud chcete spustit další kontextové akce, jako je například odstranění položek dokončených spuštění.

Pokud chcete získat přístup k kontextovým akcím spuštění, klikněte na ikonu nabídky Kebabu. (například pokud chcete zastavit aktivní spuštění nebo odstranit dokončené spuštění).

Chcete-li změnit sloupce zobrazené v zobrazení seznamu spuštění, klikněte na Ikona nastavení a vyberte nebo zrušte výběr sloupců.

Pokud chcete zobrazit podrobnosti o spuštění úlohy, klikněte na odkaz spuštění ve sloupci Čas zahájení v zobrazení seznamu spuštění. Pokud chcete zobrazit podrobnosti o posledním úspěšném spuštění této úlohy, klikněte na Přejít na nejnovější úspěšné spuštění.

Azure Databricks udržuje historii vaší úlohy po dobu až 60 dnů. Pokud potřebujete zachovat spuštění úloh, Databricks doporučuje exportovat výsledky před vypršením jejich platnosti. Pokud chcete získat další informace, podívejte se na Výsledky spuštění úlohy exportu.

Zobrazení podrobností o spuštění úlohy

Stránka podrobností o spuštění úlohy obsahuje výstup úlohy a odkazy na protokoly, včetně informací o úspěchu nebo selhání jednotlivých úloh při spuštění úlohy. K podrobnostem o spuštění úlohy se dostanete z karty Spuštění úlohy.

Pokud chcete zobrazit podrobnosti spuštění úlohy na kartě Spuštění , klikněte na odkaz pro spuštění ve sloupci Čas zahájení v zobrazení seznamu spuštění. Chcete-li se vrátit na záložku Spuštění úlohy, klikněte na ID úlohy.

Úlohy s více úkoly navíc obsahují graf, časovou osu a zobrazení seznamu.

Zobrazení grafu

Kliknutím na uzel úkolu v grafu zobrazíte podrobnosti o spuštění úlohy, včetně:

  • Podrobnosti o úkolu, včetně uživatele, pod kterým bylo spuštěno, způsobu spuštění úlohy, času zahájení, času ukončení, doby trvání a stavu.
  • Zdrojový kód.
  • Cluster, který spustil úlohu, a odkazuje na jeho historii a protokoly dotazů.
  • Metriky pro úkol

zobrazení grafu Úlohy

Zobrazení časové osy

Úlohy, které obsahují více úkolů, mají zobrazení časové osy pro identifikaci úkolů, které zabírají více času, pochopení závislostí a překrývání, což pomáhá ladit a optimalizovat tyto úlohy.

zobrazení časové osy prací

Zobrazení seznamu

Ve výchozím nastavení se v zobrazení seznamu zobrazuje stav, název, typ, prostředek, doba trvání a závislosti. V tomto zobrazení můžete přidávat a odebírat sloupce.

Úkol můžete vyhledat podle názvu, filtrovat podle stavu úkolu nebo typu úkolu a řadit úkoly podle stavu, názvu nebo doby trvání.

Kliknutím na ID úlohy se vrátíte na záložku Spuštění pro úlohu.

zobrazení seznamu úloh.

Jak Azure Databricks určuje stav spuštění úlohy?

Azure Databricks určuje, jestli bylo spuštění úlohy úspěšné na základě výsledku listových úkolů úlohy. Listový úkol je úkol, který nemá žádné podřízené závislosti. Spuštění úlohy může mít jeden ze tří výsledků:

  • Úspěšné: Všechny úkoly byly úspěšné.
  • Úspěch s chybami: Některé úlohy selhaly, ale všechny listové úkoly byly úspěšné.
  • Nezdařilo se: Jeden nebo více listových úkolů se nezdařilo.
  • Vynecháno: Spuštění úlohy bylo vynecháno (například úloha může být vynechána, protože jste překročili maximální počet souběžných spuštění pro vaši úlohu nebo pracovní prostor).
  • Časový limit: Dokončení úlohy trvalo příliš dlouho a vypršel časový limit.
  • Zrušeno: Spuštění úlohy bylo zrušeno (například uživatel ručně zrušil probíhající spuštění).

Jednotlivé úkoly se také můžou ukončit se stavem Disabled, když je explicitně zakážete v nastavení úlohy, nebo když je úlohy Lakeflow zakážou pro daný běh kvůli zakázanému úkolu na vyšší úrovni. Zakázané úkoly zobrazují ikonu Velký kruh s přeškrtnutím. V pravém horním rohu DAG. Viz Zakázané úkoly v úlohách Lakeflow.

Zobrazení metrik pro úlohy streamování

Důležitý

Pozorovatelnost streamování pro úlohy Lakeflow je ve verzi Public Preview.

Při zobrazení podrobností o spuštění úlohy můžete získat data o streamovaných úlohách s metrikami pozorovatelnosti streamování v uživatelském rozhraní úloh. Mezi tyto metriky patří sekundy backlogu, bajty backlogu, záznamy backlogu a soubory backlogu pro zdroje podporované strukturovaným streamováním Sparku, včetně Apache Kafka, Amazon Kinesis, Auto Loader, Google Pub/Sub a tabulek Delta. Metriky se zobrazují jako grafy v pravém podokně, když zobrazíte podrobnosti o běhu úkolu. Metriky zobrazené v jednotlivých grafech jsou maximální hodnoty agregované po minutách a můžou zahrnovat až předchozí 48 hodin.

Každý zdroj streamování podporuje pouze konkrétní metriky. Metriky, které zdroj streamování nepodporuje, nejsou k dispozici pro zobrazení v uživatelském rozhraní. Následující tabulka uvádí metriky dostupné pro podporované zdroje streamování:

odeslat k provedení bajty backlogu záznamy nevyřízených úkolů sekundy backlogu backlogové soubory
Kafka
Kineze
Delta
Automatický zavaděč
Google Pub/Sub (služba pro zasílání zpráv)

Můžete také zadat prahové hodnoty pro každou metriku streamování a nakonfigurovat oznámení, pokud datový proud překročí prahovou hodnotu během spuštění úlohy. Viz Konfigurace oznámení pro pomalé úlohy.

Zobrazení metrik streamování pro spuštění úlohy, která streamuje data z některého z podporovaných zdrojů strukturovaného streamování:

  1. Na stránce Podrobnosti o spuštění úlohy klikněte na úlohu, pro kterou chcete zobrazit metriky.
  2. Klikněte na kartu Metriky v podokně Spuštění úlohy.
  3. Pokud chcete otevřít graf metriky, klikněte na pravou šipku vedle názvu metriky.
  4. Pokud chcete zobrazit metriky pro konkrétní datový proud, zadejte ID datového proudu do textového pole Filtrovat podle stream_id. ID streamu najdete ve výstupu pro běh úlohy.
  5. Pokud chcete změnit časové období pro grafy metrik, použijte rozevírací nabídku času.
  6. Chcete-li procházet datové proudy, když běh obsahuje více než deset proudů, klikněte na Další nebo Předchozí.

Omezení pozorovatelnosti streamování

  • Metriky se aktualizují každou minutu, pokud spuštění nemá více než čtyři streamy. Pokud má běh více než čtyři streamy, metriky se aktualizují každých pět minut.
  • Metriky se shromažďují pouze pro prvních padesát datových proudů při každém spuštění.
  • Metriky se shromažďují v jednomsekundovém intervalu. Metriky nemusí být viditelné, pokud je vaše triggerInterval nastavení menší než jedna sekunda.
  • Většina zdrojů dat ve výchozím nastavení shromažďuje metriky streamování. Pro ostatní však musíte tuto funkci povolit. Pokud váš zdroj dat neshromažďuje metriky streamování, nastavte spark.sql.streaming.metricsEnabled flag na True hodnotu.

Zobrazení historie spuštění úlohy

Zobrazení historie spuštění úlohy, včetně úspěšných a neúspěšných spuštění:

  1. Klikněte na úkol na stránce s podrobnostmi o spuštění úlohy. Zobrazí se stránka s podrobnostmi o spuštění úlohy.
  2. V rozevírací nabídce historie spuštění vyberte spuštění úlohy.

Zobrazení historie spuštění úlohy pro úlohu For each

Přístup k historii spuštění úlohy For each je stejný jako standardní úloha Lakeflow Jobs. Na stránce For each nebo na odpovídající buňce v maticovém zobrazení můžete kliknout na uzel úkolu. Na rozdíl od standardní úlohy se však podrobnosti o spuštění úkolu For each zobrazí jako tabulka iterací vnořené úlohy.

Pokud chcete zobrazit pouze neúspěšné iterace, klikněte na pouze neúspěšné iterace.

Pokud chcete zobrazit výstup iterace, klikněte na počáteční nebokoncové hodnoty iterace.

úlohy pro každou historii spuštění úloh.

Zobrazit nedávná spuštění úloh napříč všemi úlohami

Důležitý

Tato funkce je ve verzi Public Preview.

Můžete zobrazit seznam aktuálně spuštěných a nedávno dokončených spuštění pro všechny úlohy v pracovním prostoru, ke kterému máte přístup, včetně spuštění spuštěných externími orchestračními nástroji, jako je Apache Airflow nebo Azure Data Factory. Zobrazení seznamu posledních spuštění úloh:

  1. Klikněte na ikonu Pracovní postupy.Úlohy a kanály na bočním panelu
  2. Kliknutím na kartu Výsledky zobrazíte graf počtu dokončených spuštění a seznam spuštění úloh a potrubí.
  3. (Volitelné) Kliknutím na Úlohy můžete filtrovat jenom úlohy.

Poznámka:

Pokud máte zakázaný sjednocený náhled seznamu spuštění, pak se karta nazývá Spuštění úloh a zobrazí se pouze seznam spuštění úloh.

Sjednocený seznam spuštění

Seznam spuštění obsahuje možnosti filtrování v horní části, graf nedávno dokončených spuštění a prvních 5 chyb a seznam nedávno dokončených spuštění.

Můžete filtrovat podle:

  • Název úlohy nebo potrubí
  • Všechny, úlohy nebo potrubí.
  • Typ kanálu (ETL, Příjem dat, MV/ST nebo Synchronizace tabulek databáze).
  • Spustit jako uživatel.
  • Čas zahájení (za posledních 48 hodin).
  • Stav spuštění.
  • Kód chyby pro neúspěšná spuštění.

Filtry se vztahují na graf, kódy chyb a seznam spuštění.

Graf počtu dokončených spuštění

Graf počtu dokončených spuštění zobrazuje počet dokončených spuštění úloh za posledních 48 hodin. Ve výchozím nastavení graf zobrazuje neúspěšné, přeskočené a úspěšné běhy úloh. Graf můžete také filtrovat tak, aby zobrazoval konkrétní stavy spuštění nebo omezil graf na konkrétní časový rozsah. Karta Spuštění obsahuje také tabulku spuštění úloh za posledních 67 dnů. Ve výchozím nastavení obsahuje tabulka podrobnosti o neúspěšných, přeskočených a úspěšných spuštěních úloh.

graf počtu dokončených spuštění úloh

Poznámka:

Graf počtu dokončených spuštění se zobrazuje pro správce pro všechna spuštění. Pro uživatele bez admin práv musíte kliknout na Spustit jako a pak vybrat .

Filtry v horní části karty Běhy platí pro graf.

Pokud chcete omezit časový rozsah zobrazený v grafu počtu dokončených spuštění , můžete ve výše uvedeném filtru vybrat časový rozsah. Případně můžete kliknutím a přetažením kurzoru v grafu vybrat časový rozsah. Graf a tabulka spuštění se aktualizují tak, aby zobrazovaly spuštění pouze z vybraného časového rozsahu.

Tabulka nejčastějších typů chyb zobrazuje seznam nejčastějších typů chyb z vybraného časového rozsahu, který umožňuje rychle zobrazit nejčastější příčiny problémů s úlohami ve vašem pracovním prostoru.

Seznam spuštění úloh

Záložka Běhy úloh také obsahuje tabulku běhů úloh za posledních 60 dnů. Ve výchozím nastavení obsahuje tabulka podrobnosti o neúspěšných, přeskočených a úspěšných spuštěních úloh.

seznam provedených úloh.

Filtry v horní části záložky Běhy se vztahují na seznam.

Ve výchozím nastavení se v tabulce spuštění zobrazí následující seznam spuštění:

  • Čas spuštění běhu.
  • Název úlohy přidružené k běhu.
  • Typ (úloha nebo Pipeline) běhu.
  • Uživatelské jméno, pod kterým je úloha spuštěna.
  • Jak se spuštění aktivovalo (spustilo), podle plánu úlohy nebo požadavku rozhraní API nebo se spustilo ručně.
  • Čas uplynulý pro aktuálně spuštěnou úlohu nebo celkovou dobu běhu dokončené úlohy. Pokud doba trvání překročí nakonfigurovanou očekávanou dobu dokončení, zobrazí se upozornění.
  • Stav spuštění: Zařazené do fronty, Čekající, Spuštěné, Přeskočeno, Úspěšné, Neúspěšné, Vypršení časového limitu, Zrušenínebo Zrušeno.
  • Jakýkoli kód chyby, se kterým se spuštění ukončilo.
  • Všechny parametry spuštění.
  • Pokud chcete zastavit spuštěnou úlohu, klikněte na tlačítko Zastavit. Pokud chcete získat přístup k akcím úlohy, klikněte na ikonu nabídky Kebab. (například pokud chcete zastavit aktivní spuštění nebo odstranit dokončené spuštění).

Chcete-li změnit sloupce zobrazené v seznamu spuštění, klikněte na ikonu Sloupce a vyberte nebo zrušte výběr sloupců.

Pokud chcete zobrazit podrobnosti o spuštění úlohy, klikněte na odkaz ve sloupci Čas zahájení pro spuštění. Chcete-li zobrazit podrobnosti úlohy, klikněte na název úlohy ve sloupci Úloha .

Zobrazení informací o rodokmenu pro úlohu

Pokud je v pracovním prostoru povolen katalog Unity, můžete zobrazit informace o původu dat pro všechny tabulky katalogu Unity v pracovních postupech. Pokud jsou pro váš pracovní postup k dispozici informace o provenienci, zobrazí se odkaz s počtem nadřazených a podřízených tabulek na panelu podrobností úlohy pro vaši úlohu, panelu podrobností spuštění úlohy pro spuštění úlohy nebo panelu podrobností spuštění úkolu pro spuštění úkolu. Kliknutím na odkaz zobrazíte seznam tabulek. Kliknutím na tabulku zobrazíte podrobné informace v Průzkumníku katalogu.

Zobrazení úlohy vytvořené pomocí deklarativních automatizačních balíčků a její spuštění

Pomocí uživatelského rozhraní úloh Lakeflow můžete zobrazit a spustit úlohy nasazené deklarativními sadami automatizace. Ve výchozím nastavení jsou tyto úlohy v uživatelském rozhraní úloh jen pro čtení. Pokud chcete upravit úlohu nasazenou sadou, změňte konfigurační soubor sady a znovu ji nasaďte. Použití změn pouze u konfigurace sady zajišťuje, že zdrojové soubory sady vždy zaznamenávají aktuální konfiguraci úlohy.

Pokud ale musíte provést okamžité změny úlohy, můžete úlohu odpojit od konfigurace sady a povolit úpravy nastavení úlohy v uživatelském rozhraní. Chcete-li úlohu odpojit, klepněte na tlačítko Odpojit od zdroje. V dialogovém okně Odpojit od zdroje potvrďte kliknutím na Odpojit .

Všechny změny provedené v úloze v uživatelském rozhraní se na konfiguraci sady nepoužijí. Pokud chcete u sady použít změny, které provedete v uživatelském rozhraní, musíte konfiguraci sady aktualizovat ručně. Pokud chcete úlohu znovu připojit ke konfiguraci sady prostředků, znovu ji nasaďte pomocí sady.

Export výsledků spuštění úlohy

Výsledky spuštění poznámkového bloku a protokoly spuštění úloh můžete exportovat pro všechny typy úloh.

Export výsledků spuštění poznámkového bloku

Můžete zachovat běhy úloh exportováním jejich výsledků. U spuštění úloh poznámkového bloku můžete exportovat vykreslený poznámkový blok, který je možné později importovat do pracovního prostoru Azure Databricks.

Export výsledků spuštění poznámkového bloku pro úlohu s jednou úlohou:

  1. Na stránce podrobností úlohy klikněte na odkaz Zobrazit podrobnosti pro spuštění ve sloupci Spustit v tabulce Dokončená spuštění (posledních 60 dnů).
  2. Klikněte na Exportovat do HTML.

Export výsledků spuštění poznámkového bloku pro úlohu s více úlohami:

  1. Na stránce podrobností úlohy klikněte na odkaz Zobrazit podrobnosti pro spuštění ve sloupci Spustit v tabulce Dokončená spuštění (posledních 60 dnů).
  2. Klikněte na úkol poznámkového bloku, který chcete exportovat.
  3. Klikněte na Exportovat do HTML.

Export protokolů spuštění úlohy

Můžete také exportovat protokoly pro spuštění úlohy. Úlohu můžete nastavit tak, aby automaticky doručila protokoly do DBFS při konfiguraci výpočetních úloh (viz referenční informace o konfiguraci Compute) nebo prostřednictvím rozhraní API úloh. Prohlédněte si new_cluster.cluster_log_conf objekt v textu požadavku předaný operaci Vytvořit novou úlohu (POST /jobs/create) v rozhraní API úloh.