Zobrazení výpočetních metrik

Tento článek vysvětluje, jak pomocí nativního nástroje pro výpočetní metriky v uživatelském rozhraní Azure Databricks shromáždit klíčový hardware a metriky Sparku. Všechny výpočetní prostředky, které používají Databricks Runtime 13.3 LTS a vyšší, mají ve výchozím nastavení přístup k těmto metrikám.

Metriky jsou k dispozici téměř v reálném čase s normálním zpožděním kratším než jednu minutu. Metriky se ukládají v úložišti spravovaném službou Azure Databricks, ne v úložišti zákazníka.

Přístup k uživatelskému rozhraní výpočetních metrik

Zobrazení uživatelského rozhraní výpočetních metrik:

  1. Na bočním panelu klikněte na Výpočty .
  2. Klikněte na výpočetní prostředek, pro který chcete zobrazit metriky.
  3. Klikněte na kartu Metriky .

Metriky clusteru za posledních 24 hodin

Ve výchozím nastavení se zobrazují hardwarové metriky. Pokud chcete zobrazit metriky Sparku, klikněte na rozevírací seznam s popiskem Hardware a vyberte Spark. Pokud je instance povolená gpu, můžete také vybrat GPU .

Filtrování metrik podle časového období

Historické metriky můžete zobrazit výběrem časového rozsahu pomocí filtru pro výběr data. Metriky se shromažďují každou minutu, takže můžete filtrovat podle libovolného rozsahu dne, hodiny nebo minuty za posledních 30 dnů. Kliknutím na ikonu kalendáře můžete vybrat z předdefinovaných oblastí dat nebo kliknutím do textového pole definovat vlastní hodnoty.

Poznámka:

Časové intervaly zobrazené v grafech se upravují podle doby, po kterou si prohlížíte. Většina metrik je průměrů na základě časového intervalu, který si právě prohlížíte.

Nejnovější metriky můžete získat také kliknutím na tlačítko Aktualizovat .

Zobrazení metrik na úrovni uzlu

Metriky pro jednotlivé uzly můžete zobrazit kliknutím na rozevírací seznam Compute a výběrem uzlu, pro který chcete zobrazit metriky.

Poznámka:

Metriky GPU jsou k dispozici pouze na úrovni jednotlivých uzlů. Metriky Sparku nejsou k dispozici pro jednotlivé uzly.

Grafy metrik procesoru

Následující grafy metrik procesoru jsou k dispozici pro zobrazení v uživatelském rozhraní výpočetních metrik:

  • Využití procesoru: Procento času stráveného procesorem v jednotlivých režimech na základě celkových nákladů na procesor v sekundách. Metrika se zprůměruje podle toho, který časový interval se v grafu zobrazí. Sledované režimy jsou následující:
    • host: Pokud používáte virtuální počítače, procesor, který tyto virtuální počítače používají
    • iowait: Čas strávený čekáním na vstupně-výstupní operace
    • Nečinnost: Čas, kdy procesor neměl nic společného
    • irq: Čas strávený na žádostech o přerušení
    • nice: Čas používaný procesy, které mají pozitivní niceness, což znamená nižší prioritu než jiné úkoly
    • softirq: Čas strávený na žádostech o přerušení softwaru
    • ukrást: Pokud jste virtuální počítač, čas, aby ostatní virtuální počítače "ukradly" z procesorů
    • system: Doba strávená v jádru
    • user: Doba strávená v uživatelské oblasti
  • Využití paměti: Celkové využití paměti v jednotlivých režimech měřené v bajtech a vyprůměrované na základě toho, který časový interval se v grafu zobrazí. Sledují se následující typy použití:
    • used: Využitá paměť (včetně paměti používané procesy na pozadí běžícími na výpočetních prostředcích)
    • free: Nepoužitá paměť
    • vyrovnávací paměť: Paměť používaná vyrovnávacími paměťmi jádra
    • cached: Paměť používaná mezipamětí systému souborů na úrovni operačního systému
  • Využití prohození paměti: Celkové využití prohození paměti v jednotlivých režimech měřené v bajtech a vyprůměrované na základě toho, který časový interval se v grafu zobrazí.
  • Volné místo systému souborů: Celkové využití systému souborů jednotlivými přípojnými body měřené v bajtech a vyprůměrované na základě toho, který časový interval se v grafu zobrazuje.
  • Přijato prostřednictvím sítě: Počet bajtů přijatých prostřednictvím sítě jednotlivými zařízeními, vyprůměrovaný podle toho, který časový interval se v grafu zobrazí.
  • Přenášeno prostřednictvím sítě: Počet bajtů přenášených prostřednictvím sítě jednotlivými zařízeními, vyprůměrovaný podle toho, který časový interval se v grafu zobrazí.
  • Počet aktivních uzlů: Zobrazí se počet aktivních uzlů v každém časovém razítku daného výpočetního objektu.

Grafy metrik Sparku

Následující grafy metrik Sparku jsou k dispozici pro zobrazení v uživatelském rozhraní výpočetních metrik:

  • Aktivní úkoly: Celkový počet úkolů, které se v daném okamžiku provádějí, se v grafu vyprůměruje podle toho, který časový interval se zobrazí.
  • Celkový počet neúspěšných úkolů: Celkový počet úkolů, které selhaly v exekutorech, se vyprůměruje podle toho, který časový interval se v grafu zobrazí.
  • Celkový počet dokončených úkolů: Celkový počet dokončených úkolů v exekutorech, vyprůměrovaný na základě toho, který časový interval se zobrazí v grafu.
  • Celkový počet úkolů: Celkový počet všech úkolů (spuštěných, neúspěšných a dokončených) v exekutorech, vyprůměrovaný podle toho, který časový interval se zobrazí v grafu.
  • Celkový počet čtení náhodného náhodného prohazování: Celková velikost dat náhodného čtení měřená v bajtech a průměrovaná na základě toho, který časový interval se v grafu zobrazí. Shuffle read znamená součet serializovaných přečtených dat na všech exekutorech na začátku fáze.
  • Celkový zápis náhodného náhodného prohazování: Celková velikost zahazování zapisovaných dat měřená v bajtech a průměrovaná na základě toho, který časový interval se v grafu zobrazí. Shuffle Write je součet všech zapsaných serializovaných dat na všech exekutorech před přenosem (obvykle na konci fáze).
  • Celková doba trvání úkolu: Celkový uplynulý čas strávený spouštěním úkolů na exekutorech, měřený v sekundách a vyprůměrovaný na základě toho, který časový interval se v grafu zobrazí.

Grafy metrik GPU

Následující grafy metrik GPU jsou k dispozici pro zobrazení v uživatelském rozhraní výpočetních metrik:

  • Využití dekodéru GPU: Procento využití dekodéru GPU, vyprůměrované podle toho, jaký časový interval se v grafu zobrazuje.
  • Využití kodéru PODLE GPU: Procento využití kodéru GPU, vyprůměrované podle toho, jaký časový interval se v grafu zobrazuje.
  • Bajty využití paměti vyrovnávací paměti podle GPU: Využití paměti vyrovnávací paměti rámce měřené v bajtech a průměrované na základě toho, který časový interval se v grafu zobrazí.
  • Využití paměti gpu: Procento využití paměti GPU, vyprůměrované podle toho, jaký časový interval se v grafu zobrazuje.
  • Využití podle GPU: Procento využití GPU, vyprůměrované podle toho, jaký časový interval se v grafu zobrazuje.

Řešení problému

Pokud se na určité období zobrazí neúplné nebo chybějící metriky, může to být jeden z následujících problémů:

  • Výpadek ve službě Databricks zodpovědný za dotazování a ukládání metrik.
  • Problémy se sítí na straně zákazníka
  • Výpočetní prostředky jsou nebo byly ve špatném stavu.