Wyświetlanie metryk obliczeniowych

W tym artykule wyjaśniono, jak używać natywnego narzędzia metryk obliczeniowych w interfejsie użytkownika usługi Azure Databricks do zbierania kluczowych metryk sprzętu i platformy Spark. Interfejs użytkownika metryk jest dostępny dla ogólnych oraz zadaniowych środowisk obliczeniowych.

Metryki klastra z ostatnich 24 godzin

Metryki są dostępne niemal w czasie rzeczywistym z normalnym opóźnieniem krótszym niż minuta. Metryki są przechowywane w magazynie zarządzanym przez usługę Azure Databricks, a nie w magazynie klienta.

Obliczenia bezserwerowe dla notatników i zadań używają wyników zapytań zamiast UI metryk. Aby uzyskać więcej informacji na temat metryk obliczeniowych bezserwerowych, zobacz Wyświetlanie szczegółowych informacji o zapytaniach.

Uzyskiwanie dostępu do interfejsu użytkownika metryk obliczeniowych

Aby wyświetlić interfejs użytkownika do metryk obliczeniowych:

  1. Kliknij Oblicz na pasku bocznym.
  2. Kliknij zasób obliczeniowy, dla którego chcesz wyświetlić metryki.
  3. Kliknij kartę Metryki .

Metryki sprzętu dla wszystkich węzłów są domyślnie wyświetlane. Aby wyświetlić metryki platformy Spark, kliknij menu rozwijane z etykietą Sprzęt i wybierz pozycję Spark. Możesz również wybrać GPU, jeśli instancja obsługuje GPU.

Filtrowanie metryk według okresu

Metryki historyczne można wyświetlić, wybierając zakres czasu przy użyciu filtru selektora dat. Metryki są zbierane co minutę, dzięki czemu można filtrować według dowolnego zakresu dnia, godziny lub minuty z ostatnich 30 dni. Kliknij ikonę kalendarza, aby wybrać z wstępnie zdefiniowanych zakresów danych, lub kliknij wewnątrz pola tekstowego, aby zdefiniować wartości niestandardowe.

Uwaga

Interwały czasu wyświetlane na wykresach są dostosowywane na podstawie czasu wyświetlania. Większość metryk to średnie na podstawie aktualnie wyświetlanego interwału czasu.

Możesz również pobrać najnowsze metryki, klikając przycisk Odśwież .

Wyświetlanie metryk na poziomie węzła

Domyślnie na stronie metryk są wyświetlane metryki dla wszystkich węzłów w klastrze (w tym także węzeł sterujący), uśrednionych w danym okresie czasu.

Metryki dla poszczególnych węzłów można wyświetlić, klikając menu rozwijane Wszystkie węzły i wybierając węzeł, dla którego chcesz wyświetlić metryki. Metryki procesora GPU są dostępne tylko na poziomie poszczególnych węzłów. Metryki platformy Spark nie są dostępne dla poszczególnych węzłów.

Aby ułatwić identyfikację węzłów odstaających w klastrze, można również wyświetlić metryki dla wszystkich poszczególnych węzłów na jednej stronie. Aby uzyskać dostęp do tego widoku, kliknij menu rozwijane Wszystkie węzły i wybierz pozycję Według węzła, a następnie wybierz podkategorię metryki, którą chcesz wyświetlić.

Metryki klastra według węzła w ciągu ostatnich 24 godzin

Wykresy metryk sprzętu

Następujące wykresy metryk sprzętu są dostępne do wyświetlenia w interfejsie użytkownika metryk obliczeniowych:

  • Użycie procesora CPU i aktywne węzły: wykres liniowy wyświetla liczbę aktywnych węzłów przy każdym znaczniku czasu dla danego obliczenia. Wykres słupkowy przedstawia procent czasu, jaki procesor CPU spędzał w każdym trybie, bazując na całkowitym koszcie czasu CPU w sekundach. Poniżej przedstawiono tryby śledzone:
    • guest: Jeśli uruchamiasz maszyny wirtualne, procesor CPU używany przez te maszyny wirtualne
    • iowait: Czas spędzony na oczekiwaniu na I/O
    • idle: Czas, gdy procesor był bezczynny
    • irq: Czas spędzony na żądaniach przerwania
    • nice: Czas używany przez procesy, które mają pozytywną niceę, co oznacza niższy priorytet niż inne zadania
    • softirq: Czas spędzony na żądaniach przerwania działania oprogramowania
    • steal: Jeśli jesteś maszyną wirtualną, czas, który inne maszyny wirtualne przejęły z twoich procesorów
    • system: czas spędzony w jądrze
    • user: Czas spędzony w userlandzie
  • Użycie pamięci kontenera: pamięć zużywana przez kontener Spark średnio we wszystkich odpowiednich węzłach. Obejmuje średnie nieodzyskiwalnej pamięci (Container memory used), pamięci podręcznej plików systemu operacyjnego (Container memory file cache) i skonfigurowanego limitu pamięci (Container memory limit).
  • Użycie stert JVM: użycie pamięci stertowej JVM średnio we wszystkich odpowiednich węzłach. Obejmuje średnie rzeczywiste zużycie sterty, pojemność sterty oraz skonfigurowany maksymalny limit sterty.
  • Odebrana i przesłana sieć: liczba bajtów odebranych i przesłanych przez sieć przez każde urządzenie.
  • Wolne miejsce w systemie plików: łączne użycie systemu plików przez każdy punkt instalacji mierzone w bajtach.

Kliknij pozycję Użycie pamięci węzła w dolnej części karty Sprzęt, aby wyświetlić dodatkowy wykres:

  • Wykorzystanie pamięci i zamiana: wykres liniowy przedstawia łączne użycie zamiany pamięci według trybu mierzone w bajtach. Wykres słupkowy przedstawia łączne użycie pamięci według trybu, również mierzone w bajtach. Śledzone są następujące typy użycia:
    • used: łączna ilość używanej pamięci na poziomie systemu operacyjnego, w tym pamięć używana przez procesy w tle uruchomione na obliczeniach. Ponieważ sterownik i procesy w tle wykorzystują pamięć, użycie może nadal występować nawet wtedy, gdy żadne zadania platformy Spark nie są uruchomione.
    • other: Pamięć używana do celów innych niż used, bufferlub cached
    • buffer: Pamięć używana przez bufory jądra
    • cached: pamięć używana przez pamięć podręczną systemu plików na poziomie systemu operacyjnego
    • free: Nieużywane pamięci. Wszystko, co nie jest przypisane do jednej z powyższych kategorii na wykresie, jest bezpłatne.

Wykresy metryk platformy Spark

Następujące wykresy metryk platformy Spark są dostępne do wyświetlenia w interfejsie użytkownika metryk obliczeniowych:

  • Rozkład obciążenia serwera: te kafelki pokazują wykorzystanie procesora CPU w ciągu ostatniej minuty dla każdego węzła w zasobie obliczeniowym. Każdy kafelek to klikalny link prowadzący do strony metryk danego węzła.
  • Aktywne zadania: łączna liczba zadań wykonywanych w danym momencie.
  • Łączna liczba zadań zakończonych niepowodzeniem: całkowita liczba zadań, które zakończyły się niepowodzeniem w funkcjach wykonawczych.
  • Łączna liczba ukończonych zadań: całkowita liczba zadań, które zostały ukończone w funkcjach wykonawczych.
  • Całkowita liczba zadań: całkowita liczba wszystkich zadań (uruchomionych, zakończonych niepowodzeniem i ukończonych) w funkcjach wykonawczych.
  • Łączny rozmiar odczytanych danych mieszania: łączny rozmiar danych odczytanych w procesie mieszania, mierzony w bajtach. Shuffle read oznacza sumę zserializowanych danych odczytu na wszystkich wykonawcach na początku fazy.
  • Całkowity zapis mieszania: Łączny rozmiar danych zapisu mieszania, mierzony w bajtach. Shuffle Write jest sumą wszystkich zapisanych serializowanych danych na wszystkich funkcjach wykonawczych przed przesłaniem (zwykle na końcu etapu).
  • Całkowity czas trwania zadania: Łączny czas, w którym maszyna wirtualna JVM wykonywała zadania na wykonywaczach, mierzony w sekundach.

Wykresy metryk procesora GPU

Uwaga

Metryki procesora GPU są dostępne tylko w środowisku Databricks Runtime ML 13.3 lub nowszym.

Następujące wykresy metryk procesora GPU są dostępne do wyświetlenia w interfejsie użytkownika metryk obliczeniowych:

  • Rozkład obciążenia serwera: na tym wykresie przedstawiono wykorzystanie procesora CPU w ciągu ostatniej minuty dla każdego węzła.
  • Per-GPU wykorzystanie dekodera: procent wykorzystania dekodera GPU.
  • Wykorzystanie kodera na jeden GPU: odsetek wykorzystania kodera GPU.
  • Bajty wykorzystania pamięci buforu ramki per GPU: wykorzystanie pamięci buforu ramki mierzone w bajtach.
  • Wykorzystanie pamięci dla każdej GPU: procent użycia pamięci GPU.
  • Wykorzystanie na GPU: procent wykorzystania poszczególnego procesora GPU.

Rozwiązywanie problemów

Jeśli w danym okresie zobaczysz niekompletne lub brakujące metryki, może to być jeden z następujących problemów:

  • Awaria w usłudze Databricks odpowiedzialna za wykonywanie zapytań i przechowywanie metryk.
  • Problemy z siecią po stronie klienta.
  • Komputer jest lub był w złej kondycji.