Udostępnij za pośrednictwem


Niesymetryczność i rozlanie

Wyciek

Pierwszą rzeczą, aby szukać w długotrwałym etapie jest to, czy jest wyciek.

W górnej części strony etapu zobaczysz szczegóły, które mogą obejmować statystyki dotyczące rozlania:

Statystyki rozlania

Wyciek jest tym, co się stanie, gdy platforma Spark działa nisko w pamięci. Rozpoczyna się przenoszenie danych z pamięci na dysk i może to być dość kosztowne. Najczęściej występuje podczas mieszania danych.

Jeśli nie widzisz żadnych statystyk dotyczących wycieku, oznacza to, że etap nie ma żadnego wycieku. Jeśli etap ma jakiś wyciek, zobacz ten przewodnik dotyczący sposobu radzenia sobie z wyciekiem spowodowanym mieszania.

Pochyl

Następną rzeczą, którą chcemy przyjrzeć się, jest to, czy istnieje niesymetryczność. Niesymetryczność jest wtedy, gdy jedno lub tylko kilka zadań trwa znacznie dłużej niż reszta. Powoduje to słabe wykorzystanie klastra i dłuższe zadania.

Przewiń w dół do pozycji Metryki podsumowania. Najważniejszą rzeczą, której szukamy, jest maksymalny czas trwania jest znacznie wyższy niż 75. percentyl czasu trwania. Poniższy zrzut ekranu przedstawia etap dobrej kondycji, w którym 75. percentyl i Max są takie same:

Niesymetryczne statystyki

Jeśli maksymalny czas trwania wynosi 50% więcej niż 75. percentyl, może wystąpić niesymetryczność.

Jeśli widzisz niesymetryczność, dowiedz się więcej o krokach korygowania niesymetryczności tutaj.

Brak niesymetryczności ani rozlania

Jeśli nie widzisz niesymetryczności lub rozlania, wróć do strony zadania, aby zapoznać się z omówieniem tego, co się dzieje. Przewiń w górę do góry strony i kliknij pozycję Skojarzone identyfikatory zadań:

Etap do zadania

Jeśli etap nie ma rozlania ani niesymetryczności, zobacz Spark stage high I/O (Wysokie we/wy na platformie Spark), aby zapoznać się z kolejnymi krokami.