Jedno zadanie platformy Spark

Artykuł
04/19/2024

Jeśli widzisz długotrwały etap z tylko jednym zadaniem, prawdopodobnie jest to oznaka problemu. Chociaż to jedno zadanie jest uruchomione tylko jeden procesor CPU, a reszta klastra może być bezczynna. Dzieje się to najczęściej w następujących sytuacjach:

Kosztowna funkcja UDF na małych danych
Funkcja Window bez PARTITION BY instrukcji
Odczyt z niespeklitowalnego typu pliku. Oznacza to, że plik nie może być odczytywany w wielu częściach, więc kończy się jednym dużym zadaniem. Gzip to przykład niespeklitowalnego typu pliku.
multiLine Ustawianie opcji podczas odczytywania pliku JSON lub CSV
Wnioskowanie schematu dużego pliku
Korzystanie z ponownego dzielenia na partycje (1) lub łączenie(1)

Udostępnij za pośrednictwem

Jedno zadanie platformy Spark

Opinia

Dodatkowe zasoby