En Spark-uppgift

Om du ser en tidskrävande fas med bara en uppgift är det förmodligen ett tecken på ett problem. Medan den här uppgiften körs används endast en processor och resten av klustret kan vara inaktivt. Det här inträffar oftast i följande situationer:

Dyr UDF för små data
Window-funktion utan PARTITION BY-instruktion
Läser från en odelbar filtyp. Det innebär att filen inte kan läsas i flera delar, så du får en stor uppgift. Gzip är ett exempel på en osplittbar filtyp.
Ange alternativet multiLine när du läser en JSON- eller CSV-fil
Schemainferens för en stor fil
Användning av ompartition(1) eller sammansmältning(1)

Feedback

Var den här sidan till hjälp?

Last updated on 2025-03-23

Dela via

En Spark-uppgift

Feedback

Ytterligare resurser