En Spark-uppgift

Om du ser en tidskrävande fas med bara en uppgift är det förmodligen ett tecken på ett problem. Medan den här uppgiften körs används endast en processor och resten av klustret kan vara inaktivt. Det här inträffar oftast i följande situationer:

  • Dyr UDF för små data
  • Window-funktion utan PARTITION BY-instruktion
  • Läser från en odelbar filtyp. Det innebär att filen inte kan läsas i flera delar, så du får en stor uppgift. Gzip är ett exempel på en osplittbar filtyp.
  • Ange alternativet multiLine när du läser en JSON- eller CSV-fil
  • Schemainferens för en stor fil
  • Användning av ompartition(1) eller sammansmältning(1)