Diagnostisera ett långt jobb i Spark

Börja med att identifiera det längsta steget i jobbet. Bläddra längst ned på jobbets sida till listan med steg och sortera dem efter varaktighet:

Lång Scen

Steg-I/O-information

Om du vill se data på hög nivå om vad det här steget gjorde kan du titta på kolumnerna Input, Output, Shuffle Readoch Shuffle Write:

långstegs I/O

Kolumnerna betyder följande:

  • Indata: Hur mycket data denna fas läste från lagring. Det kan innebära att läsa från Delta, Parquet, CSV, etc.
  • Produktion: Hur mycket data den här fasen skrev till lagringen. Detta kan vara att skriva till Delta, Parquet, CSV osv.
  • Shuffle Read: Hur mycket shuffle-data den här fasen läser.
  • Shuffle Write: Hur mycket shuffle-data den här fasen skrev.

Om du inte är bekant med vad shuffle är är det nu ett bra tillfälle att lära dig mer om vad det innebär.

Anteckna dessa siffror eftersom du förmodligen behöver dem senare.

Antal uppgifter

Antalet uppgifter i den långa etappen kan peka dig i riktning mot ditt problem. Fastställ antalet uppgifter genom att titta här:

Fastställa antalet uppgifter

Om du ser just en uppgift kan det vara ett tecken på ett problem. Mer information finns i One Spark-uppgift.

Visa mer steginformation

Om fasen har mer än en uppgift rekommenderar vi att du undersöker ytterligare. Klicka på länken i scenens beskrivning för att få mer information om den längsta fasen:

Öppna sceninformation

Nu när du är på sidan för scenen, titta på Skevhet och spill.