Dela via


Snedvridning och överflöd

Spilla

Det första att leta efter i ett långvarigt skede är om det finns spill.

Överst på scenens sida visas informationen, som kan innehålla statistik om spill:

spelstatistik

Spill är vad som händer när Spark får ont om minne. Det börjar flytta data från minne till disk, och det kan vara ganska dyrt. Det är vanligast när data blandas.

Om du inte ser någon statistik för spill innebär det att etappen inte har något spill. Om fasen innehåller spill kan du läsa den här guiden om hur du hanterar spill som orsakas av shuffle.

Skev

Nästa sak vi vill titta på är om det finns skevhet. Skevhet är när en eller bara några uppgifter tar mycket längre tid än resten. Detta resulterar i dålig klusteranvändning och längre jobb.

Rulla ned till Sammanfattning av mätvärden. Det viktigaste vi letar efter är att maxvaraktigheten är mycket högre än den 75:e percentilens varaktighet. Skärmbilden nedan visar ett hälsosamt stadium där den 75:e percentilen och Max är desamma.

Skev statistik

Om maxvaraktigheten är 50% mer än den 75:e percentilen kan du drabbas av skevhet.

Om du ser skevhet kan du lära dig mer om åtgärdssteg för att rätta till skevhet här.

Inga skevheter eller spill

Om du inte ser skevhet eller spill går du tillbaka till jobbsidan för att få en översikt över vad som händer. Rulla upp till sidans överkant och klicka på Associerade Jobb-ID:n:

övergång till jobb

Om steget/etappen inte har spill eller skevhet, se Spark-stegets/etappens höga I/O för nästa steg.