Not
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Börja med att identifiera det längsta steget i jobbet. Bläddra längst ned på jobbets sida till listan med steg och sortera dem efter varaktighet:
Steg-I/O-information
Om du vill se data på hög nivå om vad det här steget gjorde kan du titta på kolumnerna Input, Output, Shuffle Readoch Shuffle Write:
Kolumnerna betyder följande:
- Indata: Hur mycket data denna fas läste från lagring. Det kan innebära att läsa från Delta, Parquet, CSV, etc.
- Produktion: Hur mycket data den här fasen skrev till lagringen. Detta kan vara att skriva till Delta, Parquet, CSV osv.
- Shuffle Read: Hur mycket shuffle-data den här fasen läser.
- Shuffle Write: Hur mycket shuffle-data den här fasen skrev.
Om du inte är bekant med vad shuffle är är det nu ett bra tillfälle att lära dig mer om vad det innebär.
Anteckna dessa siffror eftersom du förmodligen behöver dem senare.
Antal uppgifter
Antalet uppgifter i den långa etappen kan peka dig i riktning mot ditt problem. Fastställ antalet uppgifter genom att titta här:
Om du ser just en uppgift kan det vara ett tecken på ett problem. Mer information finns i One Spark-uppgift.
Visa mer steginformation
Om fasen har mer än en uppgift rekommenderar vi att du undersöker ytterligare. Klicka på länken i scenens beskrivning för att få mer information om den längsta fasen:
Nu när du är på sidan för scenen, titta på Skevhet och spill.