Diagnostisera problem med kostnader och prestanda med hjälp av Spark-användargränssnittet

Den här guiden beskriver hur du använder Spark-användargränssnittet för att diagnostisera problem med kostnader och prestanda. Det är en steg-för-steg-guide, och det är en praktisk instruktion. I stället för att bara ge dig en förklaring av vad varje sida i Spark-användargränssnittet gör talar den om för dig vad du ska leta efter och vad det innebär. Om du inte är bekant med begreppen drivrutin, arbetare, utförare, steg och uppgifter kanske du vill granska Spark-arkitekturen.

Om du letar efter en omfattande lista över olika optimeringsverktyg använder du optimeringsguiden för Databricks. Avsnitt i optimeringsguiden refereras i den här Spark-användargränssnittsguiden.

Använda den här guiden

Om du vill navigera i guiden använder du länkarna som är inbäddade på varje sida för att gå vidare till nästa steg. Guiden innehåller följande steg i ordning:

  1. Använd tidslinjen jobb för att identifiera större problem
  2. Titta på längsta stadiet
  3. Leta efter skevhet eller spill
  4. Avgöra om den längsta fasen är I/O-bunden
  5. Leta efter andra orsaker till långsam körning i fasen

Nu ska vi komma igång!

Så här öppnar du Spark-användargränssnittet

  1. Gå till klustrets sida:

    Gå till Beräkning

  2. Klicka på Spark-användargränssnittet:

    Gå till SparkUI

Gå vidare

Nu när du har öppnat Spark-användargränssnittet går du igenom händelsetidslinjen för att ta reda på mer om din pipeline eller fråga. Se Tidslinje för jobb.