Diagnose van een lange fase in Spark
Begin met het identificeren van de langste fase van de taak. Schuif naar de onderkant van de pagina van de taak naar de lijst met fasen en rangschik deze op duur:
Details van fase-I/O
Als u gegevens op hoog niveau wilt zien over wat deze fase deed, bekijkt u de kolommen Input, Output, Shuffle Read en Shuffle Write :
De kolommen betekenen het volgende:
- Invoer: hoeveel gegevens in deze fase uit de opslag worden gelezen. Dit kan worden gelezen vanuit Delta, Parquet, CSV, enzovoort.
- Uitvoer: hoeveel gegevens deze fase naar de opslag heeft geschreven. Dit kan schrijven naar Delta, Parquet, CSV, enzovoort.
- Lezen in willekeurige volgorde: hoeveel willekeurige gegevens in deze fase worden gelezen.
- Shuffle Write: hoeveel willekeurige gegevens deze fase heeft geschreven.
Als u niet bekend bent met wat shuffle is, is het nu een goed moment om te leren wat dat betekent.
Noteer deze getallen omdat u ze waarschijnlijk later nodig hebt.
Aantal taken
Het aantal taken in de lange fase kan u in de richting van uw probleem wijzen. U kunt het aantal taken bepalen door hier te kijken:
Als u één taak ziet, kan dat een teken zijn van een probleem. Zie One Spark-taak voor meer informatie.
Meer fasedetails weergeven
Als de fase meer dan één taak heeft, moet u verder onderzoeken. Klik op de koppeling in de beschrijving van de fase voor meer informatie over de langste fase:
Nu u zich op de pagina van het podium bevindt, raadpleegt u Scheeftrekken en morsen.