Diagnose van een lange fase in Spark

Artikel
04/19/2024

Begin met het identificeren van de langste fase van de taak. Schuif naar de onderkant van de pagina van de taak naar de lijst met fasen en rangschik deze op duur:

Lange fase

Details van fase-I/O

Als u gegevens op hoog niveau wilt zien over wat deze fase deed, bekijkt u de kolommen Input, Output, Shuffle Read en Shuffle Write :

Lange fase I/O

De kolommen betekenen het volgende:

Invoer: hoeveel gegevens in deze fase uit de opslag worden gelezen. Dit kan worden gelezen vanuit Delta, Parquet, CSV, enzovoort.
Uitvoer: hoeveel gegevens deze fase naar de opslag heeft geschreven. Dit kan schrijven naar Delta, Parquet, CSV, enzovoort.
Lezen in willekeurige volgorde: hoeveel willekeurige gegevens in deze fase worden gelezen.
Shuffle Write: hoeveel willekeurige gegevens deze fase heeft geschreven.

Als u niet bekend bent met wat shuffle is, is het nu een goed moment om te leren wat dat betekent.

Noteer deze getallen omdat u ze waarschijnlijk later nodig hebt.

Aantal taken

Het aantal taken in de lange fase kan u in de richting van uw probleem wijzen. U kunt het aantal taken bepalen door hier te kijken:

Het aantal taken bepalen

Als u één taak ziet, kan dat een teken zijn van een probleem. Zie One Spark-taak voor meer informatie.

Meer fasedetails weergeven

Als de fase meer dan één taak heeft, moet u verder onderzoeken. Klik op de koppeling in de beschrijving van de fase voor meer informatie over de langste fase:

Fasegegevens openen

Nu u zich op de pagina van het podium bevindt, raadpleegt u Scheeftrekken en morsen.

Delen via

Diagnose van een lange fase in Spark

Details van fase-I/O

Aantal taken

Meer fasedetails weergeven

Feedback

Aanvullende resources