Scheeftrekken en overlopen
Morsen
Het eerste wat u moet zoeken in een langlopende fase is of er sprake is van overloop.
Boven aan de pagina van de fase ziet u de details, waaronder statistieken over overloop:
Overloop is wat er gebeurt wanneer Spark weinig geheugen heeft. Het begint met het verplaatsen van gegevens van geheugen naar schijf, en dit kan behoorlijk duur zijn. Dit komt het meest voor tijdens het shufflen van gegevens.
Als u geen statistieken ziet voor overloop, betekent dit dat de fase geen overloop heeft. Als de fase wat overloop heeft, raadpleegt u deze handleiding voor het omgaan met overloop veroorzaakt door willekeurige volgorde.
Schuintrekken
Het volgende waar we naar willen kijken is of er scheeftrekken is. Scheefheid is wanneer een of slechts enkele taken veel langer duren dan de rest. Dit resulteert in slecht clustergebruik en langere taken.
Schuif omlaag naar de metrische samenvattingsgegevens. Het belangrijkste wat we zoeken, is dat de maximale duur veel hoger is dan de 75e percentielduur. In de onderstaande schermafbeelding ziet u een goede fase, waarbij het 75e percentiel en Max hetzelfde zijn:
Als de maximale duur 50% hoger is dan het 75e percentiel, heeft u mogelijk last van scheeftrekken.
Als u scheeftrekken ziet, vindt u hier meer informatie over scheefheidsherstelstappen.
Geen scheefheid of overloop
Als u geen scheefheid of overloop ziet, gaat u terug naar de taakpagina om een overzicht te krijgen van wat er aan de hand is. Schuif omhoog naar de bovenkant van de pagina en klik op Gekoppelde taak-id's:
Als de fase geen overloop of scheefheid heeft, raadpleegt u I/O van Spark-fase voor de volgende stappen.