Share via


Asimmetria e perdita

Fuoriuscita

La prima cosa da cercare in una fase a esecuzione prolungata è se c'è perdita.

Nella parte superiore della pagina della fase verranno visualizzati i dettagli, che possono includere statistiche sulla perdita:

Statistiche spill

Spill è ciò che accade quando Spark viene eseguito con memoria insufficiente. Inizia a spostare i dati dalla memoria al disco e questo può essere piuttosto costoso. È più comune durante la shuffling dei dati.

Se non vengono visualizzate statistiche per la perdita, significa che la fase non ha alcuna perdita. Se la fase ha qualche spillo, vedere questa guida su come gestire la perdita causata da shuffle.

Inclinazione

La prossima cosa che vogliamo esaminare è se c'è un'asimmetria. L'asimmetria è quando una o poche attività richiedono molto più tempo del resto. Ciò comporta un uso insufficiente del cluster e processi più lunghi.

Scorrere verso il basso fino alle metriche di riepilogo. La cosa principale che stiamo cercando è che la durata massima è molto superiore alla durata del 75° percentile. Lo screenshot seguente mostra una fase integra, in cui il 75° percentile e Max sono gli stessi:

Statistiche di asimmetria

Se la durata massima è superiore al 50% rispetto al 75° percentile, è possibile che si verifichi un'asimmetria.

Se viene visualizzata l'asimmetria, vedere i passaggi di correzione delle differenze qui.

Nessuna asimmetria o spilla

Se non viene visualizzata l'asimmetria o la perdita, tornare alla pagina del processo per ottenere una panoramica di cosa sta succedendo. Scorrere verso l'alto fino alla parte superiore della pagina e fare clic su ID processo associati:

Passaggio a processo

Se la fase non ha spill o asimmetria, vedere Spark stage high I/O (I/O di fase Spark) per i passaggi successivi.