Condividi tramite


Diagnosi di una fase lunga in Spark

Iniziare identificando la fase più lunga del processo. Scorrere fino alla fine della pagina del processo fino all'elenco delle fasi e ordinarli per durata:

Fase lunga

Dettagli di I/O della fase

Per visualizzare i dati di alto livello sulle operazioni di questa fase, esaminare le colonne Input, Output, Shuffle Read e Shuffle Write :

I/O fase lunga

Le colonne indicano quanto segue:

  • Input: quantità di dati letti da questa fase dall'archiviazione. Potrebbe trattarsi di una lettura da Delta, Parquet, CSV e così via.
  • Output: quantità di dati scritti in questa fase nell'archiviazione. Potrebbe trattarsi di scrivere in Delta, Parquet, CSV e così via.
  • Lettura casuale: quantità di dati casuali letti in questa fase.
  • Shuffle Write: quantità di dati casuali scritti in questa fase.

Se non hai familiarità con ciò che mischia, ora è un buon momento per imparare ciò che significa.

Prendere nota di questi numeri perché probabilmente saranno necessari in un secondo momento.

Numero di attività

Il numero di attività nella fase lunga può puntare nella direzione del problema. È possibile determinare il numero di attività esaminando qui:

Determinazione del numero di attività

Se viene visualizzata un'attività, questo potrebbe essere un segno di un problema. Per altre informazioni, vedere Un'attività Spark.

Visualizzare altri dettagli della fase

Se la fase ha più di un'attività, è necessario esaminare ulteriormente. Fare clic sul collegamento nella descrizione della fase per ottenere altre informazioni sulla fase più lunga:

Apri informazioni fase

Ora che sei nella pagina della fase, vedi asimmetria e spillo.