Diagnosticare i problemi di costo e prestazioni usando l'interfaccia utente di Spark

Questa guida illustra come usare l'interfaccia utente di Spark per diagnosticare i problemi di costi e prestazioni. Si tratta di una guida dettagliata ed è una procedura pratica. Invece di fornire una spiegazione di ogni pagina nell'interfaccia utente di Spark, indica cosa cercare e cosa significa. Se non si ha familiarità con i concetti relativi a driver, ruoli di lavoro, executor, fasi e attività, è possibile esaminare l'architettura spark.

Se si sta cercando un elenco completo di vari strumenti di ottimizzazione, usare la guida all'ottimizzazione di Databricks. Le sezioni della guida all'ottimizzazione sono riportate in questa guida all'interfaccia utente di Spark.

Uso della guida

Per spostarsi nella guida, usare i collegamenti incorporati in ogni pagina per passare al passaggio successivo. La guida contiene i passaggi seguenti nell'ordine:

  1. Usare la sequenza temporale dei processi per identificare i problemi principali
  2. Esaminare la fase più lunga
  3. Cercare asimmetrie o spill
  4. Determinare se la fase più lunga è associata a I/O
  5. Cercare altre cause del runtime di fase lenta

Iniziamo!

Come aprire l'interfaccia utente di Spark

  1. Passare alla pagina del cluster:

    Passare a Calcolo

  2. Fare clic su Spark UI (Interfaccia utente Spark):

    Passare a SparkUI

Passaggio successivo

Dopo aver aperto l'interfaccia utente di Spark, esaminare la sequenza temporale dell'evento per ottenere altre informazioni sulla pipeline o sulla query. Vedere Sequenza temporale dei processi.