Diagnosticare i problemi di costo e prestazioni usando l'interfaccia utente di Spark
Questa guida illustra come usare l'interfaccia utente di Spark per diagnosticare i problemi di costi e prestazioni. Si tratta di una guida dettagliata ed è una procedura pratica. Invece di fornire una spiegazione di ogni pagina nell'interfaccia utente di Spark, indica cosa cercare e cosa significa. Se non si ha familiarità con i concetti relativi a driver, ruoli di lavoro, executor, fasi e attività, è possibile esaminare l'architettura spark.
Se si sta cercando un elenco completo di vari strumenti di ottimizzazione, usare la guida all'ottimizzazione di Databricks. Le sezioni della guida all'ottimizzazione sono riportate in questa guida all'interfaccia utente di Spark.
Uso della guida
Per spostarsi nella guida, usare i collegamenti incorporati in ogni pagina per passare al passaggio successivo. La guida contiene i passaggi seguenti nell'ordine:
- Usare la sequenza temporale dei processi per identificare i problemi principali
- Esaminare la fase più lunga
- Cercare asimmetrie o spill
- Determinare se la fase più lunga è associata a I/O
- Cercare altre cause del runtime di fase lenta
Iniziamo!
Come aprire l'interfaccia utente di Spark
Passare alla pagina del cluster:
Fare clic su Spark UI (Interfaccia utente Spark):
Passaggio successivo
Dopo aver aperto l'interfaccia utente di Spark, esaminare la sequenza temporale dell'evento per ottenere altre informazioni sulla pipeline o sulla query. Vedere Sequenza temporale dei processi.