Diagnostiquer les problèmes de coût et de performances à l’aide de l’interface utilisateur Spark
Ce guide vous oriente tout au long de l’utilisation de l’interface utilisateur Spark pour diagnostiquer les problèmes de coût et de performances. Il s’agit d’un guide pas à pas et d’une procédure pratique. Au lieu de vous fournir une explication de ce que fait chaque page de l’interface utilisateur Spark, il vous indique ce qu’il faut rechercher et ce que cela signifie. Si vous n’êtes pas familiarisé avec les concepts de pilote, de Workers, d’exécuteurs, de phases et de tâches, nous vous conseillons de passer en revue l’architecture Spark.
Si vous recherchez une liste complète de différents outils d’optimisation, utilisez le guide d’optimisation de Databricks. Des sections du guide d’optimisation sont référencées dans ce guide d’interface utilisateur Spark.
Comment utiliser ce guide
Pour parcourir le guide, utilisez les liens incorporés dans chaque page pour passer à l’étape suivante. Le guide contient les étapes suivantes, présentées dans cet ordre :
- Utiliser la chronologie des travaux pour identifier les problèmes majeurs
- Examiner la phase la plus longue
- Rechercher une asymétrie ou un déversement
- Déterminer si la phase la plus longue est liée aux E/S
- Rechercher d’autres causes de la lenteur d’exécution des phases
Allons-y !
Comment ouvrir l’interface utilisateur Spark
Accédez à la page de votre cluster :
Cliquez sur l’interface utilisateur Spark :
Étape suivante
Maintenant que l’interface utilisateur Spark est ouverte, passez en revue la chronologie des événements pour en savoir plus sur votre pipeline ou votre requête. Consultez la Chronologie des travaux.