Nota
L'accés a aquesta pàgina requereix autorització. Pots provar d'iniciar sessió o canviar de directori.
L'accés a aquesta pàgina requereix autorització. Pots provar de canviar directoris.
Comprobación de un problema de memoria
Los problemas de memoria suelen dar lugar a mensajes de error como los siguientes:
SparkException: Job aborted due to stage failure: Task 3 in stage 0.0 failed 4 times, most recent failure: Lost task 3.3 in stage 0.0 (TID 30) (10.139.64.114 executor 4): ExecutorLostFailure (executor 4 exited caused by one of the running tasks) Reason: Remote RPC client disassociated. Likely due to containers exceeding thresholds, or network issues. Check driver logs for WARN messages.
Estos mensajes de error, sin embargo, suelen ser genéricos y pueden deberse a otros problemas. Por lo tanto, si sospecha que tiene un problema de memoria, puede comprobarlo duplicando la memoria por núcleo para ver si afecta a su problema.
Por ejemplo, si tiene un tipo de trabajo con 4 núcleos y 16 GB por memoria, puede intentar cambiar a un tipo de trabajo que tenga 4 núcleos y 32 GB de memoria. Esto le proporcionará 8 GB por núcleo en comparación con los 4 GB por núcleo que tenía antes. Es la relación entre núcleos y memoria que importa aquí. Si tarda más tiempo en producir un error con la memoria adicional o no falla en absoluto, es un buen signo de que está en la pista correcta.
Si puede solucionar su incidencia aumentando la memoria, genial. Quizás esa es la solución. Si no corrige el problema o no puede soportar el costo adicional, debe profundizar más.
Causas posibles
Hay muchas razones potenciales para los problemas de memoria:
- Demasiadas pocas particiones de mezcla
- Difusión grande
- UDF
-
Función de ventana sin instrucción
PARTITION BY - de asimetría
- Estado de transmisión