NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

Francisco Coll Hernandez 0 Puntos de reputación
2024-03-29T06:40:15.1266667+00:00

Buenos días, estoy tratando de iniciar un cuaderno de Jupyter Labs. con el kernel de Python 3.8 ML

Es una herramienta que utiliza Whisper entre otras inteligencias, como doblar un video a otro idioma. El problema que tengo es que no puedo elegir una GPU.

-Entro en el cuaderno y pongo:

nvidia-smi

El resultados que me da:

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

Estoy utilizando esta instancia :

Standard_ND96asr_v4

96 núcleos, 900 GB de RAM, 2900 GB de almacenamiento

8 x NVIDIA A100

40GB vRAM

0 núcleos

27.20 USD/h

Hay alguna solucion para este problema que me enfrento.

Azure
Azure
Plataforma e infraestructura de informática en la nube para crear, implementar y administrar aplicaciones y servicios a través de una red mundial de centros de datos administrados por Microsoft.
595 preguntas
0 comentarios No hay comentarios
{count} votos

1 respuesta

Ordenar por: Muy útil
  1. Gao Chen 10,665 Puntos de reputación Personal externo de Microsoft Moderador
    2025-01-17T18:55:29.3666667+00:00

    Hola Francisco Coll Hernandez,

    ¡Bienvenido(a) a Microsoft Q&A!

    Lamentamos mucho la demora en darle una respuesta a tu tema en este foro.

    Si todavía tienes la misma consulta, parece que el problema está relacionado con los controladores de NVIDIA en tu instancia de Azure. Aquí hay algunos pasos que puedes seguir para intentar resolverlo:

    Verifica la instalación del controlador NVIDIA:

    • Asegúrate de que los controladores de NVIDIA estén instalados correctamente. Puedes intentar reinstalarlos. Aquí hay un comando para instalar los controladores en una máquina basada en Ubuntu:
     sudo apt-get update
     sudo apt-get install -y nvidia-driver-460
     sudo reboot
    

    Verifica el estado del servicio NVIDIA:

    • Asegúrate de que el servicio de NVIDIA esté corriendo:
     sudo systemctl status nvidia-persistenced
    

    Revisa los registros del sistema:

    • Puedes revisar los registros del sistema para obtener más detalles sobre el error:
     dmesg | grep -i nvidia
    

    Actualiza el kernel de Linux:

    • A veces, actualizar el kernel de Linux puede resolver problemas de compatibilidad con los controladores de NVIDIA:
    sudo apt-get upgrade -y  
    sudo reboot
    

    Verificar la configuración de la instancia:

    • Asegúrate de que tu instancia de Azure esté configurada correctamente para usar las GPUs. Puedes revisar la documentación de Azure para asegurarte de que no haya configuraciones adicionales necesarias

    Espero que la información brindada fuera útil! Adicionalmente, por favor ten en cuenta si no recibimos una respuesta tuya en los próximos días, procederemos a cerrar el tema. Sin embargo, si tienes la misma consulta y la información proporcionada no te resulta útil, no dudes en crear un nuevo hilo.

    Atentamente,

    Gao


    Si esta respuesta resolvió tu consulta, por favor haz clic en 'Aceptar respuesta'. Esto nos ayuda a mejorar continuamente la calidad y relevancia de nuestras soluciones.

    0 comentarios No hay comentarios

Su respuesta

Las respuestas se pueden marcar como respuestas aceptadas por el autor de la pregunta, lo que ayuda a los usuarios a conocer la respuesta que resolvió el problema del autor.