Depuración de trabajos y supervisión del progreso del entrenamiento

2024-09-03

El entrenamiento del modelo de Machine Learning es un proceso iterativo y requiere una experimentación significativa. Con la experiencia de trabajo interactivo de Azure Machine Learning, los científicos de datos pueden usar el SDK de Python de Azure Machine Learning, la CLI de Azure Machine Learning o Azure Studio para acceder al contenedor donde se ejecuta su trabajo. Una vez que se accede al contenedor de trabajos, los usuarios pueden iterar en scripts de entrenamiento, supervisar el progreso del entrenamiento o depurar el trabajo de forma remota como lo hacen normalmente en sus máquinas locales. Se puede interactuar con los trabajos mediante diferentes aplicaciones de entrenamiento, como JupyterLab, TensorBoard, VS Code o mediante la conexión directa al contenedor de trabajos a través de SSH.

El entrenamiento interactivo es compatible con los clústeres de proceso de Azure Machine Learning y el clúster de Kubernetes habilitado para Azure Arc.

Prerrequisitos

Revise la introducción al entrenamiento en Azure Machine Learning.
Para obtener más información, consulte este vínculo para VS Code para configurar la extensión de Azure Machine Learning.
Asegúrese de que el entorno de trabajo tiene instalados los paquetes openssh-server y ipykernel ~=6.0 (todos los entornos de entrenamiento mantenidos de Azure Machine Learning tienen estos paquetes instalados de forma predeterminada).
Las aplicaciones interactivas no se pueden habilitar en ejecuciones de entrenamiento distribuido en las que el tipo de distribución es distinto de PyTorch, TensorFlow o MPI. Actualmente no se admite la configuración del entrenamiento distribuido personalizado (configuración del entrenamiento de varios nodos sin usar los marcos de distribución anteriores).
Para usar SSH, necesitará un par de claves SSH. Es posible usar el comando ssh-keygen -f "<filepath>" para generar un par de claves privadas y públicas.

Interacción con el contenedor de trabajos

Al especificar aplicaciones interactivas en la creación de trabajos, puede conectarse directamente al contenedor en el nodo de proceso donde se ejecuta el trabajo. Una vez que tenga acceso al contenedor de trabajos, puede probar o depurar el trabajo en el mismo entorno en el que se ejecutaría. También puede usar VS Code para asociar al proceso en ejecución y depurar como lo haría localmente.

Habilitación durante el envío del trabajo

Cree un nuevo trabajo desde el panel izquierdo en el portal de Studio.
Elija Clúster de proceso o Proceso adjunto (Kubernetes) como tipo de proceso, elija el destino de proceso y especifique cuántos nodos necesita en Instance count.

Captura de pantalla de la selección de una ubicación de proceso para un trabajo.

Siga el asistente para elegir el entorno en el que quiere iniciar el trabajo.
En el paso Script de entrenamiento, agregue el código de entrenamiento (y los datos de entrada y salida) y haga referencia a él en el comando para asegurarse de que está montado en el trabajo.

Captura de pantalla de la revisión de un trabajo de borrador y finalización de la creación.

Puede colocar sleep <specific time> al final del comando para especificar la cantidad de tiempo que quiere reservar el recurso de proceso. El formato es como sigue:

suspensión 1s
suspensión 1m
suspensión 1h
suspensión 1d

También puede usar el comando sleep infinity que mantendría activo el trabajo indefinidamente.

Nota

Si usa sleep infinity, deberá cancelar el trabajo manualmente para dejar de usar el recurso de proceso (y detener la facturación).

En Configuración de proceso, expanda la opción para aplicaciones de entrenamiento. Seleccione al menos una aplicación de entrenamiento que quiera usar para interactuar con el trabajo. Si no selecciona una aplicación, la característica de depuración no estará disponible.

Captura de pantalla de la selección de una aplicación de entrenamiento para que el usuario la use para un trabajo.

Revise y cree el trabajo.

Defina los servicios interactivos que quiere usar para el trabajo. Asegúrese de reemplazar your compute name por sus propios valores. Si quiere usar su propio entorno personalizado, siga los ejemplos de este tutorial para crear un entorno personalizado.

Tiene que importar la clase JobService desde el paquete azure.ai.ml.entities para configurar servicios interactivos mediante el SDK.

command_job = command(...
    code="./src",  # local path where the code is stored
    command="python main.py", # you can add a command like "sleep 1h" to reserve the compute resource is reserved after the script finishes running
    environment="AzureML-tensorflow-2.7-ubuntu20.04-py38-cuda11-gpu@latest",
    compute="<name-of-compute>",
    services={
      "My_jupyterlab": JupyterLabJobService(
        nodes="all" # For distributed jobs, use the `nodes` property to pick which node you want to enable interactive services on. If `nodes` are not selected, by default, interactive applications are only enabled on the head node. Values are "all", or compute node index (for ex. "0", "1" etc.)
      ),
      "My_vscode": VsCodeJobService(
        nodes="all"
      ),
      "My_tensorboard": TensorBoardJobService(
        nodes="all",
        log_dir="output/tblogs"  # relative path of Tensorboard logs (same as in your training script)         
      ),
      "My_ssh": SshJobService(
        ssh_public_keys="<add-public-key>",
        nodes="all"  
      ),
    }
)

# submit the command
returned_job = ml_client.jobs.create_or_update(command_job)

En la sección services se especifican las aplicaciones de entrenamiento con las que quiere interactuar.

Puede colocar sleep <specific time> al final del comando para especificar la cantidad de tiempo que quiere reservar el recurso de proceso. El formato es como sigue:

suspensión 1s
suspensión 1m
suspensión 1h
suspensión 1d

También puede usar el comando sleep infinity que mantendría activo el trabajo indefinidamente.

Nota

Si usa sleep infinity, deberá cancelar el trabajo manualmente para dejar de usar el recurso de proceso (y detener la facturación).

Envíe su trabajo de aprendizaje. Para obtener más información sobre cómo entrenar con el SDK de Python, consulte este artículo.

Cree job.yaml yaml de trabajo mendiante el contenido de ejemplo. Asegúrese de reemplazar your compute name por sus propios valores. Si quiere usar un entorno personalizado, siga los ejemplos de este tutorial para crear un entorno personalizado.

code: src 
command: 
  python train.py 
  # you can add a command like "sleep 1h" to reserve the compute resource is reserved after the script finishes running.
environment: azureml:AzureML-tensorflow-2.4-ubuntu18.04-py37-cuda11-gpu:41
compute: azureml:<your compute name>
services:
    my_vs_code:
      type: vs_code
      nodes: all # For distributed jobs, use the `nodes` property to pick which node you want to enable interactive services on. If `nodes` are not selected, by default, interactive applications are only enabled on the head node. Values are "all", or compute node index (for ex. "0", "1" etc.)
    my_tensor_board:
      type: tensor_board
      log_dir: "output/tblogs" # relative path of Tensorboard logs (same as in your training script)
      nodes: all
    my_jupyter_lab:
      type: jupyter_lab
      nodes: all
    my_ssh:
      type: ssh
      ssh_public_keys: <paste the entire pub key content>
      nodes: all

En la sección services se especifican las aplicaciones de entrenamiento con las que quiere interactuar.

Puede colocar sleep <specific time> al final del comando para especificar la cantidad de tiempo que quiere reservar el recurso de proceso. El formato es como sigue:

suspensión 1s
suspensión 1m
suspensión 1h
suspensión 1d

También puede usar el comando sleep infinity que mantendría activo el trabajo indefinidamente.

Nota

Si usa sleep infinity, deberá cancelar el trabajo manualmente para dejar de usar el recurso de proceso (y detener la facturación).

Ejecute el comando az ml job create --file <path to your job yaml file> --workspace-name <your workspace name> --resource-group <your resource group name> --subscription <sub-id> para enviar el trabajo de entrenamiento. Para obtener más información sobre cómo ejecutar un trabajo con la CLI, consulte este artículo.

Conexión a puntos de conexión

Para interactuar con el trabajo en ejecución, seleccione el botón Depurar y supervisar en la página de detalles del trabajo.

Captura de pantalla de la ubicación del panel de depuración y supervisión de trabajos interactivos.

Al hacer clic en las aplicaciones del panel, se abre una nueva pestaña para las aplicaciones. Solo puede acceder a las aplicaciones cuando se encuentran en estado En ejecución y solo el propietario del trabajo está autorizado para acceder a las aplicaciones. Si está entrenando en varios nodos, puede elegir el nodo específico con el que quiere interactuar.

Captura de pantalla de la información del panel derecho de trabajos interactivos. El contenido de la información varía en función de los datos de los usuarios.

Es posible que se tarde unos minutos en iniciar el trabajo y las aplicaciones de entrenamiento especificadas durante la creación del trabajo.

Una vez enviado el trabajo, puede usar ml_client.jobs.show_services("<job name>", <compute node index>) para ver los puntos de conexión de servicio interactivos.
Para conectarse mediante SSH al contenedor donde se ejecuta el trabajo, ejecute el comando az ml job connect-ssh --name <job-name> --node-index <compute node index> --private-key-file-path <path to private key>. Para configurar la CLI de Azure Machine Learning, siga esta guía.

Puede encontrar la documentación de referencia del SDK aquí.

Solo puede acceder a las aplicaciones cuando se encuentran en estado En ejecución y solo el propietario del trabajo está autorizado para acceder a las aplicaciones. Si está entrenando en varios nodos, puede elegir el nodo específico con el que quiere interactuar pasando el índice del nodo.

Cuando se ejecute el trabajo, ejecute el comando az ml job show-services --name <job name> --node-index <compute node index> para obtener la dirección URL de las aplicaciones. La dirección URL del punto de conexión se muestra en services en la salida. En el caso de VS Code, debe copiar y pegar la dirección URL proporcionada en el explorador.
Para conectarse mediante SSH al contenedor donde se ejecuta el trabajo, ejecute el comando az ml job connect-ssh --name <job-name> --node-index <compute node index> --private-key-file-path <path to private key>.

Puede encontrar la documentación de referencia de estos comandos aquí.

Interacción con las aplicaciones

Al seleccionar los puntos de conexión para interactuar con el trabajo, se le llevará al contenedor de usuarios en el directorio de trabajo, donde puede acceder al código, las entradas, las salidas y los registros. Si tiene algún problema al conectarse a las aplicaciones, los registros de aplicaciones y funcionalidad interactivas se pueden encontrar en system_logs-interactive_capability> en la pestaña Salidas y registros.

Captura de pantalla de la ubicación del panel de registros interactivos de trabajos interactivos.

Puede abrir un terminal desde Jupyter Lab y empezar a interactuar dentro del contenedor de trabajos. También puede iterar directamente en el script de entrenamiento con Jupyter Lab.
También puede interactuar con el contenedor de trabajos en VS Code. Para adjuntar un depurador a un trabajo durante el envío del trabajo y pausar la ejecución, vaya aquí.

Nota

Las áreas de trabajo habilitadas para vínculo privado no se admiten actualmente al interactuar con el contenedor de trabajos con VS Code.
Si ha registrado eventos de TensorFlow para el trabajo, puede usar TensorBoard para supervisar las métricas cuando se ejecuta el trabajo.

Finalización de un trabajo

Una vez que haya terminado con el entrenamiento interactivo, también puede ir a la página de detalles del trabajo para cancelar el trabajo, lo que liberará el recurso de proceso. Como alternativa, use az ml job cancel -n <your job name> en la CLI o ml_client.job.cancel("<job name>") en el SDK.

Captura de pantalla de la opción cancelar trabajo de trabajos interactivos y su ubicación para la selección de usuarios

Asociación de un depurador a un trabajo

Para enviar un trabajo con un depurador asociado y la ejecución en pausa, puede usar debugpy y VS Code (debugpy debe estar instalado en el entorno de trabajo).

Nota

Las áreas de trabajo habilitadas para vínculo privado no se admiten actualmente al asociar un depurador a un trabajo en VS Code.

Durante el envío del trabajo (ya sea a través de la interfaz de usuario, la CLI o el SDK), use el comando debugpy para ejecutar el script de Python. Por ejemplo, en la captura de pantalla siguiente se muestra un comando de ejemplo que usa debugpy para adjuntar el depurador para un script de TensorFlow (tfevents.py se puede reemplazar por el nombre del script de entrenamiento).

Captura de pantalla de la configuración de trabajos interactivos de debugpy

Una vez enviado el trabajo, conéctese a VS Code y seleccione el depurador integrado.
Use la configuración de depuración "Asociación remota" para adjuntar al trabajo enviado y pasar la ruta de acceso y el puerto que configuró en el comando de envío del trabajo. También puede encontrar esta información en la página de detalles del trabajo.
Establezca puntos de interrupción y recorra la ejecución del trabajo como lo haría en el flujo de trabajo de depuración local.

Nota

Si usa debugpy para iniciar el trabajo, el trabajo no se ejecutará a menos que adjunte el depurador en VS Code y ejecute el script. Si no lo hace, el proceso se reservará hasta que se cancele el trabajo.

Pasos siguientes

Obtenga más información sobre cómo y dónde implementar un modelo.

Compartir a través de

Depuración de trabajos y supervisión del progreso del entrenamiento

Prerrequisitos

Interacción con el contenedor de trabajos

Habilitación durante el envío del trabajo

Conexión a puntos de conexión

Interacción con las aplicaciones

Finalización de un trabajo

Asociación de un depurador a un trabajo

Pasos siguientes

Comentarios

Recursos adicionales