Seguimiento de experimentos y modelos de ML con MLflow

Artículo
02/22/2024

En este artículo, aprenderá a usar MLflow para realizar el seguimiento de los experimentos y las ejecuciones en áreas de trabajo de Azure Machine Learning.

El seguimiento es el proceso de guardar información relevante sobre los experimentos que se ejecutan. La información guardada (metadatos) varía en función del proyecto y puede incluir:

Código
Detalles del entorno (como la versión del sistema operativo, los paquetes de Python)
Datos de entrada
Configuración de parámetros
Modelos
Métricas de evaluación
Visualizaciones de evaluación (como las matrices de confusión, los trazados de importancia)
Resultados de la evaluación (incluidas algunas predicciones de evaluación)

Cuando trabaja con trabajos en Azure Machine Learning, Azure Machine Learning realiza un seguimiento automático de cierta información sobre los experimentos, como el código, el entorno y los datos de entrada y salida. Sin embargo, para otros, como modelos, parámetros y métricas, el generador de modelos debe configurar su seguimiento, ya que son específicos del escenario concreto.

Nota:

Si desea realizar un seguimiento de los experimentos que se ejecutan en Azure Databricks, consulte Seguimiento de experimentos de ML de Azure Databricks con MLflow y Azure Machine Learning. Para más información sobre el seguimiento de experimentos que se ejecutan en Azure Synapse Analytics, consulte Seguimiento de experimentos de ML de Azure Synapse Analytics con MLflow y Azure Machine Learning.

Ventajas de los experimentos de seguimiento

Se recomienda encarecidamente que los profesionales del aprendizaje automático realicen un seguimiento de los experimentos, tanto si está entrenando con trabajos en Azure Machine Learning como si está entrenando de forma interactiva en cuadernos. El seguimiento de experimentos le permite:

Organizar todos los experimentos de aprendizaje automático en un solo lugar. A continuación, puede buscar y filtrar experimentos y explorar en profundidad para ver detalles sobre los experimentos que ejecutó antes.
Compara experimentos, analiza los resultados y depura el entrenamiento del modelo con poco trabajo adicional.
Reproducir o volver a ejecutar experimentos para validar los resultados.
Mejorar la colaboración, ya que puede ver qué hacen otros compañeros de equipo, compartir los resultados del experimento y acceder a los datos del experimento mediante programación.

¿Por qué usar MLflow para realizar el seguimiento de experimentos?

Las áreas de trabajo de Azure Machine Learning son compatibles con MLflow, lo que significa que se puede usar MLflow para realizar un seguimiento de ejecuciones, métricas, parámetros y artefactos en las áreas de trabajo de Azure Machine Learning. Una ventaja importante del uso de MLflow para el seguimiento es que no es necesario cambiar las rutinas de entrenamiento para trabajar con Azure Machine Learning ni insertar ninguna sintaxis específica de la nube.

Para más información sobre todas las funcionalidades de MLflow y Azure Machine Learning admitidas, consulte MLflow y Azure Machine Learning.

Limitaciones

Es posible que algunos métodos disponibles en la API de MLflow no estén disponibles cuando están conectados a Azure Machine Learning. Para más información sobre las operaciones admitidas y no admitidas, consulte Matriz de compatibilidad para consultar ejecuciones y experimentos.

Requisitos previos

Suscripción a Azure. Si no tiene una suscripción de Azure, cree una cuenta gratuita antes de empezar. Pruebe la versión gratuita o de pago de Azure Machine Learning.

Instale el paquete mlflow del SDK de MLflow y el complemento de Azure Machine Learning para MLflow azureml-mlflow.
```
pip install mlflow azureml-mlflow
```
Sugerencia

Puede usar el paquete de mlflow-skinny, que es un paquete MLflow ligero sin dependencias de ciencia de datos, interfaz de usuario, servidor o almacenamiento de SQL. mlflow-skinny se recomienda para los usuarios que necesitan principalmente las funcionalidades de seguimiento y registro de MLflow sin importar el conjunto completo de características, incluidas las implementaciones.
Un área de trabajo de Azure Machine Learning. Puede crear uno siguiendo el tutorial Creación de recursos de aprendizaje automático.
- Consulte qué permisos de acceso necesita para realizar las operaciones de MLflow en el área de trabajo.
Si va a realizar el seguimiento remoto (es decir, los experimentos de seguimiento que se ejecutan fuera de Azure Machine Learning), configure MLflow para que apunte al URI de seguimiento del área de trabajo de Azure Machine Learning. Para más información sobre cómo conectar MLflow al área de trabajo, consulte Configuración de MLflow para Azure Machine Learning.

Configuración del experimento

MLflow organiza la información en experimentos y ejecuciones (las ejecuciones se denominan trabajos en Azure Machine Learning). De forma predeterminada, las ejecuciones se registran en un experimento llamado Predeterminado que se crea automáticamente para ti. Puede configurar el experimento en el que se está realizando el seguimiento.

Trabajar de forma interactiva
Trabajo con trabajos

Para el entrenamiento interactivo, como en un cuaderno de Jupyter, use el comando mlflow.set_experiment() de MLflow. Por ejemplo, el siguiente fragmento de código configura un experimento:

experiment_name = 'hello-world-example'
mlflow.set_experiment(experiment_name)

Para enviar trabajos, al usar la CLI o el SDK de Azure Machine Learning, establezca el nombre del experimento mediante la propiedad experiment_name del trabajo. No es necesario configurarlo en el script de entrenamiento.

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
command: echo "hello world"
environment:
  image: library/python:latest
tags:
  hello: world
display_name: hello-world-example
experiment_name: hello-world-example
description: |

Configurar la ejecución

Azure Machine Learning realiza un seguimiento de cualquier trabajo de entrenamiento en lo que MLflow llama a una ejecución. Usa ejecuciones para capturar todo el procesamiento que realiza el trabajo.

Trabajar de forma interactiva
Trabajo con trabajos

Al trabajar de forma interactiva, MLflow inicia el seguimiento de la rutina de entrenamiento en cuanto se intenta registrar información que requiere una ejecución activa. Por ejemplo, el seguimiento de MLflow se inicia al registrar una métrica, un parámetro o iniciar un ciclo de entrenamiento y la funcionalidad de registro automático de MLflow está habilitada. Sin embargo, normalmente resulta útil iniciar la ejecución explícitamente, especialmente si se desea capturar el tiempo total del experimento en el campo Duración. Para iniciar la ejecución explícitamente, usa mlflow.start_run().

Tanto si inicia la ejecución manualmente como si no, finalmente debe detener la ejecución, de modo que MLflow sepa que la ejecución del experimento se realiza y puede marcar el estado de la ejecución como Completado. Para detener una ejecución, use mlflow.end_run().

Se recomienda encarecidamente iniciar ejecuciones manualmente para que no olvide terminarlas al trabajar en cuadernos.

Para iniciar una ejecución manualmente y finalizarla cuando haya terminado de trabajar en el cuaderno:
```
mlflow.start_run()

# Your code

mlflow.end_run()
```
Normalmente resulta útil usar el paradigma del administrador de contextos para ayudarle a recordar finalizar la ejecución:
```
with mlflow.start_run() as run:
    # Your code
```
Al iniciar una nueva ejecución con mlflow.start_run(), puede ser útil especificar el parámetro run_name, que más adelante se traducirá al nombre de la ejecución de la interfaz de usuario de Azure Machine Learning y le ayudará a identificar la ejecución más rápido:
```
with mlflow.start_run(run_name="hello-world-example") as run:
    # Your code
```

Los trabajos de Azure Machine Learning permiten enviar rutinas de entrenamiento o inferencia de larga duración como ejecuciones aisladas y reproducibles.

Creación de una rutina de entrenamiento

Al trabajar con trabajos, normalmente se coloca toda la lógica de entrenamiento como archivos dentro de una carpeta, por ejemplo, src. Uno de estos archivos es un archivo de Python con el punto de entrada de código de entrenamiento. En el ejemplo siguiente se muestra un ejemplo de hello_world.py:

# imports
import os
import mlflow

from random import random

# define functions
def main():
    mlflow.log_param("hello_param", "world")
    mlflow.log_metric("hello_metric", random())
    os.system(f"echo 'hello world' > helloworld.txt")
    mlflow.log_artifact("helloworld.txt")


# run functions
if __name__ == "__main__":
    # run main function
    main()

El ejemplo de código anterior no usa mlflow.start_run() pero, si se usa, MLflow reutiliza la ejecución activa actual. Por lo tanto, no es necesario quitar la línea que usa mlflow.start_run() si va a migrar código a Azure Machine Learning.

Agregar seguimiento a la rutina

Use el SDK de MLflow para realizar un seguimiento de cualquier métrica, parámetro, artefactos o modelos. Para obtener ejemplos sobre cómo registrarlos, consulte Métricas de registro, parámetros y archivos con MLflow.

Asegúrate de que el entorno del trabajo tiene MLflow instalado

Todos los entornos de Azure Machine Learning ya tienen MLflow instalado, por lo que no es necesario realizar ninguna acción si usas un entorno mantenido. Sin embargo, si desea usar un entorno personalizado:

Crea un archivo conda.yaml con las dependencias que necesites:

channels:
- conda-forge
dependencies:
- python=3.8.5
- pip
- pip:
  - mlflow
  - azureml-mlflow
  - fastparquet
  - cloudpickle==1.6.0
  - colorama==0.4.4
  - dask==2023.2.0

Haz referencia al entorno en el trabajo que estás usando.

Configuración del nombre del trabajo

Usa el parámetro display_name de los trabajos de Azure Machine Learning para configurar el nombre de la ejecución.

Usa la propiedad display_name para configurar el trabajo.

CLI de Azure
SDK de Python

Para enviar el trabajo, crea un archivo YAML con la definición de trabajo en un archivo de job.yml. Este archivo debe crearse fuera del directorio src.

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
command: echo "hello world"
environment:
  image: library/python:latest
tags:
  hello: world
display_name: hello-world-example
experiment_name: hello-world-example
description: |

from azure.ai.ml import command, Environment

command_job = command(
    code="src",
    command="echo "hello world",
    environment=Environment(image="library/python:latest"),
    compute="cpu-cluster",
    display_name="hello-world-example"
)

Asegúrese de no usar mlflow.start_run(run_name="") dentro de la rutina de entrenamiento.

Enviar el archivo

Primero, conéctese al área de trabajo de Azure Machine Learning donde realizará su trabajo.
- CLI de Azure
- SDK de Python
```
az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>
```
El área de trabajo es el recurso de nivel superior para Azure Machine Learning, que proporciona un lugar centralizado para trabajar con todos los artefactos que crea al usar Azure Machine Learning. En esta sección, se conectará al área de trabajo donde realizará las tareas de implementación.
1. Importe las bibliotecas necesarias:
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential
```
2. Configure los detalles del área de trabajo y obtenga un manipulador para el área de trabajo:
```
subscription_id = "<subscription>"
resource_group = "<resource-group>"
workspace = "<workspace>"

ml_client = MLClient(DefaultAzureCredential(), subscription_id, resource_group, workspace)
```
Enviar el archivo
- CLI de Azure
- SDK de Python
Usa CLI de Azure Machine Learning para enviar el trabajo. Los trabajos que usan MLflow y se ejecutan en Azure Machine Learning registran automáticamente cualquier información de seguimiento en el área de trabajo. Abra el terminal y use el código siguiente para enviar el trabajo.
```
az ml job create -f job.yml --web
```
Utiliza SDK de Python para enviar el trabajo. Los trabajos que usan MLflow y se ejecutan en Azure Machine Learning registran automáticamente cualquier información de seguimiento en el área de trabajo.
```
returned_job = ml_client.jobs.create_or_update(command_job)
returned_job.studio_url
```
Supervise el proceso de trabajo en Estudio de Azure Machine Learning.

Habilitación del registro automático de MLflow

Puede registrar métricas, parámetros y archivos con MLflow manualmente. Sin embargo, también se puede confiar en la funcionalidad de registro automático de MLflow. Cada marco de aprendizaje automático compatible con MLflow decide qué realizar un seguimiento automáticamente.

Para habilitar el registro automático, inserte el siguiente código antes del código de entrenamiento:

mlflow.autolog()

Visualización de las métricas y los artefactos en el área de trabajo

Las métricas y los artefactos procedentes del registro de MLflow se supervisan en el área de trabajo. Puede verlos y acceder a ellos en Studio en cualquier momento o acceder a ellos mediante programación a través del SDK de MLflow.

Para ver métricas y artefactos en Studio:

Vaya a Azure Machine Learning Studio.
Vaya a su área de trabajo.
Busque el experimento por su nombre en el área de trabajo.
Seleccione las métricas registradas para representar gráficos en el lado derecho. Puede personalizar los gráficos aplicando suavizado, cambiando el color o trazando varias métricas en un solo gráfico. También puede cambiar el tamaño y reorganizar el diseño como quiera.
Una vez que haya creado la vista deseada, guárdela para su uso posterior y compártala con sus compañeros de equipo mediante un vínculo directo.

Para el acceso o consulta de métricas, parámetros y artefactos mediante programación a través del SDK de MLflow, use mlflow.get_run().

import mlflow

run = mlflow.get_run("<RUN_ID>")

metrics = run.data.metrics
params = run.data.params
tags = run.data.tags

print(metrics, params, tags)

Sugerencia

En el caso de las métricas, el código de ejemplo anterior solo devolverá el último valor de una métrica determinada. Si quiere recuperar todos los valores de una métrica determinada, use el método mlflow.get_metric_history. Para obtener más información sobre cómo recuperar valores de una métrica, consulte Obtención de parámetros y métricas de una ejecución.

Para descargar artefactos que ha registrado, como archivos y modelos, use mlflow.artifacts.download_artifacts().

mlflow.artifacts.download_artifacts(run_id="<RUN_ID>", artifact_path="helloworld.txt")

Para obtener más información acerca de cómo recuperar o comparar información de experimentos y ejecuciones en Azure Machine Learning mediante MLflow, consulte Consulta y comparación de experimentos y ejecuciones con MLflow