Seguimiento de experimentos y modelos con MLflow

2024-11-11

El Seguimiento es el proceso de guardar información relevante acerca de los experimentos. En este artículo, aprenderá a usar MLflow para realizar el seguimiento de experimentos y ejecuciones en áreas de trabajo de Azure Machine Learning.

Es posible que algunos métodos disponibles en la API de MLflow no estén disponibles cuando están conectados a Azure Machine Learning. Para más información sobre las operaciones admitidas y no admitidas, consulte Matriz de compatibilidad para consultar ejecuciones y experimentos. También puede obtener información acerca de las funcionalidades de MLflow admitidas en Azure Machine Learning en el artículo MLflow y Azure Machine Learning.

Nota:

Para realizar un seguimiento de los experimentos que se ejecutan en Azure Databricks, consulte Seguimiento de experimentos de Aprendizaje automático de Azure Databricks con MLflow y Azure Machine Learning.
Para realizar un seguimiento de los experimentos que se ejecutan en Azure Synapse Analytics, consulte Seguimiento de experimentos de Aprendizaje automático de Azure Synapse Analytics con MLflow y Azure Machine Learning.

Requisitos previos

Tener una suscripción de Azure con la Versión gratuita o de pago de Azure Machine Learning.
Para ejecutar comandos de la CLI de Azure y Python, instale la CLI de Azure v2 y el Azure Machine Learning SDK v2 para Python. La extensión ml para la CLI de Azure se instala automáticamente la primera vez que ejecuta un comando de la CLI de Azure Machine Learning.

Instale el paquete mlflow del SDK de MLflow y el complemento azureml-mlflow de Azure Machine Learning para MLflow de la siguiente manera:
```
pip install mlflow azureml-mlflow
```
Sugerencia

Puede usar el paquete de mlflow-skinny, que es un paquete MLflow ligero sin dependencias de ciencia de datos, interfaz de usuario, servidor o almacenamiento de SQL. Este paquete se recomienda para los usuarios que necesitan principalmente las funcionalidades de seguimiento y registro de MLflow sin importar el conjunto completo de características, incluidas las implementaciones.
Cree un área de trabajo de Azure Machine Learning. Para crear un área de trabajo, consulte Crear recursos que necesita para empezar. Revise los permisos de acceso que necesita para realizar las operaciones de MLflow en el área de trabajo.
Para realizar el seguimiento remoto o realizar un seguimiento de experimentos que se ejecutan fuera de Azure Machine Learning, configure MLflow para que apunte al URI de seguimiento del área de trabajo de Azure Machine Learning. Para más información sobre cómo conectar MLflow al área de trabajo, consulte Configuración de MLflow para Azure Machine Learning.

Configuración del experimento

MLflow organiza la información en experimentos y ejecuciones. Las ejecuciones se denominan trabajos en Azure Machine Learning. De manera predeterminada, ejecuta el registro en un experimento creado automáticamente denominado Predeterminado, pero puede configurar qué experimento realizar el seguimiento.

Blocs de notas
Trabajos

Para el entrenamiento interactivo, como en un cuaderno de Jupyter, use el comando mlflow.set_experiment() de MLflow. Por ejemplo, el siguiente fragmento de código configura un experimento:

experiment_name = 'hello-world-example'
mlflow.set_experiment(experiment_name)

Para enviar trabajos mediante la CLI o el SDK de Azure Machine Learning, establezca el nombre del experimento mediante la propiedad experiment_name del trabajo. No es necesario configurar el nombre del experimento en el script de entrenamiento.

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
command: echo "hello world"
environment:
  image: library/python:latest
tags:
  hello: world
display_name: hello-world-example
experiment_name: hello-world-example
description: |

Configurar la ejecución

Azure Machine Learning realiza un seguimiento de los trabajos de entrenamiento en lo que se ejecuta la llamada de MLflow. Usa ejecuciones para capturar todo el procesamiento que realiza el trabajo.

Blocs de notas
Trabajos

Al trabajar de forma interactiva, MLflow inicia el seguimiento de la rutina de entrenamiento en cuanto registra información que requiere una ejecución activa. Por ejemplo, si la funcionalidad de registro automático de Mlflow está habilitada, el seguimiento de MLflow se inicia al registrar una métrica o parámetro o iniciar un ciclo de entrenamiento.

Sin embargo, normalmente resulta útil iniciar la ejecución explícitamente, especialmente si se desea capturar el tiempo total del experimento en el campo Duración. Para iniciar la ejecución explícitamente, usa mlflow.start_run().

Tanto si inicia la ejecución manualmente como si no, finalmente debe detener la ejecución, de modo que MLflow sepa que la ejecución del experimento se realiza y puede marcar el estado de la ejecución como Completado. Para detener una ejecución, use mlflow.end_run().

El código siguiente inicia una ejecución manualmente y la termina al final del cuaderno:

mlflow.start_run()

# Your code

mlflow.end_run()

Es mejor iniciar ejecuciones manualmente para que no se olvide de terminarlas. Puede usar el paradigma del administrador de contextos para ayudarle a recordar finalizar la ejecución.

with mlflow.start_run() as run:
    # Your code

Al iniciar una nueva ejecución con mlflow.start_run(), puede resultar útil especificar el parámetro run_name, que posteriormente se traduce al nombre de la ejecución en la interfaz de usuario de Azure Machine Learning. Esta práctica le ayuda a identificar la ejecución más rápidamente.

with mlflow.start_run(run_name="hello-world-example") as run:
    # Your code

Los trabajos de Azure Machine Learning permiten enviar rutinas de entrenamiento o inferencia de larga duración como ejecuciones aisladas y reproducibles.

Crear una rutina de entrenamiento que tenga seguimiento

Al trabajar con tareas, normalmente se coloca toda la lógica de entrenamiento en forma de archivos dentro de una carpeta, como src. Uno de los archivos es un archivo de Python con el punto de entrada de código de entrenamiento.

En la rutina de entrenamiento, puede usar el SDK de MLflow para realizar un seguimiento de cualquier métrica, parámetro, artefactos o modelos. Para obtener ejemplos, consulte Métricas, parámetros y archivos de registro con MLflow.

En el ejemplo siguiente se muestra una rutina de entrenamiento hello_world.py que agrega registro:

# imports
import os
import mlflow

from random import random

# define functions
def main():
    mlflow.log_param("hello_param", "world")
    mlflow.log_metric("hello_metric", random())
    os.system(f"echo 'hello world' > helloworld.txt")
    mlflow.log_artifact("helloworld.txt")


# run functions
if __name__ == "__main__":
    # run main function
    main()

El ejemplo de código anterior no usa mlflow.start_run() pero, si se usa, MLflow reutiliza la ejecución activa actual. Por lo tanto, no es necesario quitar la línea mlflow.start_run() si migra código a Azure Machine Learning.

Asegúrate de que el entorno del trabajo tiene MLflow instalado

Todos los entornos mantenidos de Azure Machine Learning ya tienen MLflow instalado. Sin embargo, si usa un entorno personalizado, cree un archivo conda.yaml que tenga las dependencias que necesita y haga referencia al entorno en el trabajo.

channels:
- conda-forge
dependencies:
- python=3.8.5
- pip
- pip:
  - mlflow
  - azureml-mlflow
  - fastparquet
  - cloudpickle==1.6.0
  - colorama==0.4.4
  - dask==2023.2.0

Configuración del nombre del trabajo

Usa el parámetro display_name de los trabajos de Azure Machine Learning para configurar el nombre de la ejecución.

Usa la propiedad display_name para configurar el trabajo.

CLI de Azure
SDK de Python

Para configurar el trabajo, cree un archivo YAML con la definición de trabajo en un archivo de job.yml fuera del directorio src.

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
command: echo "hello world"
environment:
  image: library/python:latest
tags:
  hello: world
display_name: hello-world-example
experiment_name: hello-world-example
description: |

from azure.ai.ml import command, Environment

command_job = command(
    code="src",
    command="echo "hello world",
    environment=Environment(image="library/python:latest"),
    compute="cpu-cluster",
    display_name="hello-world-example"
)

Asegúrese de no usar mlflow.start_run(run_name="") dentro de la rutina de entrenamiento.

Enviar el archivo

El área de trabajo es el recurso de nivel superior para Azure Machine Learning, lo que proporciona un lugar centralizado para trabajar con todos los artefactos de Azure Machine Learning que cree. Conéctese al área de trabajo de Azure Machine Learning.

CLI de Azure
SDK de Python

az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>

Importe las bibliotecas necesarias:

from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

Configure los detalles del espacio de trabajo y obtenga acceso al espacio de trabajo.

subscription_id = "<subscription>"
resource_group = "<resource-group>"
workspace = "<workspace>"

ml_client = MLClient(DefaultAzureCredential(), subscription_id, resource_group, workspace)

Abra el terminal y use el código siguiente para enviar el trabajo. Los trabajos que usan MLflow y se ejecutan en Azure Machine Learning registran automáticamente cualquier información de seguimiento en el área de trabajo.
- CLI de Azure
- SDK de Python
Usa CLI de Azure Machine Learning para enviar el trabajo.
```
az ml job create -f job.yml --web
```
Utiliza SDK de Python para enviar el trabajo.
```
returned_job = ml_client.jobs.create_or_update(command_job)
returned_job.studio_url
```
Monitoriza el progreso del trabajo en Azure Machine Learning Studio.

Habilitación del registro automático de MLflow

Puede Registrar métricas, parámetros y archivos con MLflow manualmente y también puede confiar en la funcionalidad de registro automático de MLflow. Cada marco de aprendizaje automático compatible con MLflow determina qué registrar automáticamente por ti.

Para habilitar el registro automático, inserte el siguiente código antes del código de entrenamiento:

mlflow.autolog()

Ver métricas y artefactos en el espacio de trabajo

Las métricas y los artefactos procedentes del registro de MLflow se supervisan en el área de trabajo. Puede verlos y acceder a ellos en Azure Machine Learning Studio o acceder a ellos mediante programación a través del SDK de MLflow.

Para ver métricas y artefactos en Studio:

En la página Trabajos del área de trabajo, seleccione el nombre del experimento.
En la página de detalles del experimento, seleccione la pestaña Métricas.
Seleccione métricas registradas para representar gráficos en el lado derecho. Puede personalizar los gráficos aplicando suavizado, cambiando el color o trazando varias métricas en un solo gráfico. También puede cambiar el tamaño y reorganizar el diseño.
Una vez creada la vista deseada, guárdela para su uso futuro y compártala con sus compañeros de equipo mediante un vínculo directo.

Para acceder o consultar métricas, parámetros y artefactos programáticamente a través del SDK de MLflow, use mlflow.get_run().

import mlflow

run = mlflow.get_run("<RUN_ID>")

metrics = run.data.metrics
params = run.data.params
tags = run.data.tags

print(metrics, params, tags)

Sugerencia

En el ejemplo anterior solo se devuelve el último valor de una métrica determinada. Para recuperar todos los valores de una métrica determinada, use el método mlflow.get_metric_history. Para obtener más información sobre cómo recuperar valores de métricas, consulte Obtención de parámetros y métricas de una ejecución.

Para descargar artefactos registrados, como archivos y modelos, use mlflow.artifacts.download_artifacts().

mlflow.artifacts.download_artifacts(run_id="<RUN_ID>", artifact_path="helloworld.txt")

Para obtener más información acerca de cómo recuperar o comparar información de experimentos y ejecuciones en Azure Machine Learning mediante MLflow, consulte Consulta y comparación de experimentos y ejecuciones con MLflow.

Compartir a través de

Seguimiento de experimentos y modelos con MLflow

Requisitos previos

Configuración del experimento

Configurar la ejecución

Habilitación del registro automático de MLflow

Ver métricas y artefactos en el espacio de trabajo

Contenido relacionado

Comentarios

Recursos adicionales