Acompanhar experimentos e modelos de ML com o MLflow

Artigo
02/21/2024

Neste artigo, você aprenderá a usar o MLflow para acompanhar seus experimentos e execuções em espaço de trabalho do Azure Machine Learning.

Acompanhamento é o processo de salvar informações relevantes sobre experimentos executados. As informações salvas (metadados) variam de acordo com seu projeto e podem incluir:

Código
Detalhes do ambiente (como versão do sistema operacional, pacotes do Python)
Dados de entrada
Configurações de parâmetro
Modelos
Métricas da avaliação
Visualizações de avaliação (como matriz de confusão, gráficos de importância)
Resultados da avaliação (incluindo algumas previsões de avaliação)

Quando você está trabalhando com trabalhos no Azure Machine Learning, ele controla automaticamente algumas informações sobre seus experimentos, como código, ambiente e dados de entrada e saída. No entanto, para outros, como modelos, parâmetros e métricas, o construtor do modelo precisa configurar seu acompanhamento, pois são específicos para um cenário em particular.

Observação

Se você quiser acompanhar os experimentos em execução no Azure Databricks, consulte Acompanhar experimentos de Machine Learning do Azure Databricks com o MLflow e o Azure Machine Learning. Para saber mais sobre como acompanhar experimentos em execução no Azure Synapse Analytics, consulte Acompanhar experimentos de Machine Learning do Azure Synapse Analytics com o MLflow e o Azure Machine Learning.

Benefícios de acompanhar experimentos

Seja treinamento com trabalhos no Azure Machine Learning ou treinamento interativamente em notebooks, é altamente recomendável que os profissionais de aprendizado de máquina acompanhem experimentos. O acompanhamento de experimentos permite que você:

Organize todos os experimentos de aprendizado de máquina em um único lugar. Depois, você pode pesquisar e filtrar experimentos e analisar detalhadamente para ver detalhes sobre os experimentos que você executou anteriormente.
Compare experimentos, analise resultados e depure o treinamento do modelo com pouco trabalho extra.
Reproduza ou execute novamente experimentos para validar os resultados.
Melhore a colaboração, já que você pode ver o que outros colegas estão fazendo, compartilhe resultados do experimento e acesse dados de experimentos programaticamente.

Por que usar o MLflow para acompanhar experimentos?

Os espaços de trabalho do Azure Machine Learning são compatíveis com o MLflow. Isso significa que você pode usar o MLflow para acompanhar execuções, métricas, parâmetros e artefatos com seus espaços de trabalho do Azure Machine Learning. A principal vantagem de usar o MLflow para acompanhamento é que você não precisa alterar suas rotinas de treinamento para trabalhar com o Azure Machine Learning ou injetar qualquer sintaxe específica da nuvem.

Para obter integrações sobre todas as funcionalidades suportadas do MLflow e Azure Machine Learning, confira MLflow e Azure Machine Learning.

Limitações

Alguns métodos disponíveis na API do MLflow podem não estar disponíveis quando conectados ao Azure Machine Learning. Para obter detalhes sobre as operações com suporte e sem suporte, consulte Matriz de suporte para consultar execuções e experimentos.

Pré-requisitos

Uma assinatura do Azure. Caso não tenha uma assinatura do Azure, crie uma conta gratuita antes de começar. Experimente a versão gratuita ou paga do Azure Machine Learning.

Instale o pacote mlflow do SDK do MLflow e o plug-in do Azure Machine Learning para MLflow azureml-mlflow.
```
pip install mlflow azureml-mlflow
```
Dica

Você pode usar o pacote mlflow-skinny, que é um pacote MLflow leve sem dependências de servidor, interface do usuário, ciência de dados ou armazenamento do SQL. mlflow-skinny é recomendado para usuários que precisam principalmente dos recursos de acompanhamento e registro em log do MLflow sem importar o conjunto completo de recursos, incluindo implantações.
Um Workspace do Azure Machine Learning. Você pode criar um seguindo o tutorial Criar recursos de aprendizado de máquina.
- Veja quais permissões de acesso você precisa para executar suas operações do MLflow em seu espaço de trabalho.
Se você estiver realizando o acompanhamento remoto (ou seja, acompanhando experimentos que estão sendo executados fora do Azure Machine Learning), configure o MLflow para apontar para o URI de acompanhamento do espaço de trabalho do Azure Machine Learning. Para obter mais informações sobre como conectar o MLflow ao seu espaço de trabalho, consulte Configurar o MLflow para o Azure Machine Learning.

Configurar o experimento

O MLflow organiza as informações em experimentos e execuções (execuções são chamadas trabalhos no Azure Machine Learning). Por padrão, as execuções são registradas em um experimento chamado Padrão, que é criado automaticamente para você. Você pode configurar o experimento em que o rastreamento está acontecendo.

Trabalhando interativamente
Trabalhando com jobs

Para treinamento interativo, como em um Jupyter Notebook, use o seguinte comando MLflow mlflow.set_experiment(). Por exemplo, o snippet de código a seguir configura um exemplo de experimento:

experiment_name = 'hello-world-example'
mlflow.set_experiment(experiment_name)

Para enviar trabalhos, quando estiver usando a CLI ou SDK do Azure Machine Learning, defina o nome do experimento usando a propriedade experiment_name do trabalho. Você não precisa configurá-lo no script de treinamento.

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
command: echo "hello world"
environment:
  image: library/python:latest
tags:
  hello: world
display_name: hello-world-example
experiment_name: hello-world-example
description: |

Configurar a execução

O Azure Machine Learning acompanha qualquer trabalho de treinamento no que o MLflow chama de execução. Use execuções para capturar todo o processamento que seu trabalho executa.

Trabalhando interativamente
Trabalhando com jobs

Ao trabalhar interativamente, o MLflow começa a acompanhar sua rotina de treinamento assim que você tenta registrar informações que exigem uma execução ativa. Por exemplo, o acompanhamento do MLflow começa quando você registra uma métrica, um parâmetro ou inicia um ciclo de treinamento e a funcionalidade de registro automático do Mlflow está habilitada. No entanto, geralmente é útil iniciar a execução explicitamente, especialmente se você quiser capturar o tempo total do experimento no campo Duração. Para iniciar a execução explicitamente, use mlflow.start_run().

Se você iniciar a execução manualmente ou não, eventualmente precisará interromper a execução, para que o MLflow saiba que a execução do experimento está concluída e pode marcar o status da execução como Concluída. Para interromper uma execução, use mlflow.end_run().

É altamente recomendável iniciar as execuções manualmente para que você não se esqueça de encerrá-las ao trabalhar em notebooks.

Para iniciar uma execução manualmente e encerrá-la quando terminar de trabalhar no notebook:
```
mlflow.start_run()

# Your code

mlflow.end_run()
```
Geralmente é útil usar o paradigma do gerenciador de contexto para lembrar você de encerrar a execução:
```
with mlflow.start_run() as run:
    # Your code
```
Quando você inicia uma nova execução com mlflow.start_run(), pode ser útil especificar o parâmetro run_name, que se traduz no nome da execução na interface do usuário do Azure Machine Learning e ajuda a identificar a execução mais rapidamente:
```
with mlflow.start_run(run_name="hello-world-example") as run:
    # Your code
```

Os trabalhos do Azure Machine Learning permitem que você envie longas rotinas de treinamento ou inferência de execução como execuções isoladas e reproduzíveis.

Criar uma rotina de treinamento

Ao lidar com os trabalhos, normalmente você coloca toda a lógica de treinamento como arquivos dentro de uma pasta, por exemplo src. Um desses arquivos será um arquivo Python com seu ponto de entrada do código de treinamento. O seguinte exemplo mostra um exemplo hello_world.py:

# imports
import os
import mlflow

from random import random

# define functions
def main():
    mlflow.log_param("hello_param", "world")
    mlflow.log_metric("hello_metric", random())
    os.system(f"echo 'hello world' > helloworld.txt")
    mlflow.log_artifact("helloworld.txt")


# run functions
if __name__ == "__main__":
    # run main function
    main()

O exemplo de código anterior não usa mlflow.start_run(), mas, se usado, o MLflow reutiliza a execução ativa atual. Portanto, você não precisa remover a linha que usa mlflow.start_run() se estiver migrando código para o Azure Machine Learning.

Adicionar acompanhamento à sua rotina

Use o SDK do MLflow para acompanhar qualquer métrica, parâmetro, artefatos ou modelos. Para obter exemplos sobre como registrar cada um, consulte Registrar métricas, parâmetros e arquivos com o MLflow.

Verifique se o ambiente do trabalho tem o MLflow instalado

Todos os ambientes do Azure Machine Learning já têm o MLflow instalado para você, portanto, nenhuma ação será necessária se você estiver usando um ambiente coletado. No entanto, se você quiser usar um ambiente personalizado:

Crie um arquivo conda.yaml com as dependências necessárias:

channels:
- conda-forge
dependencies:
- python=3.8.5
- pip
- pip:
  - mlflow
  - azureml-mlflow
  - fastparquet
  - cloudpickle==1.6.0
  - colorama==0.4.4
  - dask==2023.2.0

Referencie o ambiente no trabalho que você está usando.

Configurar o nome do seu trabalho

Use o parâmetro display_name de trabalhos do Azure Machine Learning para configurar o nome da execução.

Usar a propriedade display_name para configurar o trabalho.

CLI do Azure
SDK do Python

Para enviar o trabalho, crie um arquivo YAML com a definição de trabalho em um arquivo job.yml. Esse arquivo deve ser criado fora do diretório src.

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
command: echo "hello world"
environment:
  image: library/python:latest
tags:
  hello: world
display_name: hello-world-example
experiment_name: hello-world-example
description: |

from azure.ai.ml import command, Environment

command_job = command(
    code="src",
    command="echo "hello world",
    environment=Environment(image="library/python:latest"),
    compute="cpu-cluster",
    display_name="hello-world-example"
)

Verifique se você não está usando mlflow.start_run(run_name="") dentro da sua rotina de treinamento.

Enviar o trabalho

Primeiro, conecte-se ao workspace do Azure Machine Learning no qual você trabalhará.
- CLI do Azure
- SDK do Python
```
az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>
```
O workspace é o recurso de nível superior para o Azure Machine Learning. Ele fornece um local centralizado para trabalhar com todos os artefatos que você cria ao usar o Azure Machine Learning. Nesta seção, nos conectaremos ao espaço de trabalho em que você executará tarefas de implantação.
1. Importe as bibliotecas necessárias:
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential
```
2. Configure os detalhes do workspace e obtenha um identificador para o workspace:
```
subscription_id = "<subscription>"
resource_group = "<resource-group>"
workspace = "<workspace>"

ml_client = MLClient(DefaultAzureCredential(), subscription_id, resource_group, workspace)
```
Enviar o trabalho
- CLI do Azure
- SDK do Python
Use a CLI do Azure Machine Learning para enviar seu trabalho. Trabalhos que usam o MLflow e são executados no Azure Machine Learning registrarão automaticamente qualquer informação de acompanhamento no espaço de trabalho. Abra seu terminal e use o código a seguir para enviar o trabalho.
```
az ml job create -f job.yml --web
```
Usar o SDK do Python para enviar seus trabalhos. Trabalhos que usam o MLflow e são executados no Azure Machine Learning registrarão automaticamente qualquer informação de acompanhamento no espaço de trabalho.
```
returned_job = ml_client.jobs.create_or_update(command_job)
returned_job.studio_url
```
Monitore o progresso do trabalho no Estúdio do Azure Machine Learning.

Habilitar o registro automático do MLflow

Você pode registrar métricas, parâmetros e arquivos com o MLflow manualmente. No entanto, você também pode contar com a funcionalidade de registro automático do MLflow. Cada estrutura de machine learning com suporte do MLflow decide o que rastrear automaticamente para você.

Para habilitar o registro em log automático, insira o seguinte código antes do seu código de treinamento:

mlflow.autolog()

Exibir métricas e artefatos no espaço de trabalho

As métricas e os artefatos no registro do MLflow são mantidos no espaço de trabalho. Você pode exibi-los e acessá-los no estúdio a qualquer momento ou acessá-los programaticamente por meio do SDK do MLflow.

Para exibir métricas e artefatos no estúdio:

Acesse o Estúdio do Azure Machine Learning.
Navegue até o workspace.
Localize o experimento pelo nome no seu espaço de trabalho.
Selecione as métricas registradas para renderizar gráficos no lado direito. Você pode personalizar os gráficos com a aplicação de suavização, alteração de cor ou uso de várias métricas em um único grafo. Você também pode redimensionar e reorganizar o layout conforme desejar.
Depois de criar a exibição desejada, salve-a para usar no futuro e compartilhe-a com seus colegas de equipe usando um link direto.

Para acessar ou consultar métricas, parâmetros e artefatos programaticamente através do SDK do MLflow, use mlflow.get_run().

import mlflow

run = mlflow.get_run("<RUN_ID>")

metrics = run.data.metrics
params = run.data.params
tags = run.data.tags

print(metrics, params, tags)

Dica

Para métricas, o código de exemplo anterior retornará apenas o último valor de uma determinada métrica. Se você quiser recuperar todos os valores de uma determinada métrica, use método mlflow.get_metric_history. Para obter mais informações sobre como recuperar valores de uma métrica, consulte Obter parâmetros e métricas de uma execução.

Para baixar artefatos que você registrou, como arquivos e modelos, use mlflow.artifacts.download_artifacts().

mlflow.artifacts.download_artifacts(run_id="<RUN_ID>", artifact_path="helloworld.txt")

Para obter mais informações sobre como recuperar ou comparar informações de experimentos e execuções no Azure Machine Learning usando o MLflow, confira Consultar e comparar experimentos e execuções com o MLflow.

Share via

Acompanhar experimentos e modelos de ML com o MLflow

Benefícios de acompanhar experimentos

Por que usar o MLflow para acompanhar experimentos?

Limitações

Pré-requisitos

Configurar o experimento

Configurar a execução

Criar uma rotina de treinamento

Adicionar acompanhamento à sua rotina

Verifique se o ambiente do trabalho tem o MLflow instalado

Configurar o nome do seu trabalho

Enviar o trabalho

Habilitar o registro automático do MLflow

Exibir métricas e artefatos no espaço de trabalho

Recursos adicionais

Share via

Acompanhar experimentos e modelos de ML com o MLflow

Benefícios de acompanhar experimentos

Por que usar o MLflow para acompanhar experimentos?

Limitações

Pré-requisitos

Configurar o experimento

Configurar a execução

Habilitar o registro automático do MLflow

Exibir métricas e artefatos no espaço de trabalho

Conteúdo relacionado

Recursos adicionais