MLflow를 사용하여 ML 실험 및 모델 추적

아티클
04/09/2024

이 문서에서는 MLflow를 사용하여 Azure Machine Learning 작업 영역에서 실험 및 실행을 추적하는 방법을 알아봅니다.

추적은 실행한 실험에 대한 관련 정보를 저장하는 프로세스입니다. 저장된 정보(메타데이터)는 프로젝트에 따라 다르며 다음이 포함될 수 있습니다.

코드
환경 세부 정보(예: OS 버전, Python 패키지)
입력 데이터
매개 변수 구성
모델
평가 메트릭
평가 시각화(예: 혼동 행렬, 중요도 플롯)
평가 결과(일부 평가 예측 포함)

Azure Machine Learning에서 작업을 수행할 때 Azure Machine Learning은 코드, 환경, 입력 및 출력 데이터 등 실험에 대한 일부 정보를 자동으로 추적합니다. 그러나 모델, 매개 변수, 메트릭과 같은 다른 항목의 경우 특정 시나리오에 맞게 추적을 구성해야 합니다.

참고 항목

Azure Databricks에서 실행 중인 실험을 추적하려면 MLflow 및 Azure Machine Learning을 사용하여 Azure Databricks ML 실험 추적을 참조하세요. Azure Synapse Analytics에서 실행 중인 실험 추적에 대해 알아보려면 MLflow 및 Azure Machine Learning을 사용하여 Azure Synapse Analytics ML 실험 추적을 참조하세요.

실험 추적의 이점

Azure Machine Learning에서 작업을 사용하여 학습하든 Notebooks에서 대화형으로 학습하든 상관없이 Machine Learning 전문가는 실험을 추적하는 것이 좋습니다. 실험 추적을 통해 다음을 수행할 수 있습니다.

모든 기계 학습 실험을 한 곳에서 정리합니다. 그런 다음 실험을 검색 및 필터링하고 드릴다운하여 이전에 실행한 실험에 대한 세부 정보를 확인할 수 있습니다.
약간의 추가 작업으로 실험을 비교하고, 결과를 분석하고, 모델 학습을 디버그합니다.
실험을 재현하거나 다시 실행하여 결과의 유효성을 검사합니다.
다른 팀원이 무엇을 하고 있는지 확인하고, 실험 결과를 공유하고, 실험 데이터에 프로그래밍 방식으로 액세스할 수 있으므로 협업이 개선됩니다.

실험 추적에 MLflow를 사용하는 이유는 무엇인가요?

Azure Machine Learning 작업 영역은 MLflow와 호환되므로 MLflow를 사용하여 Azure Machine Learning 작업 영역에서 실행, 메트릭, 매개 변수 및 아티팩트를 추적할 수 있습니다. 추적을 위해 MLflow를 사용하는 주요 이점은 Azure Machine Learning을 사용하거나 클라우드 관련 구문을 삽입하기 위해 학습 루틴을 변경할 필요가 없다는 것입니다.

지원되는 모든 MLflow 및 Azure Machine Learning 기능에 대한 자세한 내용은 MLflow 및 Azure Machine Learning을 참조하세요.

제한 사항

Azure Machine Learning에 연결된 경우 MLflow API에서 사용할 수 있는 일부 메서드를 사용하지 못할 수 있습니다. 지원되는 작업과 지원되지 않는 작업에 대한 자세한 내용은 실행 및 실험 쿼리 지원 매트릭스를 참조하세요.

필수 구성 요소

Azure 구독 Azure 구독이 아직 없는 경우 시작하기 전에 체험 계정을 만듭니다. Azure Machine Learning 평가판 또는 유료 버전을 사용해 보세요.

MLflow SDK 패키지 mlflow 및 MLflow용 Azure Machine Learning 플러그 인 azureml-mlflow를 설치합니다.
```
pip install mlflow azureml-mlflow
```
팁

SQL 스토리지, 서버, UI 또는 데이터 과학 종속성이 없는 경량 MLflow 패키지인 mlflow-skinny 패키지를 사용할 수 있습니다. mlflow-skinny는 배포를 포함한 전체 기능 도구 모음을 가져오지 않고 MLflow의 추적 및 로깅 기능이 주로 필요한 사용자에게 권장됩니다.
Azure Machine Learning 작업 영역 기계 학습 리소스 만들기 자습서에 따라 리소스를 만들 수 있습니다.
- 작업 영역에서 MLflow 작업을 수행하는 데 필요한 액세스 권한을 확인합니다.
원격 추적(즉, Azure Machine Learning 외부에서 실행되는 실험 추적)을 수행하는 경우 Azure Machine Learning 작업 영역의 추적 URI를 가리키도록 MLflow를 구성합니다. MLflow를 작업 영역에 연결하는 방법에 대한 자세한 내용은 Azure Machine Learning에 대한 MLflow 구성을 참조하세요.

실험을 구성합니다.

MLflow는 실험 및 실행을 통해 정보를 구성합니다(Azure Machine Learning에서는 실행을 작업이라고 함). 기본적으로 실행은 자동으로 만들어지는 Default라는 실험에 기록됩니다. 추적이 발생하는 실험을 구성할 수 있습니다.

대화형으로 작업
작업 사용

Jupyter Notebook과 같은 대화형 학습의 경우 MLflow 명령 mlflow.set_experiment()를 사용합니다. 예를 들어, 다음 코드 조각은 실험을 구성합니다.

experiment_name = 'hello-world-example'
mlflow.set_experiment(experiment_name)

작업을 제출하려면 Azure Machine Learning CLI 또는 SDK를 사용할 때 작업의 experiment_name 속성을 사용하여 실험 이름을 설정합니다. 학습 스크립트에서 이를 구성할 필요가 없습니다.

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
command: echo "hello world"
environment:
  image: library/python:latest
tags:
  hello: world
display_name: hello-world-example
experiment_name: hello-world-example
description: |

실행 구성

Azure Machine Learning은 MLflow가 실행이라고 부르는 모든 학습 작업을 추적합니다. 실행을 사용하여 작업이 수행하는 모든 처리를 캡처합니다.

대화형으로 작업
작업 사용

대화형으로 작업할 때 MLflow는 활성 실행이 필요한 정보를 기록하려고 시도하는 즉시 학습 루틴을 추적하기 시작합니다. 예를 들어, MLflow 추적은 메트릭, 매개 변수를 기록하거나 학습 주기를 시작할 때 시작되고 Mlflow의 자동 로깅 기능이 사용하도록 설정됩니다. 그러나 일반적으로 실행을 명시적으로 시작하는 것이 도움이 되며, 특히 기간 필드에서 실험의 총 시간을 캡처하려는 경우 더욱 그렇습니다. 실행을 명시적으로 시작하려면 mlflow.start_run()을 사용합니다.

수동으로 실행을 시작하는지 여부에 관계없이 MLflow가 실험 실행이 완료되었음을 인식하고 실행 상태를 완료됨으로 표시할 수 있도록 결국 실행을 중지해야 합니다. 실행을 중지하려면 mlflow.end_run()을 사용합니다.

Notebooks에서 작업할 때 실행을 종료하는 것을 잊지 않도록 수동으로 실행을 시작하는 것이 좋습니다.

수동으로 실행을 시작하고 Notebook에서 작업을 마친 후 종료하려면 다음을 수행합니다.
```
mlflow.start_run()

# Your code

mlflow.end_run()
```
일반적으로 실행 종료를 기억하는 데 도움이 되는 컨텍스트 관리자 패러다임을 사용하는 것이 도움이 됩니다.
```
with mlflow.start_run() as run:
    # Your code
```
mlflow.start_run()을 사용하여 새 실행을 시작할 때 run_name 매개 변수를 지정하는 것이 유용할 수 있습니다. 이 매개 변수는 나중에 Azure Machine Learning 사용자 인터페이스에서 실행 이름으로 변환되고 실행을 더 빠르게 식별하는 데 도움이 됩니다.
```
with mlflow.start_run(run_name="hello-world-example") as run:
    # Your code
```

Azure Machine Learning 작업을 사용하면 장기 학습 또는 유추 루틴을 격리되고 재현 가능한 실행으로 제출할 수 있습니다.

학습 루틴 만들기

작업을 수행할 때 일반적으로 모든 학습 논리를 폴더(예: src) 내에 파일로 배치합니다. 이러한 파일 중 하나는 학습 코드 진입점이 있는 Python 파일입니다. 다음 예제에서는 hello_world.py 예제를 보여 줍니다.

# imports
import os
import mlflow

from random import random

# define functions
def main():
    mlflow.log_param("hello_param", "world")
    mlflow.log_metric("hello_metric", random())
    os.system(f"echo 'hello world' > helloworld.txt")
    mlflow.log_artifact("helloworld.txt")


# run functions
if __name__ == "__main__":
    # run main function
    main()

이전 코드 예에서는 mlflow.start_run()을 사용하지 않지만 사용하는 경우 MLflow는 현재 활성 실행을 재사용합니다. 따라서 코드를 Azure Machine Learning으로 마이그레이션하는 경우 mlflow.start_run()을 사용하는 줄을 제거할 필요가 없습니다.

루틴에 추적 추가

MLflow SDK를 사용하여 메트릭, 매개 변수, 아티팩트 또는 모델을 추적합니다. 이를 기록하는 방법에 대한 예는 MLflow를 사용하여 메트릭, 매개 변수 및 파일 기록을 참조하세요.

작업 환경에 MLflow가 설치되어 있는지 확인

모든 Azure Machine Learning 환경에는 이미 MLflow가 설치되어 있으므로 큐레이팅된 환경을 사용하는 경우 아무 작업도 필요하지 않습니다. 그러나 사용자 지정 환경을 사용하려면 다음을 수행합니다.

필요한 종속성이 포함된 conda.yaml 파일을 만듭니다.

channels:
- conda-forge
dependencies:
- python=3.8.5
- pip
- pip:
  - mlflow
  - azureml-mlflow
  - fastparquet
  - cloudpickle==1.6.0
  - colorama==0.4.4
  - dask==2023.2.0

사용 중인 작업의 환경을 참조합니다.

작업 이름 구성

Azure Machine Learning 작업 매개 변수 display_name을 사용하여 실행 이름을 구성합니다.

display_name 속성을 사용하여 작업을 구성합니다.

Azure CLI
Python SDK

작업을 제출하려면 job.yml 파일에 작업 정의가 포함된 YAML 파일을 만듭니다. 이 파일은 src 디렉터리 외부에서 만들어야 합니다.

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
command: echo "hello world"
environment:
  image: library/python:latest
tags:
  hello: world
display_name: hello-world-example
experiment_name: hello-world-example
description: |

from azure.ai.ml import command, Environment

command_job = command(
    code="src",
    command="echo "hello world",
    environment=Environment(image="library/python:latest"),
    compute="cpu-cluster",
    display_name="hello-world-example"
)

학습 루틴 내에서 mlflow.start_run(run_name="")을 사용하고 있지 않은지 확인합니다.

작업 제출

먼저 작업을 수행할 Azure Machine Learning 작업 영역에 연결합니다.
- Azure CLI
- Python SDK
```
az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>
```
작업 영역은 Azure Machine Learning의 최상위 리소스로, Azure Machine Learning을 사용할 때 만든 모든 아티팩트를 사용할 수 있는 중앙 집중식 환경을 제공합니다. 이 섹션에서는 배포 작업을 수행할 작업 영역에 연결합니다.
1. 필요한 라이브러리 가져오기:
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential
```
2. 작업 영역 세부 정보를 구성하고 작업 영역에 대한 핸들을 가져옵니다.
```
subscription_id = "<subscription>"
resource_group = "<resource-group>"
workspace = "<workspace>"

ml_client = MLClient(DefaultAzureCredential(), subscription_id, resource_group, workspace)
```
작업 제출
- Azure CLI
- Python SDK
Azure Machine Learning CLI를 사용하여 작업을 제출합니다. MLflow를 사용하고 Azure Machine Learning에서 실행되는 작업은 모든 추적 정보를 작업 영역에 자동으로 기록합니다. 터미널을 열고 다음 코드를 사용하여 작업을 제출합니다.
```
az ml job create -f job.yml --web
```
Python SDK를 사용하여 작업을 제출합니다. MLflow를 사용하고 Azure Machine Learning에서 실행되는 작업은 모든 추적 정보를 작업 영역에 자동으로 기록합니다.
```
returned_job = ml_client.jobs.create_or_update(command_job)
returned_job.studio_url
```
Azure Machine Learning 스튜디오에서 작업 진행률을 모니터링합니다.

MLflow 자동 로깅 사용

수동으로 MLflow로 메트릭, 매개 변수 및 파일을 로그할 수 있습니다. 그러나 MLflow 자동 로깅 기능을 사용할 수도 있습니다. MLflow에서 지원하는 각 기계 학습 프레임워크는 자동으로 추적할 항목을 결정합니다.

자동 로깅을 사용하도록 설정하려면 학습 코드 앞에 다음 코드를 삽입합니다.

mlflow.autolog()

작업 영역에서 메트릭 및 아티팩트 보기

MLflow 로깅의 메트릭과 아티팩트는 작업 영역에 추적됩니다. 언제든지 스튜디오에서 보고 액세스하거나 MLflow SDK를 통해 프로그래밍 방식으로 액세스할 수 있습니다.

스튜디오에서 메트릭 및 아티팩트를 보려면 다음 안내를 따릅니다.

Azure Machine Learning 스튜디오로 이동합니다.
작업 영역으로 이동
작업 영역에서 이름으로 실험을 찾습니다.
로그된 메트릭을 선택하여 오른쪽에 차트를 렌더링합니다. 부드러운 색을 적용하거나, 색을 변경하거나, 단일 그래프에 여러 메트릭을 표시하여 차트를 사용자 지정할 수 있습니다. 레이아웃의 크기를 조정하고 원하는 대로 다시 정렬할 수도 있습니다.
원하는 보기를 만든 후에는 나중에 사용할 수 있도록 저장하고 직접 링크를 사용하여 팀원과 공유합니다.

MLflow SDK를 통해 프로그래밍 방식으로 메트릭, 매개 변수 및 아티팩트에 액세스하거나 쿼리하려면 mlflow.get_run()을 사용합니다.

import mlflow

run = mlflow.get_run("<RUN_ID>")

metrics = run.data.metrics
params = run.data.params
tags = run.data.tags

print(metrics, params, tags)

팁

메트릭의 경우 이전 예 코드에서는 지정된 메트릭의 마지막 값만 반환합니다. 특정 메트릭의 모든 값을 검색하려면 mlflow.get_metric_history 메서드를 사용합니다. 메트릭 값 검색에 대한 자세한 내용은 실행에서 매개 변수 및 메트릭 가져오기를 참조하세요.

파일, 모델 등 로깅한 아티팩트를 다운로드하려면 mlflow.artifacts.download_artifacts()를 사용합니다.

mlflow.artifacts.download_artifacts(run_id="<RUN_ID>", artifact_path="helloworld.txt")

MLflow를 사용하여 Azure Machine Learning의 실험 및 실행에서 정보를 쿼리 또는 비교하는 방법에 대한 자세한 내용은 MLflow를 사용하여 실험 및 실행 쿼리 및 비교를 참조하세요.