SDK v1에서 SDK v2로 로깅 마이그레이션

아티클
01/16/2024

Azure Machine Learning은 Azure Machine Learning Python SDK, Azure Machine Learning CLI 또는 Azure Machine Learning 스튜디오를 통해 실험을 만들었는지 여부에 관계없이 실험에 대한 메트릭 로깅 및 아티팩트 스토리지에 MLflow 추적을 사용합니다. 실험 추적에 MLflow를 사용하는 것이 좋습니다.

SDK v1에서 SDK v2로 마이그레이션하는 경우 이 섹션의 정보를 사용하여 SDK v1 로깅 API에 해당하는 MLflow를 이해합니다.

MLflow를 왜 사용합니까?

매월 1,300만 개 이상의 다운로드가 있는 MLflow는 모든 크기의 팀이 일괄 처리 또는 실시간 유추를 위해 모든 모델을 추적, 공유, 패키지 및 배포할 수 있도록 하는 엔드투엔드 MLOps의 표준 플랫폼이 되었습니다. Azure Machine Learning은 MLflow와 통합되어 학습 코드에 Azure Machine Learning 관련 지침이 포함되어 있지 않으므로 진정한 이식성과 다른 플랫폼과의 원활한 통합을 달성할 수 있습니다.

MLflow로 마이그레이션 준비

MLflow 추적을 사용하려면 Mlflow SDK 패키지 mlflow 및 MLflow azureml-mlflow용 Azure Machine Learning 플러그 인을 설치해야 합니다. 모든 Azure Machine Learning 환경에서는 이러한 패키지를 이미 사용할 수 있지만 사용자 고유의 환경을 만드는 경우 이러한 패키지를 포함해야 합니다.

pip install mlflow azureml-mlflow

작업 영역에 연결

Azure Machine Learning을 사용하면 사용자가 작업 영역에서 실행되거나 원격으로 실행되는 학습 작업(Azure Machine Learning 외부에서 실행되는 실험 추적)에서 추적을 수행할 수 있습니다. 원격 추적을 수행하는 경우 MLflow를 연결하려는 작업 영역을 나타내야 합니다.

Azure Machine Learning 컴퓨팅
원격 컴퓨팅

Azure Machine Learning 컴퓨팅에서 실행할 때 작업 영역에 이미 연결되어 있습니다.

추적 URI 구성

작업 영역에 대한 추적 URI를 가져옵니다.
- Azure CLI
- Python
- Studio
- 수동…
적용 대상:Azure CLI ml 확장 v2(현재)
1. 작업 영역에 로그인하고 구성합니다.
```
az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location> 
```
2. 다음 명령을 사용하여 추적 URI를 가져올 수 있습니다.az ml workspace
```
az ml workspace show --query mlflow_tracking_uri
```
적용 대상: Python SDK azure-ai-ml v2(현재)

Python용 Azure Machine Learning SDK v2를 사용하여 Azure ML MLflow 추적 URI를 가져올 수 있습니다. 사용 중인 컴퓨팅에 라이브러리 azure-ai-ml 가 설치되어 있는지 확인합니다. 다음 샘플에서는 작업 영역과 연결된 고유한 MLFLow 추적 URI를 가져옵니다.
1. 를 사용하여 작업 영역에 로그인합니다 MLClient. 이 작업을 수행하는 더 쉬운 방법은 작업 영역 구성 파일을 사용하는 것입니다.
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient.from_config(credential=DefaultAzureCredential())
```
  팁
  
  작업 영역 구성 파일은 다음을 수행하여 다운로드할 수 있습니다.
  
  Azure ML 스튜디오로 이동합니다.
  
  페이지의> 오른쪽 위 모서리를 클릭합니다. 구성 파일 다운로드
  
  config.json 파일을 작업 중인 동일한 디렉터리에 저장합니다.
2. 또는 구독 ID, 리소스 그룹 이름 및 작업 영역 이름을 사용하여 가져올 수 있습니다.
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

#Enter details of your AzureML workspace
subscription_id = '<SUBSCRIPTION_ID>'
resource_group = '<RESOURCE_GROUP>'
workspace_name = '<WORKSPACE_NAME>'

ml_client = MLClient(credential=DefaultAzureCredential(),
                        subscription_id=subscription_id, 
                        resource_group_name=resource_group,
                        workspace_name=workspace_name)
```
  Important
  
  DefaultAzureCredential은 사용 가능한 컨텍스트에서 자격 증명을 끌어오려고 시도합니다. 다른 방법으로 자격 증명을 지정하려는 경우(예: 대화형 방식으로 웹 브라우저를 사용) InteractiveBrowserCredential 또는 azure.identity 패키지에서 사용 가능한 다른 방법을 사용할 수 있습니다.
3. Azure Machine Learning 추적 URI를 가져옵니다.
```
mlflow_tracking_uri = ml_client.workspaces.get(ml_client.workspace_name).mlflow_tracking_uri
```
Azure Machine Learning 포털을 사용하여 추적 URI를 가져옵니다.
1. Azure Machine Learning 스튜디오 포털을 열고 자격 증명을 사용하여 로그인합니다.
2. 오른쪽 위 모서리에서 작업 영역의 이름을 클릭하여 디렉터리 + 구독 + 작업 영역 블레이드를 표시합니다.
3. Azure Portal에서 모든 속성 보기를 클릭합니다.
4. Essentials 섹션에서 MLflow 추적 URI 속성을 찾을 수 있습니다.
Azure Machine Learning 추적 URI는 구독 ID, 리소스가 배포된 지역, 리소스 그룹 이름 및 작업 영역 이름을 사용하여 생성할 수 있습니다. 다음 코드 샘플은 방법을 보여줍니다.

Warning

프라이빗 링크 사용 작업 영역에서 작업하는 경우 MLflow 엔드포인트는 프라이빗 링크를 사용하여 Azure Machine Learning과 통신합니다. 결과적으로 추적 URI는 여기에 제안된 대로 다르게 표시됩니다. 이러한 경우 Azure ML SDK 또는 CLI v2를 사용하여 추적 URI를 가져와야 합니다.
```
region = "<LOCATION>"
subscription_id = '<SUBSCRIPTION_ID>'
resource_group = '<RESOURCE_GROUP>'
workspace_name = '<AML_WORKSPACE_NAME>'

mlflow_tracking_uri = f"azureml://{region}.api.azureml.ms/mlflow/v1.0/subscriptions/{subscription_id}/resourceGroups/{resource_group}/providers/Microsoft.MachineLearningServices/workspaces/{workspace_name}"
```
추적 URI 구성:
- MLflow SDK 사용
- 환경 변수 사용
그런 다음, 메서드 set_tracking_uri()는 MLflow 추적 URI로 해당 URI를 가리킵니다.
```
import mlflow

mlflow.set_tracking_uri(mlflow_tracking_uri)
```
컴퓨팅에서 MLFLOW_TRACKING_URI MLflow 환경 변수를 설정하여 기본적으로 Azure Machine Learning을 가리키도록 해당 컴퓨팅의 MLflow와 상호 작용할 수 있습니다.
```
MLFLOW_TRACKING_URI=$(az ml workspace show --query mlflow_tracking_uri | sed 's/"//g') 
```
팁

Azure Databricks 클러스터, Azure Synapse Analytics 클러스터 등과 같은 공유 환경에서 작업하는 경우 클러스터 수준에서 환경 변수 MLFLOW_TRACKING_URI 를 설정하여 세션별로 수행하지 않고 클러스터에서 실행되는 모든 세션에 대해 Azure Machine Learning을 가리키도록 MLflow 추적 URI를 자동으로 구성하는 것이 유용합니다.

인증 구성

추적이 구성되면 연결된 작업 영역에서 인증을 수행하는 방법도 구성해야 합니다. 기본적으로 MLflow용 Azure Machine Learning 플러그 인은 기본 브라우저를 열고 자격 증명을 묻는 메시지를 표시하여 대화형 인증을 수행합니다. Azure Machine Learning용 MLflow 구성: Azure Machine Learning 작업 영역에서 MLflow에 대한 인증을 구성하는 더 많은 방법에 대한 인증 구성을 참조하세요.

세션에 연결된 사용자가 있는 대화형 작업의 경우 대화형 인증을 사용할 수 있으므로 추가 작업이 필요하지 않습니다.

Warning

대화형 브라우저 인증은 자격 증명을 묻는 메시지가 표시될 때 코드 실행을 차단합니다. 학습 작업과 같은 무인 환경에서 인증에 적합한 옵션이 아닙니다. 다른 인증 모드를 구성하는 것이 좋습니다.

무인 실행이 필요한 시나리오의 경우 Azure Machine Learning과 통신하도록 서비스 주체를 구성해야 합니다.

MLflow SDK
환경 변수 사용

import os

os.environ["AZURE_TENANT_ID"] = "<AZURE_TENANT_ID>"
os.environ["AZURE_CLIENT_ID"] = "<AZURE_CLIENT_ID>"
os.environ["AZURE_CLIENT_SECRET"] = "<AZURE_CLIENT_SECRET>"

export AZURE_TENANT_ID="<AZURE_TENANT_ID>"
export AZURE_CLIENT_ID="<AZURE_CLIENT_ID>"
export AZURE_CLIENT_SECRET="<AZURE_CLIENT_SECRET>"

팁

공유 환경에서 작업할 때 컴퓨팅에서 이러한 환경 변수를 구성하는 것이 좋습니다. 가능한 경우 Azure Key Vault 인스턴스에서 비밀로 관리하는 것이 가장 좋습니다. 예를 들어 Azure Databricks에서는 클러스터 구성 AZURE_CLIENT_SECRET={{secrets/<scope-name>/<secret-name>}}에서 다음과 같이 환경 변수에서 비밀을 사용할 수 있습니다. Azure Databricks에서 수행하는 방법에 대한 환경 변수의 비밀 참조를 참조하거나 플랫폼에서 유사한 설명서를 참조하세요.

실험 및 실행

SDK v1

from azureml.core import Experiment

# create an Azure Machine Learning experiment and start a run
experiment = Experiment(ws, "create-experiment-sdk-v1")
azureml_run = experiment.start_logging()

MLflow가 포함된 SDK v2

# Set the MLflow experiment and start a run
mlflow.set_experiment("logging-with-mlflow")
mlflow_run = mlflow.start_run()

로깅 API 비교

정수 또는 부동 소수점 메트릭 기록

SDK v1

azureml_run.log("sample_int_metric", 1)

MLflow가 포함된 SDK v2

mlflow.log_metric("sample_int_metric", 1)

부울 메트릭 기록

SDK v1

azureml_run.log("sample_boolean_metric", True)

MLflow가 포함된 SDK v2

mlflow.log_metric("sample_boolean_metric", 1)

문자열 메트릭 기록

SDK v1

azureml_run.log("sample_string_metric", "a_metric")

MLflow가 포함된 SDK v2

mlflow.log_text("sample_string_text", "string.txt")

문자열은 메트릭이 아닌 아티팩트로 기록됩니다. Azure Machine Learning 스튜디오에서는 값이 출력 + 로그 탭에 표시됩니다.

PNG 또는 JPEG 파일에 이미지 기록

SDK v1

azureml_run.log_image("sample_image", path="Azure.png")

MLflow가 포함된 SDK v2

mlflow.log_artifact("Azure.png")

이미지는 아티팩트로 기록되며 Azure Machine Learning 스튜디오의 이미지 탭에 표시됩니다.

matplotlib.pyplot 기록

SDK v1

import matplotlib.pyplot as plt

plt.plot([1, 2, 3])
azureml_run.log_image("sample_pyplot", plot=plt)

MLflow가 포함된 SDK v2

import matplotlib.pyplot as plt

plt.plot([1, 2, 3])
fig, ax = plt.subplots()
ax.plot([0, 1], [2, 3])
mlflow.log_figure(fig, "sample_pyplot.png")

이미지는 아티팩트로 기록되며 Azure Machine Learning 스튜디오의 이미지 탭에 표시됩니다.

메트릭 목록 기록

SDK v1

list_to_log = [1, 2, 3, 2, 1, 2, 3, 2, 1]
azureml_run.log_list('sample_list', list_to_log)

MLflow가 포함된 SDK v2

list_to_log = [1, 2, 3, 2, 1, 2, 3, 2, 1]
from mlflow.entities import Metric
from mlflow.tracking import MlflowClient
import time

metrics = [Metric(key="sample_list", value=val, timestamp=int(time.time() * 1000), step=0) for val in list_to_log]
MlflowClient().log_batch(mlflow_run.info.run_id, metrics=metrics)

메트릭은 Azure Machine Learning 스튜디오의 메트릭 탭에 표시됩니다.
텍스트 값은 지원되지 않습니다.

메트릭 행 기록

SDK v1

azureml_run.log_row("sample_table", col1=5, col2=10)

MLflow가 포함된 SDK v2

metrics = {"sample_table.col1": 5, "sample_table.col2": 10}
mlflow.log_metrics(metrics)

메트릭은 Azure Machine Learning 스튜디오에서 테이블로 렌더링되지 않습니다.
텍스트 값은 지원되지 않습니다.
메트릭이 아닌 아티팩트로 기록됩니다.

테이블 기록

SDK v1

table = {
"col1" : [1, 2, 3],
"col2" : [4, 5, 6]
}
azureml_run.log_table("table", table)

MLflow가 포함된 SDK v2

# Add a metric for each column prefixed by metric name. Similar to log_row
row1 = {"table.col1": 5, "table.col2": 10}
# To be done for each row in the table
mlflow.log_metrics(row1)

# Using mlflow.log_artifact
import json

with open("table.json", 'w') as f:
json.dump(table, f)
mlflow.log_artifact("table.json")

각 열에 대한 메트릭을 기록합니다.
메트릭은 Azure Machine Learning 스튜디오에서 테이블로 렌더링되지 않습니다.
텍스트 값은 지원되지 않습니다.
메트릭이 아닌 아티팩트로 기록됩니다.

정확도 테이블 기록

SDK v1

ACCURACY_TABLE = '{"schema_type": "accuracy_table", "schema_version": "v1", "data": {"probability_tables": ' +\
        '[[[114311, 385689, 0, 0], [0, 0, 385689, 114311]], [[67998, 432002, 0, 0], [0, 0, ' + \
        '432002, 67998]]], "percentile_tables": [[[114311, 385689, 0, 0], [1, 0, 385689, ' + \
        '114310]], [[67998, 432002, 0, 0], [1, 0, 432002, 67997]]], "class_labels": ["0", "1"], ' + \
        '"probability_thresholds": [0.52], "percentile_thresholds": [0.09]}}'

azureml_run.log_accuracy_table('v1_accuracy_table', ACCURACY_TABLE)

MLflow가 포함된 SDK v2

ACCURACY_TABLE = '{"schema_type": "accuracy_table", "schema_version": "v1", "data": {"probability_tables": ' +\
        '[[[114311, 385689, 0, 0], [0, 0, 385689, 114311]], [[67998, 432002, 0, 0], [0, 0, ' + \
        '432002, 67998]]], "percentile_tables": [[[114311, 385689, 0, 0], [1, 0, 385689, ' + \
        '114310]], [[67998, 432002, 0, 0], [1, 0, 432002, 67997]]], "class_labels": ["0", "1"], ' + \
        '"probability_thresholds": [0.52], "percentile_thresholds": [0.09]}}'

mlflow.log_dict(ACCURACY_TABLE, 'mlflow_accuracy_table.json')

메트릭은 Azure Machine Learning 스튜디오에서 정확도 테이블로 렌더링되지 않습니다.
메트릭이 아닌 아티팩트로 기록됩니다.
mlflow.log_dict 메서드는 실험적입니다.

혼동 행렬 기록

SDK v1

CONF_MATRIX = '{"schema_type": "confusion_matrix", "schema_version": "v1", "data": {"class_labels": ' + \
    '["0", "1", "2", "3"], "matrix": [[3, 0, 1, 0], [0, 1, 0, 1], [0, 0, 1, 0], [0, 0, 0, 1]]}}'

azureml_run.log_confusion_matrix('v1_confusion_matrix', json.loads(CONF_MATRIX))

MLflow가 포함된 SDK v2

CONF_MATRIX = '{"schema_type": "confusion_matrix", "schema_version": "v1", "data": {"class_labels": ' + \
    '["0", "1", "2", "3"], "matrix": [[3, 0, 1, 0], [0, 1, 0, 1], [0, 0, 1, 0], [0, 0, 0, 1]]}}'

mlflow.log_dict(CONF_MATRIX, 'mlflow_confusion_matrix.json')

메트릭은 Azure Machine Learning 스튜디오에서 혼동 행렬로 렌더링되지 않습니다.
메트릭이 아닌 아티팩트로 기록됩니다.
mlflow.log_dict 메서드는 실험적입니다.

로그 예측

SDK v1

PREDICTIONS = '{"schema_type": "predictions", "schema_version": "v1", "data": {"bin_averages": [0.25,' + \
    ' 0.75], "bin_errors": [0.013, 0.042], "bin_counts": [56, 34], "bin_edges": [0.0, 0.5, 1.0]}}'

azureml_run.log_predictions('test_predictions', json.loads(PREDICTIONS))

MLflow가 포함된 SDK v2

PREDICTIONS = '{"schema_type": "predictions", "schema_version": "v1", "data": {"bin_averages": [0.25,' + \
    ' 0.75], "bin_errors": [0.013, 0.042], "bin_counts": [56, 34], "bin_edges": [0.0, 0.5, 1.0]}}'

mlflow.log_dict(PREDICTIONS, 'mlflow_predictions.json')

메트릭은 Azure Machine Learning 스튜디오에서 혼동 행렬로 렌더링되지 않습니다.
메트릭이 아닌 아티팩트로 기록됩니다.
mlflow.log_dict 메서드는 실험적입니다.

로그 잔류

SDK v1

RESIDUALS = '{"schema_type": "residuals", "schema_version": "v1", "data": {"bin_edges": [100, 200, 300], ' + \
'"bin_counts": [0.88, 20, 30, 50.99]}}'

azureml_run.log_residuals('test_residuals', json.loads(RESIDUALS))

MLflow가 포함된 SDK v2

RESIDUALS = '{"schema_type": "residuals", "schema_version": "v1", "data": {"bin_edges": [100, 200, 300], ' + \
'"bin_counts": [0.88, 20, 30, 50.99]}}'

mlflow.log_dict(RESIDUALS, 'mlflow_residuals.json')

메트릭은 Azure Machine Learning 스튜디오에서 혼동 행렬로 렌더링되지 않습니다.
메트릭이 아닌 아티팩트로 기록됩니다.
mlflow.log_dict 메서드는 실험적입니다.

실행 정보 및 데이터 보기

MLflow run(mlflow.entities.Run) 개체의 data 및 info 속성을 사용하여 실행 정보에 액세스할 수 있습니다.

팁

Azure Machine Learning의 실험 및 실행 추적 정보는 실험 및 실행을 쉽게 쿼리 및 검색하고 결과를 빠르게 비교할 수 있는 포괄적인 검색 API를 제공하는 MLflow를 사용하여 쿼리할 수 있습니다. 이 차원의 MLflow의 모든 기능에 대한 자세한 내용은 MLflow를 사용하여 실험 및 실행 비교 쿼리를 참조 하세요.

다음 예제에서는 완료된 실행을 검색하는 방법을 보여줍니다.

from mlflow.tracking import MlflowClient

# Use MlFlow to retrieve the run that was just completed
client = MlflowClient()
finished_mlflow_run = MlflowClient().get_run("<RUN_ID>")

다음 예제에서는 metrics, tags 및 params를 보는 방법을 보여 줍니다.

metrics = finished_mlflow_run.data.metrics
tags = finished_mlflow_run.data.tags
params = finished_mlflow_run.data.params

참고 항목

metrics에는 지정된 메트릭에 대해 가장 최근에 로그된 값만 있습니다. 예를 들어 1 값을 순서대로 로깅한 다음, 23, 마지막으로 4를 sample_metric이라는 메트릭에 로그인하는 경우 metrics 사전에는 4만 표시됩니다. 명명된 특정 메트릭에 대해 기록된 모든 메트릭을 가져오려면 MlFlowClient.get_metric_history를 사용합니다.

with mlflow.start_run() as multiple_metrics_run:
    mlflow.log_metric("sample_metric", 1)
    mlflow.log_metric("sample_metric", 2)
    mlflow.log_metric("sample_metric", 3)
    mlflow.log_metric("sample_metric", 4)

print(client.get_run(multiple_metrics_run.info.run_id).data.metrics)
print(client.get_metric_history(multiple_metrics_run.info.run_id, "sample_metric"))

자세한 내용은 MlFlowClient 참조를 참조하세요.

info 필드는 시작 시간, 실행 ID, 실험 ID 등과 같은 실행에 대한 일반 정보를 제공합니다.

run_start_time = finished_mlflow_run.info.start_time
run_experiment_id = finished_mlflow_run.info.experiment_id
run_id = finished_mlflow_run.info.run_id

실행 아티팩트 보기

실행의 아티팩트를 보려면 MlFlowClient.list_artifacts를 사용합니다.

client.list_artifacts(finished_mlflow_run.info.run_id)

아티팩트를 다운로드하려면 mlflow.artifacts.download_artifacts를 사용합니다.

mlflow.artifacts.download_artifacts(run_id=finished_mlflow_run.info.run_id, artifact_path="Azure.png")

다음 단계

MLflow를 사용하여 ML 실험 및 모델 추적.
MLflow로 메트릭, 매개 변수 및 파일 로그.
MLflow 모델 로깅.
MLflow를 사용하여 실험 및 실행을 쿼리하고 비교합니다.
MLflow를 사용하여 Azure Machine Learning에서 모델 레지스트리를 관리합니다.

SDK v1에서 SDK v2로 로깅 마이그레이션

MLflow를 왜 사용합니까?

MLflow로 마이그레이션 준비

작업 영역에 연결

실험 및 실행

로깅 API 비교

정수 또는 부동 소수점 메트릭 기록

부울 메트릭 기록

문자열 메트릭 기록

PNG 또는 JPEG 파일에 이미지 기록

matplotlib.pyplot 기록

메트릭 목록 기록

메트릭 행 기록

테이블 기록

정확도 테이블 기록

혼동 행렬 기록

로그 예측

로그 잔류

실행 정보 및 데이터 보기

실행 아티팩트 보기

다음 단계

추가 리소스