使用 MLflow 追蹤實驗和模型

發行項
11/09/2024

追蹤是儲存實驗相關信息的程式。在本文中，您將瞭解如何使用 MLflow 來追蹤實驗，並在 Azure 機器學習工作區中執行。

連線到 Azure Machine Learning 時，MLflow API 中提供的某些方法可能無法使用。如需支援和不支援作業的詳細資訊，請參閱查詢執行和實驗的支援矩陣。您也可以從 MLflow 和 Azure 機器學習一文中了解 Azure 機器學習中支援的 MLflow 功能。

注意

若要追蹤在 Azure Databricks 上執行的實驗，請參閱使用 MLflow 和 Azure 機器學習追蹤 Azure Databricks ML 實驗。
若要追蹤在 Azure Synapse Analytics 上執行的實驗，請參閱使用 MLflow 和 Azure 機器學習追蹤 Azure Synapse Analytics ML 實驗。

必要條件

擁有 Azure 訂用帳戶，其中包含免費或付費版本的 Azure 機器學習。
若要執行 Azure CLI 和 Python 命令，請安裝 Azure CLI v2 和適用於 Python 的 Azure 機器學習 SDK v2。 ml Azure CLI 的擴充功能會在您第一次執行 Azure 機器學習 CLI 命令時自動安裝。

安裝 MLflow SDK mlflow 套件和適用於 MLflow 的 azureml-mlflow Azure 機器學習外掛程式，如下所示：
```
pip install mlflow azureml-mlflow
```
提示

您可使用 mlflow-skinny 套件，這是輕量型 MLflow 套件，沒有 SQL 儲存體、伺服器、UI 或資料科學相依性。對於主要需要 MLflow 追蹤和記錄功能的使用者，而不需匯入完整的功能套件，包括部署，建議使用此套件。
建立 Azure Machine Learning 工作區。若要建立工作區，請參閱建立您需要開始使用的資源。檢閱您在工作區中執行 MLflow 作業所需的存取權限。
若要執行遠程追蹤，或追蹤在 Azure 機器學習外部執行的實驗，請將 MLflow 設定為指向 Azure 機器學習工作區的追蹤 URI。如需如何將 MLflow 連線至工作區的詳細資訊，請參閱設定適用於 Azure Machine Learning 的 MLflow。

設定實驗

MLflow 會在實驗和執行中組織資訊。執行稱為 Azure 機器學習中的作業。根據預設，執行記錄至名為 Default 的自動建立實驗，但您可以設定要追蹤的實驗。

Notebooks
工作

如需互動式定型，例如在 Jupyter 筆記本中，請使用 MLflow 命令 mlflow.set_experiment()。例如，下列程式碼片段會設定實驗：

experiment_name = 'hello-world-example'
mlflow.set_experiment(experiment_name)

若要使用 Azure 機器學習 CLI 或 SDK 提交作業，請使用experiment_name作業的屬性來設定實驗名稱。您不需要在訓練文本中設定實驗名稱。

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
command: echo "hello world"
environment:
  image: library/python:latest
tags:
  hello: world
display_name: hello-world-example
experiment_name: hello-world-example
description: |

設定執行

Azure 機器學習追蹤 MLflow 呼叫執行的訓練作業。使用執行來擷取作業執行的所有處理。

Notebooks
工作

當您以互動方式工作時，只要記錄需要作用中執行的資訊，MLflow 就會開始追蹤您的訓練例程。例如，如果已啟用 Mlflow 的自動記錄功能，MLflow 追蹤會在您記錄計量或參數時啟動，或啟動定型週期。

不過，明確啟動執行通常很有説明，特別是如果您想要在 [持續時間 ] 字段中擷取實驗的總時間。若要明確啟動執行，請使用 mlflow.start_run()。

無論您是否手動啟動執行，您最終都需要停止執行，讓 MLflow 知道您的實驗執行已完成，而且可以將執行的狀態標示為 [已完成]。若要停止執行，請使用 mlflow.end_run()。

下列程式代碼會手動啟動執行，並在筆記本結尾結束：

mlflow.start_run()

# Your code

mlflow.end_run()

最好手動啟動執行，以免忘記結束它們。您可以使用內容管理員範例來協助您記住結束執行。

with mlflow.start_run() as run:
    # Your code

當您使用啟動新的執行mlflow.start_run()時，指定參數會很有用run_name，稍後會在 Azure 機器學習使用者介面中轉譯為執行的名稱。這種做法可協助您更快速地識別執行。

with mlflow.start_run(run_name="hello-world-example") as run:
    # Your code

Azure Machine Learning 作業可讓您將長時間執行的定型或推斷常式提交為隔離且可重現的執行。

建立具有追蹤的定型例程

當您使用作業時，通常會將所有定型邏輯放在資料夾內，例如 src。其中一個檔案是具有定型程式代碼進入點的 Python 檔案。

在定型例程中，您可以使用 MLflow SDK 來追蹤任何計量、參數、成品或模型。如需範例，請參閱使用 MLflow 記錄計量、參數和檔案。

下列範例顯示新增 記錄的 hello_world.py定型例程：

# imports
import os
import mlflow

from random import random

# define functions
def main():
    mlflow.log_param("hello_param", "world")
    mlflow.log_metric("hello_metric", random())
    os.system(f"echo 'hello world' > helloworld.txt")
    mlflow.log_artifact("helloworld.txt")


# run functions
if __name__ == "__main__":
    # run main function
    main()

先前的程式代碼範例不會使用 mlflow.start_run() ，但如果已使用，MLflow 會重複使用目前的使用中執行。因此，如果您將程式代碼遷移至 Azure 機器學習，就不需要移除mlflow.start_run()該行。

請確定作業的環境已安裝 MLflow

所有 Azure 機器學習策劃的環境都已安裝 MLflow。不過，如果您使用自定義環境，請建立 conda.yaml 檔案，其中包含您需要的相依性，並參考作業中的環境。

channels:
- conda-forge
dependencies:
- python=3.8.5
- pip
- pip:
  - mlflow
  - azureml-mlflow
  - fastparquet
  - cloudpickle==1.6.0
  - colorama==0.4.4
  - dask==2023.2.0

設定作業名稱

使用 Azure Machine Learning 作業參數 display_name 來設定執行的名稱。

使用 display_name 屬性來設定作業。

Azure CLI
Python SDK

若要設定作業，請在 src 目錄外的job.yml檔案中，使用您的作業定義建立 YAML 檔案。

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
command: echo "hello world"
environment:
  image: library/python:latest
tags:
  hello: world
display_name: hello-world-example
experiment_name: hello-world-example
description: |

from azure.ai.ml import command, Environment

command_job = command(
    code="src",
    command="echo "hello world",
    environment=Environment(image="library/python:latest"),
    compute="cpu-cluster",
    display_name="hello-world-example"
)

請務必不要在訓練例程內使用 mlflow.start_run(run_name="") 。

提交作業

工作區是 Azure 機器學習的最上層資源，可提供集中位置來處理您所建立的所有 Azure 機器學習成品。聯機到 Azure 機器學習工作區。

Azure CLI
Python SDK

az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>

匯入必要的程式庫：

from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

設定工作區詳細資料，並取得工作區的控制代碼：

subscription_id = "<subscription>"
resource_group = "<resource-group>"
workspace = "<workspace>"

ml_client = MLClient(DefaultAzureCredential(), subscription_id, resource_group, workspace)

開啟您的終端機，並使用下列程式碼來提交作業。使用 MLflow 並在 Azure Machine Learning 上執行的作業，會自動將任何追蹤資訊記錄到工作區。
- Azure CLI
- Python SDK
使用 Azure Machine Learning CLI 提交作業。
```
az ml job create -f job.yml --web
```
使用 Python SDK 提交作業。
```
returned_job = ml_client.jobs.create_or_update(command_job)
returned_job.studio_url
```
在 Azure Machine Learning 工作室中監視作業進度。

啟用 MLflow 自動記錄

您可以使用 MLflow 手動記錄計量、參數和檔案，也可以依賴 MLflow 的自動記錄功能。 MLflow 支援的每個機器學習架構都會決定自動追蹤的內容。

若要啟用自動記錄功能，請在您的定型程式碼前面插入下列程式碼：

mlflow.autolog()

在您的工作區中檢視計量和成品

您的工作區中會追蹤 MLflow 記錄中的計量和成品。您可以在 Azure Machine Learning 工作室中檢視和存取它們，或透過 MLflow SDK 以程式設計方式存取它們。

若要在工作室中檢視計量和成品：

在工作區的 [ 作業] 頁面上，選取實驗名稱。
在實驗詳細數據頁面上，選取 [ 計量] 索引標籤 。
選取記錄的計量，以在右側呈現圖表。您可以藉由套用平滑、變更色彩或繪製單一圖表上的多個計量來自訂圖表。您也可以重設大小並重新排列版面配置。
建立想要的檢視之後，請儲存以供日後使用，並使用直接連結與您的小組成員共用。

若要透過 MLflow SDK 以程式設計方式存取或查詢計量、參數和成品，請使用 mlflow.get_run（）。

import mlflow

run = mlflow.get_run("<RUN_ID>")

metrics = run.data.metrics
params = run.data.params
tags = run.data.tags

print(metrics, params, tags)

提示

上述範例只會傳回指定計量的最後一個值。若要擷取指定計量的所有值，請使用 mlflow.get_metric_history 方法。如需擷取計量值的詳細資訊，請參閱從執行取得參數和計量。

若要下載您記錄的成品，例如檔案和模型，請使用 mlflow.artifacts.download_artifacts（）。

mlflow.artifacts.download_artifacts(run_id="<RUN_ID>", artifact_path="helloworld.txt")

如需如何使用 MLflow 從實驗擷取或比較資訊，以及使用 MLflow 在 Azure 機器學習中執行的詳細資訊，請參閱查詢和比較實驗與 MLflow。

共用方式為

使用 MLflow 追蹤實驗和模型

必要條件

設定實驗

設定執行

建立具有追蹤的定型例程

請確定作業的環境已安裝 MLflow

設定作業名稱

提交作業

啟用 MLflow 自動記錄

在您的工作區中檢視計量和成品

意見反應

其他資源

共用方式為

使用 MLflow 追蹤實驗和模型

必要條件

設定實驗

設定執行

啟用 MLflow 自動記錄

在您的工作區中檢視計量和成品

相關內容

意見反應

其他資源