MLflow モデルをログする

2025-05-08

この記事では、トレーニング済みの機械学習モデルまたは成果物を MLflow モデルとしてログに記録する方法について説明します。 MLflow は、機械学習ワークフローを管理するためのオープンソースフレームワークです。この記事では、MLflow がモデルをパッケージ化して実行する方法をカスタマイズするためのさまざまなオプションについて説明します。

[前提条件]

MLflow SDK mlflow パッケージ

アーティファクトの代わりにモデルをログに記録する理由

MLflow モデルは成果物の一種です。ただし、モデルには、モデルを作成するユーザーと使用するユーザーとの間のコントラクトとして機能する特定の構造があります。このコントラクトは、成果物自体とその意味の間を橋渡しするために役立ちます。

アーティファクトまたはファイルのログ記録と MLflow モデルのログ記録の違いについては、 MLflow の成果物とモデルに関するページを参照してください。

モデルのファイルは成果物としてログに記録できますが、モデルログには次の利点があります。

mlflow.<flavor>.load_modelを使用して推論用のモデルを直接読み込み、predict関数を使用できます。
パイプライン入力では、モデルを直接使用できます。
スコア付けスクリプトや環境を指定せずにモデルをデプロイできます。
Swagger は、デプロイされたエンドポイントで自動的にオンになります。その結果、Azure Machine Learning Studio のテスト機能を使用してモデルをテストできます。
責任ある AI ダッシュボードを使用できます。詳細については、「 Azure Machine Learning Studio で責任ある AI ダッシュボードを使用する」を参照してください。

自動ログ記録を使用してモデルをログに記録する

MLflow autolog 機能を使用して、モデルを自動的にログに記録できます。自動ログ記録を使用すると、MLflow は、フレームワーク内のすべての関連メトリック、パラメーター、成果物、およびモデルをキャプチャします。ログに記録されるデータは、フレームワークによって異なります。既定では、自動ログ記録が有効になっている場合、ほとんどのモデルがログに記録されます。状況によっては、モデルをログに記録しないフレーバーもあります。たとえば、PySpark フレーバーでは、特定のサイズを超えるモデルはログされません。

自動ログ記録をアクティブにするには、 mlflow.autolog または mlflow.<flavor>.autolog を使用します。次のコードでは、 autolog を使用して、XGBoost でトレーニングされた分類子モデルをログに記録します。

import mlflow
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score

mlflow.autolog()

model = XGBClassifier(use_label_encoder=False, eval_metric="logloss")
model.fit(X_train, y_train, eval_set=[(X_test, y_test)], verbose=False)

y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)

ヒント

scikit-learn パイプラインなどの機械学習パイプラインを使用する場合は、そのパイプラインフレーバーのautolog機能を使用してモデルをログに記録します。 fit メソッドがパイプラインオブジェクトで呼び出されると、モデルログが自動的に実行されます。モデルをログに記録し、前処理を含み、パイプラインを使用するノートブックについては、「 MLflow を使用した XGBoost 分類子のトレーニングと追跡」を参照してください。

カスタム署名、環境、またはサンプルを使用するログモデル

MLflow mlflow.<flavor>.log_model メソッドを使用して、モデルを手動でログに記録できます。このワークフローでは、モデルログのさまざまな側面を制御できます。

この方法は次のような場合に使用します。

自動的に検出されたパッケージまたは環境とは異なる Conda 環境または pip パッケージを指定する必要があります。
入力例を含める必要があります。
必要な特定の成果物をパッケージに含める必要があります。
autolog メソッドがシグネチャを正しく推論しません。このケースは、特定の図形を持つ署名が必要なテンソル入力を使用する場合に発生します。
autologメソッドは、すべてのニーズを満たしているわけではありません。

次のコードは、XGBoost 分類子モデルをログに記録します。

import mlflow
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score
from mlflow.models import infer_signature
from mlflow.utils.environment import _mlflow_conda_env

mlflow.autolog(log_models=False)

model = XGBClassifier(use_label_encoder=False, eval_metric="logloss")
model.fit(X_train, y_train, eval_set=[(X_test, y_test)], verbose=False)
y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)

# Infer the signature.
signature = infer_signature(X_test, y_test)

# Set up a Conda environment.
custom_env =_mlflow_conda_env(
    additional_conda_deps=None,
    additional_pip_deps=["xgboost==1.5.2"],
    additional_conda_channels=None,
)

# Sample the data.
input_example = X_train.sample(n=1)

# Log the model manually.
mlflow.xgboost.log_model(model, 
                         artifact_path="classifier", 
                         conda_env=custom_env,
                         signature=signature,
                         input_example=input_example)

注

autologの呼び出しでは、log_models=Falseの構成が使用されます。この設定により、MLflow モデルの自動ログ記録がオフになります。 log_modelメソッドは、後でモデルを手動でログに記録するために使用されます。
infer_signature メソッドは、入力と出力から署名を直接推論するために使用されます。
mlflow.utils.environment._mlflow_conda_env メソッドは、MLflow SDK のプライベートメソッドです。この例では、コードを効率化します。ただし、この方法は将来変更される可能性があるため、注意して使用してください。代わりに、YAML 定義を Python ディクショナリとして手動で生成できます。

変更された予測動作を使用するログモデル

mlflow.autologまたはmlflow.<flavor>.log_modelを使用してモデルをログに記録すると、モデルフレーバーによって推論の実行方法が決まります。フレーバーによって、モデルが返す内容も決まります。 MLflow では、 predict 結果の生成に関する特定の動作は強制されません。一部のシナリオでは、データの前処理または後処理が必要になる場合があります。

このような状況では、入力から出力に直接移動する機械学習パイプラインを実装できます。この種の実装ではパフォーマンスが向上することがありますが、実現するのは困難な場合があります。このような場合は、モデルが推論を処理する方法をカスタマイズすると便利です。詳細については、次のセクション「カスタムモデルのログ記録」を参照してください。

カスタムモデルをログに記録する

MLflow では、次のような多くの機械学習フレームワークがサポートされています。

CatBoost
FastAI
H₂O
Keras
LightGBM
MLeap
ONNX
予言者
PyTorch
scikit-learn（サイキット・ラーン）
spaCy
Spark MLlib
statsmodels（スタッツモデルズ）
TensorFlow
XGBoost

完全な一覧については、「モデルフレーバーBuilt-In 参照してください。

ただし、フレーバーの動作方法を変更したり、MLflow でネイティブにサポートされていないモデルをログに記録したりする必要がある場合があります。または、さまざまなフレームワークの複数の要素を使用するモデルをログに記録する必要がある場合があります。このような場合は、カスタムモデルフレーバーを作成できます。

この問題を解決するために、MLflow は Python モデルの既定のモデルインターフェイスである PyFunc フレーバーを提供します。このフレーバーは、そのオブジェクトが次の 2 つの条件を満たしている限り、任意のオブジェクトをモデルとしてログに記録できます。

少なくとも predict メソッドを実装します。
Python オブジェクトは、 mlflow.pyfunc.PythonModel クラスから継承します。

ヒント

scikit-learn API を実装するシリアル化可能なモデルでは、scikit-learn を使用してモデルが構築されたかどうかに関係なく、scikit-learn フレーバーを使用してモデルをログに記録できます。 Pickle 形式でモデルを保持でき、オブジェクトに少なくとも predict メソッドと predict_proba メソッドがある場合は、 mlflow.sklearn.log_model を使用して MLflow 実行内でモデルをログに記録できます。

カスタムモデルのフレーバーを作成する最も簡単な方法は、既存のモデルオブジェクトのラッパーを作成することです。 MLflow はモデルをシリアル化してパッケージ化します。 Python オブジェクトは、オブジェクトをファイルシステムにファイル (通常は Pickle 形式) として格納できる場合、シリアル化できます。実行時に、そのファイルからオブジェクトを読み込むことができます。読み込みでは、保存時に使用できるすべての値、プロパティ、およびメソッドが復元されます。

この方法は次のような場合に使用します。

Pickle 形式でモデルをシリアル化できます。
トレーニング直後のモデルの状態を維持する必要があります。
predict 関数の動作をカスタマイズしたい。

次のコードは、XGBoost フレーバーの既定の実装とは動作が異なるように、XGBoost で作成されたモデルをラップします。クラスの代わりに確率が返されます。

from mlflow.pyfunc import PythonModel, PythonModelContext

class ModelWrapper(PythonModel):
    def __init__(self, model):
        self._model = model

    def predict(self, context: PythonModelContext, data):
        # The next line uses a prediction function. However, you could also use model.recommend(), model.forecast(), or a similar function instead.
        return self._model.predict_proba(data)

    # You can add extra functions if you need to. Because the model is serialized,
    # all of them are available when you load your model.
    def predict_batch(self, data):
        pass

実行中にカスタムモデルをログに記録するには、次のコードを使用します。

import mlflow
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score
from mlflow.models import infer_signature

mlflow.xgboost.autolog(log_models=False)

model = XGBClassifier(use_label_encoder=False, eval_metric="logloss")
model.fit(X_train, y_train, eval_set=[(X_test, y_test)], verbose=False)
y_probs = model.predict_proba(X_test)

accuracy = accuracy_score(y_test, y_probs.argmax(axis=1))
mlflow.log_metric("accuracy", accuracy)

signature = infer_signature(X_test, y_probs)
mlflow.pyfunc.log_model("classifier", 
                        python_model=ModelWrapper(model),
                        signature=signature)

ヒント

前のコードでは、 infer_signature メソッドは y_probs を使用してシグネチャを推論します。ターゲット列にはターゲットクラスが含まれていますが、モデルはクラスごとに 2 つの確率を返します。

モデルが、読み込む必要がある複数の部分で構成されている場合があります。また、モデルを Pickle ファイルとしてシリアル化できない場合があります。このような場合は、 PythonModel クラスを使用できます。任意の成果物の一覧をサポートします。各成果物は、モデルと共にパッケージ化されます。

次のようなときはこの手法を使います。

Pickle 形式でモデルをシリアル化することはできません。または、より適切なシリアル化形式を使用できます。
モデルには、モデルを読み込むのに参照する必要がある 1 つ以上の成果物があります。
いくつかの推論構成プロパティ (推奨する項目の数など) を保持する必要があります。
モデルの読み込み方法と predict 関数の動作方法をカスタマイズする必要があります。

次のコードは、アーティファクトを使用するカスタムモデルをログに記録する方法を示しています。

encoder_path = 'encoder.pkl'
joblib.dump(encoder, encoder_path)

model_path = 'xgb.model'
model.save_model(model_path)

mlflow.pyfunc.log_model("classifier", 
                        python_model=ModelWrapper(),
                        artifacts={ 
                            'encoder': encoder_path,
                            'model': model_path 
                        },
                        signature=signature)

注

モデルは Pickle 形式では保存されません。代わりに、コードは、使用するフレームワークの save メソッドを使用してモデルを保存します。
ModelWrapper クラスはモデルをラップするために使用されますが、モデルは ModelWrapper コンストラクターに引数として渡されません。
log_model メソッドには、artifactsディクショナリパラメーターがあります。そのキーはアーティファクト名を保持します。各値には、成果物へのローカルファイルシステムのパスが含まれています。

対応するモデルラッパーは、次のコードのようになります。

from mlflow.pyfunc import PythonModel, PythonModelContext

class ModelWrapper(PythonModel):
    def load_context(self, context: PythonModelContext):
        import pickle
        from xgboost import XGBClassifier
        from sklearn.preprocessing import OrdinalEncoder
        
        self._encoder = pickle.loads(context.artifacts["encoder"])
        self._model = XGBClassifier(use_label_encoder=False, eval_metric="logloss")
        self._model.load_model(context.artifacts["model"])

    def predict(self, context: PythonModelContext, data):
        return self._model.predict_proba(data)

完全なトレーニングルーチンは、次のコードのようになります。

import mlflow
from xgboost import XGBClassifier
from sklearn.preprocessing import OrdinalEncoder
from sklearn.metrics import accuracy_score
from mlflow.models import infer_signature

mlflow.xgboost.autolog(log_models=False)

encoder = OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=np.nan)
X_train['thal'] = encoder.fit_transform(X_train['thal'].to_frame())
X_test['thal'] = encoder.transform(X_test['thal'].to_frame())

model = XGBClassifier(use_label_encoder=False, eval_metric="logloss")
model.fit(X_train, y_train, eval_set=[(X_test, y_test)], verbose=False)
y_probs = model.predict_proba(X_test)

accuracy = accuracy_score(y_test, y_probs.argmax(axis=1))
mlflow.log_metric("accuracy", accuracy)

encoder_path = 'encoder.pkl'
joblib.dump(encoder, encoder_path)
model_path = "xgb.model"
model.save_model(model_path)

signature = infer_signature(X, y_probs)
mlflow.pyfunc.log_model("classifier", 
                        python_model=ModelWrapper(),
                        artifacts={ 
                            'encoder': encoder_path,
                            'model': model_path 
                        },
                        signature=signature)

モデルに複雑なロジックがある場合や、推論時に複数のソースファイルを読み込む場合があります。この状況は、たとえば、モデル用の Python ライブラリがある場合に発生します。このシナリオでは、ライブラリをモデルと共にパッケージ化して、1 つの部分として機能するようにする必要があります。

次のようなときはこの手法を使います。

Pickle 形式でモデルをシリアル化することはできません。または、より適切なシリアル化形式を使用できます。
モデル成果物は、必要なすべての成果物を格納するフォルダーに格納できます。
モデルのソースコードは複雑であり、複数の Python ファイルが必要です。ライブラリがモデルをサポートしている可能性があります。
モデルの読み込み方法と predict 関数の動作方法をカスタマイズする必要があります。

MLflow では、これらの種類のモデルがサポートされています。 MLflow を使用する場合は、ソースコードに ローダーモジュールがある限り、モデルと共にパッケージ化する任意のソースコードを指定できます。ローダーを実装する Python 名前空間を示す loader_module パラメーターを使用して、log_modelの呼び出しでローダーモジュールを指定できます。 code_path パラメーターも必要です。ローダーモジュールを定義するソースファイルが提供されます。この名前空間では、成果物のパスを受け取り、少なくとも predict メソッドを実装するオブジェクトを返す_load_pyfunc(data_path: str)関数を実装する必要があります。

model_path = 'xgb.model'
model.save_model(model_path)

mlflow.pyfunc.log_model("classifier", 
                        data_path=model_path,
                        code_path=['src'],
                        loader_module='loader_module'
                        signature=signature)

注

モデルは Pickle 形式では保存されません。代わりに、コードは、使用するフレームワークの save メソッドを使用してモデルを保存します。
log_model メソッドには、モデル成果物を保持するフォルダーを指すdata_path パラメーターがあります。成果物は、フォルダーまたはファイルに含めることができます。成果物はモデルと共にパッケージ化されます。
log_model メソッドには、ソースコードの場所を指すcode_path パラメーターがあります。 code_path値には、パスまたは 1 つのファイルを指定できます。ソースコードはモデルと共にパッケージ化されます。
_load_pyfunc関数は、loader_module Python モジュールに格納されます。

src フォルダーには、loader_module.py ファイルが含まれています。このファイルはローダーモジュールとして機能し、次の行が含まれています。

class MyModel():
    def __init__(self, model):
        self._model = model

    def predict(self, data):
        return self._model.predict_proba(data)

def _load_pyfunc(data_path: str):
    import os

    model = XGBClassifier(use_label_encoder=False, eval_metric='logloss')
    model.load_model(os.path.abspath(data_path))

    return MyModel(model)

注

前に示したように、MyModel クラスは PythonModel から継承されません。ただし、 predict 関数があります。
モデルのソースコードはファイル内にあります。任意のソースコードが適しています。この状況では、src という名前のフォルダーが理想的です。
_load_pyfunc関数は、モデルのクラスのインスタンスを返します。

完全なトレーニングルーチンは、次のコードのようになります。

import mlflow
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score
from mlflow.models import infer_signature

mlflow.xgboost.autolog(log_models=False)

model = XGBClassifier(use_label_encoder=False, eval_metric="logloss")
model.fit(X_train, y_train, eval_set=[(X_test, y_test)], verbose=False)
y_probs = model.predict_proba(X_test)

accuracy = accuracy_score(y_test, y_probs.argmax(axis=1))
mlflow.log_metric("accuracy", accuracy)

model_path = "xgb.model"
model.save_model(model_path)

signature = infer_signature(X_test, y_probs)
mlflow.pyfunc.log_model("classifier",
                        data_path=model_path,
                        code_path=["loader_module.py"],
                        loader_module="loader_module",
                        signature=signature)

次のステップ

MLflow モデルをデプロイするためのガイドライン

次の方法で共有

MLflow モデルをログする

[前提条件]

アーティファクトの代わりにモデルをログに記録する理由

自動ログ記録を使用してモデルをログに記録する

カスタム署名、環境、またはサンプルを使用するログ モデル

変更された予測動作を使用するログ モデル

カスタム モデルをログに記録する

次のステップ

フィードバック

その他のリソース

カスタム署名、環境、またはサンプルを使用するログモデル

変更された予測動作を使用するログモデル

カスタムモデルをログに記録する