Registro de modelos de MLflow

Artículo
09/03/2024

En este artículo se describe cómo registrar los modelos entrenados (o artefactos) como modelos de MLflow. Explora las distintas formas de personalizar cómo MLflow empaqueta los modelos y cómo ejecuta esos modelos.

¿Por qué registrar modelos en lugar de artefactos?

De artefactos a modelos en MLflow describe la diferencia entre los artefactos o archivos de registro, en comparación con los modelos de MLflow de registro.

Un modelo en MLflow también es un artefacto. Sin embargo, este modelo tiene una estructura específica que actúa como un contrato entre la persona que creó el modelo y la persona que pretende usarlo. Este contrato crea un puente entre los artefactos y sus significados.

El registro de modelos tiene estas ventajas:

Puede cargar directamente los modelos, para la inferencia, con mlflow.<flavor>.load_model y usar la función predict
Las entradas de canalización pueden usar modelos directamente
Puede implementar modelos sin indicar un script de puntuación o un entorno
Swagger se habilita automáticamente en puntos de conexión implementados y Estudio de Azure Machine Learning puede usar la característica Prueba
Puede usar el panel de IA responsable

En esta sección se describe cómo usar el concepto del modelo en Azure Machine Learning con MLflow:

Registro de modelos mediante el registro automático

Puede usar la funcionalidad de registro automático de MLflow. El registro automático permite a MLflow indicar al marco que use que registre todas las métricas, parámetros, artefactos y modelos que el marco considera pertinente. De forma predeterminada, si el registro automático está habilitado, la mayoría de los modelos se registran. En algunas situaciones, es posible que algunos tipos no registren un modelo. Por ejemplo, el tipo de PySpark no registra modelos que superen un tamaño determinado.

Use mlflow.autolog() o mlflow.<flavor>.autolog() para activar el registro automático. Este ejemplo, usa autolog() para registrar un modelo clasificador entrenado con XGBoost:

import mlflow
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score

mlflow.autolog()

model = XGBClassifier(use_label_encoder=False, eval_metric="logloss")
model.fit(X_train, y_train, eval_set=[(X_test, y_test)], verbose=False)

y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)

Sugerencia

Si usa canalizaciones de Machine Learning, por ejemplo, canalizaciones de Scikit-Learn, use la funcionalidad autolog de ese tipo de canalización para registrar modelos. El registro de modelos se produce automáticamente cuando se llama al método fit() en el objeto de canalización. El cuaderno Training and tracking an XGBoost classifier with MLflow (Entrenamiento y seguimiento de un clasificador de XGBoost con MLflow) muestra cómo registrar un modelo con preprocesamiento mediante canalizaciones.

Registro de modelos con firmas, entornos o ejemplos personalizados

El método mlflow.<flavor>.log_model MLflow puede registrar manualmente los modelos. Este flujo de trabajo puede controlar diferentes aspectos del registro de modelos.

Utilice este método cuando:

Quiera indicar paquetes PIP o un entorno de Conda que difieran de los que se detectan automáticamente
Quiera incluir ejemplos de entrada
Quiera incluir artefactos específicos en el paquete necesario
autolog no infiera su firma correctamente. Esto es importante con las entradas de tensor, donde la firma necesita formas específicas
El comportamiento del registro automático no satisfaga su propósito por algún motivo

El siguiente código de ejemplo registra un modelo para un clasificador de XGBoost:

import mlflow
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score
from mlflow.models import infer_signature
from mlflow.utils.environment import _mlflow_conda_env

mlflow.autolog(log_models=False)

model = XGBClassifier(use_label_encoder=False, eval_metric="logloss")
model.fit(X_train, y_train, eval_set=[(X_test, y_test)], verbose=False)
y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)

# Signature
signature = infer_signature(X_test, y_test)

# Conda environment
custom_env =_mlflow_conda_env(
    additional_conda_deps=None,
    additional_pip_deps=["xgboost==1.5.2"],
    additional_conda_channels=None,
)

# Sample
input_example = X_train.sample(n=1)

# Log the model manually
mlflow.xgboost.log_model(model, 
                         artifact_path="classifier", 
                         conda_env=custom_env,
                         signature=signature,
                         input_example=input_example)

Nota:

autolog tiene la configuración de log_models=False. Esto evita el registro automático de modelos de MLflow. El registro automático de modelos de MLflow se produce más adelante, como un proceso manual
Use el método infer_signature para intentar deducir la firma directamente desde entradas y salidas
mlflow.utils.environment._mlflow_conda_env es un método privado en el SDK de MLflow. En este ejemplo, simplifica el código, pero úselo con precaución, pues podría cambiar en el futuro. Como alternativa, puede generar la definición de YAML manualmente como diccionario de Python.

Registro de modelos con un comportamiento diferente en el método predict

Al registrar un modelo con mlflow.autolog o mlflow.<flavor>.log_model, el tipo de modelo determina cómo ejecutar la inferencia y lo que devuelve el modelo. MLflow no impone ningún comportamiento específico para la generación de resultados de predict. En algunos escenarios, puede que desee realizar preprocesamiento o procesamiento posterior antes y después de que se ejecute el modelo.

En esta situación, implemente canalizaciones de aprendizaje automático que se mueven directamente de entradas a salidas. Aunque esta implementación es posible y, a veces, se recomienda para mejorar el rendimiento, podría resultar difícil lograrla. En esos casos, puede ser útil personalizar cómo controla el modelo las inferencias como se explica en la sección siguiente.

Registro de modelos personalizados

MLflow admite muchos marcos de aprendizaje automático, como los siguientes:

CatBoost
FastAI
h2o
Keras
LightGBM
MLeap
MXNet Gluon
ONNX
Prophet
PyTorch
Scikit-Learn
spaCy
Spark MLLib
statsmodels
TensorFlow
XGBoost

Sin embargo, puede que deba cambiar la forma en que funciona un tipo, registrar un modelo no compatible de forma nativa con MLflow o incluso registrar un modelo que use varios elementos de diferentes marcos. En esos casos, podría ser necesario crear un tipo de modelo personalizado.

Para resolver el problema, MLflow presenta el tipo pyfunc (a partir de una función de Python). Este tipo puede registrar cualquier objeto como modelo, siempre que ese objeto cumpla dos condiciones:

Que usted implemente, al menos, el método predict
Que el objeto de Python se herede de mlflow.pyfunc.PythonModel

Sugerencia

Los modelos serializables que implementan la API Scikit-learn pueden usar el tipo Scikit-learn para registrar el modelo, independientemente de si el modelo se creó con Scikit-learn o no. Si puede conservar el modelo en formato pickle y el objeto tiene los métodos predict() y predict_proba() (como mínimo), puede usar mlflow.sklearn.log_model() para registrar el modelo dentro de una ejecución de MLflow.

Si crea un contenedor para el objeto de modelo existente, es más sencillo crear un tipo para el modelo personalizado. MLflow lo serializa y lo empaqueta automáticamente. Los objetos de Python son serializables cuando se pueden almacenar en el sistema de archivos como un archivo, generalmente con el formato pickle. En tiempo de ejecución, el objeto puede materializarse desde ese archivo. Esto restaura todos los valores, propiedades y métodos disponibles cuando se guardó.

Utilice este método cuando:

Pueda serializar el modelo en formato pickle
Pueda conservar el estado del modelo, ya que fue justo después del entrenamiento
Quiera personalizar cómo opera la función predict.

Este ejemplo de código encapsula un modelo creado con XGBoost, para que se comporte de forma distinta a la implementación predeterminada del tipo XGBoost. En su lugar, devuelve las probabilidades en lugar de las clases:

from mlflow.pyfunc import PythonModel, PythonModelContext

class ModelWrapper(PythonModel):
    def __init__(self, model):
        self._model = model

    def predict(self, context: PythonModelContext, data):
        # You don't have to keep the semantic meaning of `predict`. You can use here model.recommend(), model.forecast(), etc
        return self._model.predict_proba(data)

    # You can even add extra functions if you need to. Since the model is serialized,
    # all of them will be available when you load your model back.
    def predict_batch(self, data):
        pass

Registre un modelo personalizado en la ejecución:

import mlflow
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score
from mlflow.models import infer_signature

mlflow.xgboost.autolog(log_models=False)

model = XGBClassifier(use_label_encoder=False, eval_metric="logloss")
model.fit(X_train, y_train, eval_set=[(X_test, y_test)], verbose=False)
y_probs = model.predict_proba(X_test)

accuracy = accuracy_score(y_test, y_probs.argmax(axis=1))
mlflow.log_metric("accuracy", accuracy)

signature = infer_signature(X_test, y_probs)
mlflow.pyfunc.log_model("classifier", 
                        python_model=ModelWrapper(model),
                        signature=signature)

Sugerencia

Aquí, el método infer_signature usa y_probs para deducir la firma. La columna de destino tiene la clase de destino, pero el modelo ahora devuelve las dos probabilidades de cada clase.

El modelo puede estar compuesto de varias piezas que deben cargarse. Es posible que no tenga una manera de serializarlo como un archivo pickle. En esos casos, PythonModel admite que se indique una lista arbitraria de artefactos. Cada artefacto se empaqueta junto con el modelo.

Use esta técnica cuando:

No pueda serializar el modelo en formato pickle o tenga un mejor formato de serialización disponible
El modelo tenga uno o varios artefactos a los que se deba hacer referencia para cargar el modelo
Quiera conservar algunas propiedades de configuración de inferencia; por ejemplo, el número de elementos que se recomienda
Quiera personalizar la forma en la que se carga el modelo y el funcionamiento de predict

En este ejemplo de código se muestra cómo registrar un modelo personalizado mediante artefactos:

encoder_path = 'encoder.pkl'
joblib.dump(encoder, encoder_path)

model_path = 'xgb.model'
model.save_model(model_path)

mlflow.pyfunc.log_model("classifier", 
                        python_model=ModelWrapper(),
                        artifacts={ 
                            'encoder': encoder_path,
                            'model': model_path 
                        },
                        signature=signature)

Nota:

El modelo no se guardó como pickle. En su lugar, el código guardó el modelo con el método de guardar del marco que usó
El contenedor de modelos es ModelWrapper(), pero el modelo no se pasa como parámetro al constructor. Un nuevo parámetro de diccionario (artifacts) tiene claves como nombres de artefacto y valores como la ruta de acceso en el sistema de archivos local donde se almacena el artefacto

A continuación, el contenedor de modelos correspondiente tendría el siguiente aspecto:

from mlflow.pyfunc import PythonModel, PythonModelContext

class ModelWrapper(PythonModel):
    def load_context(self, context: PythonModelContext):
        import pickle
        from xgboost import XGBClassifier
        from sklearn.preprocessing import OrdinalEncoder
        
        self._encoder = pickle.loads(context.artifacts["encoder"])
        self._model = XGBClassifier(use_label_encoder=False, eval_metric="logloss")
        self._model.load_model(context.artifacts["model"])

    def predict(self, context: PythonModelContext, data):
        return self._model.predict_proba(data)

La rutina de entrenamiento completa tendría este aspecto:

import mlflow
from xgboost import XGBClassifier
from sklearn.preprocessing import OrdinalEncoder
from sklearn.metrics import accuracy_score
from mlflow.models import infer_signature

mlflow.xgboost.autolog(log_models=False)

encoder = OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=np.nan)
X_train['thal'] = encoder.fit_transform(X_train['thal'].to_frame())
X_test['thal'] = encoder.transform(X_test['thal'].to_frame())

model = XGBClassifier(use_label_encoder=False, eval_metric="logloss")
model.fit(X_train, y_train, eval_set=[(X_test, y_test)], verbose=False)
y_probs = model.predict_proba(X_test)

accuracy = accuracy_score(y_test, y_probs.argmax(axis=1))
mlflow.log_metric("accuracy", accuracy)

encoder_path = 'encoder.pkl'
joblib.dump(encoder, encoder_path)
model_path = "xgb.model"
model.save_model(model_path)

signature = infer_signature(X, y_probs)
mlflow.pyfunc.log_model("classifier", 
                        python_model=ModelWrapper(),
                        artifacts={ 
                            'encoder': encoder_path,
                            'model': model_path 
                        },
                        signature=signature)

Un modelo puede tener lógica compleja o puede cargar varios archivos de origen en el momento de la inferencia. Esto sucede si, por ejemplo, tiene una biblioteca de Python para el modelo. En este escenario, conviene empaquetar la biblioteca junto con el modelo para poder moverlos como una sola pieza.

Use esta técnica cuando:

No pueda serializar el modelo en formato pickle o tenga un mejor formato de serialización disponible
Pueda almacenar los artefactos del modelo en una carpeta que almacene todos los artefactos necesarios
El código fuente del modelo tenga una gran complejidad y requiera varios archivos de Python. Potencialmente, una biblioteca admita el modelo
Quiera personalizar la forma en que se carga el modelo y cómo opera la función predict

MLflow admite estos modelos. Con MLflow, puede especificar cualquier código fuente arbitrario para empaquetar junto con el modelo, siempre y cuando tenga un módulo de cargador. Puede especificar módulos del cargador en la instrucción log_model() con el argumento loader_module, que indica el espacio de nombres de Python que implementa el cargador. También se requiere el argumento code_path para indicar los archivos de origen que definen el loader_module. En este espacio de nombres, debe implementar una función _load_pyfunc(data_path: str) que recibe la ruta de acceso de los artefactos y devuelve un objeto con una predicción de método (al menos).

model_path = 'xgb.model'
model.save_model(model_path)

mlflow.pyfunc.log_model("classifier", 
                        data_path=model_path,
                        code_path=['src'],
                        loader_module='loader_module'
                        signature=signature)

Nota:

El modelo no se guardó como pickle. En su lugar, el código guardó el modelo con el método de guardar del marco que usó
Nuevo parámetro (data_path): apunta a la carpeta que contiene los artefactos del modelo. Los artefactos pueden ser una carpeta o un archivo. Esos artefactos, ya sea una carpeta o un archivo, se empaquetarán con el modelo
Un nuevo parámetro, code_path, apunta a la ubicación del código fuente. El recurso en esta ubicación puede ser una ruta de acceso o un único archivo. Ese recurso, ya sea una carpeta o un archivo, se empaquetará con el modelo
La función _load_pyfunc se almacena en el módulo loader_module de Python

La carpeta src contiene el archivo loader_module.py. Ese archivo es el módulo del cargador:

src/loader_module.py

class MyModel():
    def __init__(self, model):
        self._model = model

    def predict(self, data):
        return self._model.predict_proba(data)

def _load_pyfunc(data_path: str):
    import os

    model = XGBClassifier(use_label_encoder=False, eval_metric='logloss')
    model.load_model(os.path.abspath(data_path))

    return MyModel(model)

Nota:

La clase MyModel no hereda de PythonModel como se muestra anteriormente. Sin embargo, tiene una función de predict
El código fuente del modelo está en un archivo. Cualquier código fuente funcionará. Una carpeta src es ideal para esto
Una función _load_pyfunc devuelve una instancia de la clase del modelo

El código de entrenamiento completo es así:

import mlflow
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score
from mlflow.models import infer_signature

mlflow.xgboost.autolog(log_models=False)

model = XGBClassifier(use_label_encoder=False, eval_metric="logloss")
model.fit(X_train, y_train, eval_set=[(X_test, y_test)], verbose=False)
y_probs = model.predict_proba(X_test)

accuracy = accuracy_score(y_test, y_probs.argmax(axis=1))
mlflow.log_metric("accuracy", accuracy)

model_path = "xgb.model"
model.save_model(model_path)

signature = infer_signature(X_test, y_probs)
mlflow.pyfunc.log_model("classifier",
                        data_path=model_path,
                        code_path=["loader_module.py"],
                        loader_module="loader_module",
                        signature=signature)

Pasos siguientes

Implementación de modelos de MLflow

Compartir vía

Registro de modelos de MLflow

¿Por qué registrar modelos en lugar de artefactos?

Registro de modelos mediante el registro automático

Registro de modelos con firmas, entornos o ejemplos personalizados

Registro de modelos con un comportamiento diferente en el método predict

Registro de modelos personalizados

Pasos siguientes

Comentarios

Recursos adicionales