Registrazione di modelli MLflow

Articolo
04/16/2024

Questo articolo descrive come registrare i modelli sottoposti a training (o artefatti) come modelli MLflow. Esplora i diversi modi per personalizzare la modalità con cui MLflow crea pacchetti dei modelli e la modalità con cui esegue tali modelli.

Perché registrare modelli anziché artefatti?

Da artefatti a modelli in MLflow descrive la differenza tra artefatti o file di registrazione e la registrazione di modelli MLflow.

Anche un modello MLflow è un artefatto. Tale modello, tuttavia, ha una struttura specifica che funge da contratto tra la persona che ha creato il modello e la persona che intende usarlo. Questo contratto consente di creare un ponte tra gli artefatti stessi e i loro significati.

La registrazione di modelli presenta questi vantaggi:

È possibile caricare direttamente i modelli, per l'inferenza, con mlflow.<flavor>.load_model, ed è possibile usare la funzione predict
Gli input della pipeline possono usare direttamente i modelli
È possibile distribuire modelli senza l’indicazione di uno script di assegnazione dei punteggi o di un ambiente
Swagger viene abilitato automaticamente negli endpoint distribuiti e Azure Machine Learning Studio può usare la funzionalità Test
È possibile usare il dashboard di intelligenza artificiale responsabile

Questa sezione descrive come usare il concetto del modello in Azure Machine Learning con MLflow:

Registrazione di modelli con il log automatico

È possibile usare la funzionalità di log automatico di MLflow. Il log automatico consente a MLflow di indicare al framework in uso di registrare tutte le metriche, i parametri, gli artefatti e i modelli che il framework considera pertinenti. Per impostazione predefinita, se è abilitato il log automatico viene registrata la maggior parte dei modelli. In alcune situazioni, alcune versioni potrebbero non registrare un modello. Ad esempio, la versione PySpark non registra modelli che superano una determinata dimensione.

Usare mlflow.autolog() o mlflow.<flavor>.autolog() per attivare la registrazione automatica. Questo esempio usa autolog() per registrare un modello di classificatore sottoposto a training con XGBoost:

import mlflow
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score

mlflow.autolog()

model = XGBClassifier(use_label_encoder=False, eval_metric="logloss")
model.fit(X_train, y_train, eval_set=[(X_test, y_test)], verbose=False)

y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)

Suggerimento

Se si usano pipeline di Machine Learning, ad esempio pipeline Scikit-Learn, usare la funzionalità autolog di tale versione della pipeline per registrare i modelli. La registrazione del modello avviene automaticamente quando viene richiamato il metodo fit() sull'oggetto pipeline. Training e rilevamento di un classificatore XGBoost con il notebook MLflow illustra come registrare un modello con la pre-elaborazione, usando le pipeline.

Registrazione di modelli con firma, ambiente o esempi personalizzati

Il metodo MLflow mlflow.<flavor>.log_model può registrare manualmente i modelli. Questo flusso di lavoro può controllare diversi aspetti della registrazione del modello.

Usare questo metodo nei casi seguenti:

Si desidera indicare pacchetti pip o un ambiente conda che differisce da quelli rilevati automaticamente
Si desidera includere esempi di input
Si desidera includere artefatti specifici nel pacchetto necessario
autolog non inferisce correttamente la firma. Questo aspetto è importante quando si gestiscono input tensor in cui la firma richiede forme specifiche
Il comportamento della registrazione automatica non copre lo scopo per qualche motivo

Questo esempio di codice registra un modello per un classificatore XGBoost:

import mlflow
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score
from mlflow.models import infer_signature
from mlflow.utils.environment import _mlflow_conda_env

mlflow.autolog(log_models=False)

model = XGBClassifier(use_label_encoder=False, eval_metric="logloss")
model.fit(X_train, y_train, eval_set=[(X_test, y_test)], verbose=False)
y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)

# Signature
signature = infer_signature(X_test, y_test)

# Conda environment
custom_env =_mlflow_conda_env(
    additional_conda_deps=None,
    additional_pip_deps=["xgboost==1.5.2"],
    additional_conda_channels=None,
)

# Sample
input_example = X_train.sample(n=1)

# Log the model manually
mlflow.xgboost.log_model(model, 
                         artifact_path="classifier", 
                         conda_env=custom_env,
                         signature=signature,
                         input_example=input_example)

Nota

autolog ha la configurazione log_models=False. Ciò impedisce la registrazione automatica del modello MLflow. La registrazione automatica del modello MLflow avviene in un secondo momento, come processo manuale
Usare il metodo infer_signature per provare a inferire la firma direttamente da input e output
Il metodo mlflow.utils.environment._mlflow_conda_env è un metodo privato nell’SDK MLflow. In questo esempio il codice risulta più semplice, ma è preferibile usarlo con cautela. In futuro potrebbe cambiare. In alternativa, è possibile generare manualmente la definizione YAML come dizionario Python.

Registrazione di modelli con un comportamento diverso nel metodo di stima

Quando si registra un modello con mlflow.autolog o mlflow.<flavor>.log_model, la versione del modello determina come eseguire l'inferenza e il risultato restituito dal modello. MLflow non applica alcun comportamento specifico sulla generazione di risultati predict. In alcuni scenari è possibile eseguire alcune operazioni di pre-elaborazione o post-elaborazione prima e dopo l'esecuzione del modello.

In questo caso, implementare pipeline di Machine Learning che passano direttamente dagli input agli output. Anche se questa implementazione è possibile e talvolta è preferibile per migliorare le prestazioni, potrebbe diventare difficile da ottenere. In questi casi può essere utile personalizzare il modo in cui il modello gestisce l'inferenza, come illustrato nella sezione successiva.

Registrazione di modelli personalizzati

MLflow supporta numerosi framework di Machine Learning, tra cui

CatBoost
FastAI
h2o
Keras
LightGBM
MLeap
MXNet Gluon
ONNX
Prophet
PyTorch
Scikit-Learn
spaCy
Spark MLLib
statsmodels
TensorFlow
XGBoost

Tuttavia, potrebbe essere necessario modificare il funzionamento di una versione, registrare un modello non supportato in modo nativo da MLflow o anche registrare un modello che usa più elementi di framework diversi. In questi casi potrebbe essere necessario creare una versione del modello personalizzato.

Per risolvere il problema, MLflow introduce la versione pyfunc (a partire da una funzione Python). Questa versione può registrare qualunque oggetto come modello, purché tale oggetto soddisfi due condizioni:

Si implementa almeno il metodo predict
L'oggetto Python eredita da mlflow.pyfunc.PythonModel

Suggerimento

I modelli serializzabili che implementano l'API Scikit-learn possono usare la versione Scikit-learn per registrare il modello, indipendentemente dal fatto che il modello sia stato generato con Scikit-learn. Se è possibile rendere persistente il modello in formato Pickle e l'oggetto ha almeno i metodi predict() e predict_proba(), è possibile usare mlflow.sklearn.log_model() per registrare il modello all'interno di un'esecuzione MLflow.

Se si crea un wrapper per l'oggetto modello esistente, diventa il più semplice creare una versione per il modello personalizzato. MLflow lo serializza e ne crea automaticamente un pacchetto. Gli oggetti Python sono serializzabili quando l'oggetto può essere archiviato nel file system come file, generalmente in formato Pickle. Nel runtime, l'oggetto può materializzarsi da tale file. In questo modo vengono ripristinati tutti i valori, le proprietà e i metodi che erano disponibili quando è stato salvato.

Usare questo metodo nei casi seguenti:

È possibile serializzare il modello in formato Pickle
Si desidera mantenere lo stato del modello inalterato così com’era dopo il training
Si desidera personalizzare il funzionamento della funzione predict.

Questo esempio di codice esegue il wrapping di un modello creato con XGBoost affinché si comporti diversamente dall'implementazione predefinita di XGBoost flavor. Restituisce, invece, le probabilità anziché le classi:

from mlflow.pyfunc import PythonModel, PythonModelContext

class ModelWrapper(PythonModel):
    def __init__(self, model):
        self._model = model

    def predict(self, context: PythonModelContext, data):
        # You don't have to keep the semantic meaning of `predict`. You can use here model.recommend(), model.forecast(), etc
        return self._model.predict_proba(data)

    # You can even add extra functions if you need to. Since the model is serialized,
    # all of them will be available when you load your model back.
    def predict_batch(self, data):
        pass

Registrare un modello personalizzato nell'esecuzione:

import mlflow
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score
from mlflow.models import infer_signature

mlflow.xgboost.autolog(log_models=False)

model = XGBClassifier(use_label_encoder=False, eval_metric="logloss")
model.fit(X_train, y_train, eval_set=[(X_test, y_test)], verbose=False)
y_probs = model.predict_proba(X_test)

accuracy = accuracy_score(y_test, y_probs.argmax(axis=1))
mlflow.log_metric("accuracy", accuracy)

signature = infer_signature(X_test, y_probs)
mlflow.pyfunc.log_model("classifier", 
                        python_model=ModelWrapper(model),
                        signature=signature)

Suggerimento

In questo caso, il metodo infer_signature usa y_probs per inferire la firma. La colonna di destinazione ha la classe di destinazione, ma il modello ora restituisce le due probabilità per ogni classe.

Il modello potrebbe essere composto da più parti che devono essere caricate. Potrebbe non essere possibile serializzarlo come file Pickle. In questi casi, PythonModel supporta l'indicazione di un elenco arbitrario di artefatti. Per ogni artefatto viene creato un pacchetto assieme al modello.

Usare questa tecnica nei seguenti casi:

Non è possibile serializzare il modello in formato Pickle oppure è disponibile un formato di serializzazione migliore
Il modello ha uno o numerosi artefatti a cui è necessario fare riferimento per caricare il modello
Potrebbe essere necessario rendere persistenti alcune proprietà di configurazione dell'inferenza, ad esempio il numero di elementi da consigliare
Si desidera personalizzare la modalità di caricamento del modello e il funzionamento della funzione predict

Questo esempio di codice illustra come registrare un modello personalizzato usando artefatti:

encoder_path = 'encoder.pkl'
joblib.dump(encoder, encoder_path)

model_path = 'xgb.model'
model.save_model(model_path)

mlflow.pyfunc.log_model("classifier", 
                        python_model=ModelWrapper(),
                        artifacts={ 
                            'encoder': encoder_path,
                            'model': model_path 
                        },
                        signature=signature)

Nota

Il modello non viene salvato come Pickle. Il codice, invece, ha salvato il modello con il metodo di salvataggio del framework usato
Il wrapper del modello è ModelWrapper(), ma il modello non viene passato come parametro al costruttore. Un nuovo parametro del dizionario, artifacts, ha chiavi come nomi artefatto e valori come percorso nel file system locale in cui è archiviato l'artefatto

Il wrapper del modello corrispondente, quindi, sarà simile al seguente:

from mlflow.pyfunc import PythonModel, PythonModelContext

class ModelWrapper(PythonModel):
    def load_context(self, context: PythonModelContext):
        import pickle
        from xgboost import XGBClassifier
        from sklearn.preprocessing import OrdinalEncoder
        
        self._encoder = pickle.loads(context.artifacts["encoder"])
        self._model = XGBClassifier(use_label_encoder=False, eval_metric="logloss")
        self._model.load_model(context.artifacts["model"])

    def predict(self, context: PythonModelContext, data):
        return self._model.predict_proba(data)

La routine di training completa sarà simile alla seguente:

import mlflow
from xgboost import XGBClassifier
from sklearn.preprocessing import OrdinalEncoder
from sklearn.metrics import accuracy_score
from mlflow.models import infer_signature

mlflow.xgboost.autolog(log_models=False)

encoder = OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=np.nan)
X_train['thal'] = encoder.fit_transform(X_train['thal'].to_frame())
X_test['thal'] = encoder.transform(X_test['thal'].to_frame())

model = XGBClassifier(use_label_encoder=False, eval_metric="logloss")
model.fit(X_train, y_train, eval_set=[(X_test, y_test)], verbose=False)
y_probs = model.predict_proba(X_test)

accuracy = accuracy_score(y_test, y_probs.argmax(axis=1))
mlflow.log_metric("accuracy", accuracy)

encoder_path = 'encoder.pkl'
joblib.dump(encoder, encoder_path)
model_path = "xgb.model"
model.save_model(model_path)

signature = infer_signature(X, y_probs)
mlflow.pyfunc.log_model("classifier", 
                        python_model=ModelWrapper(),
                        artifacts={ 
                            'encoder': encoder_path,
                            'model': model_path 
                        },
                        signature=signature)

Un modello potrebbe avere una logica complessa oppure caricare diversi file di origine in fase di inferenza. Ciò accade, ad esempio, se si dispone di una libreria Python per il modello. In questo scenario, creare un pacchetto della libreria assieme al modello, in modo da poterlo spostare come singolo elemento.

Usare questa tecnica nei seguenti casi:

Non è possibile serializzare il modello in formato Pickle oppure è disponibile un formato di serializzazione migliore
È possibile archiviare gli artefatti del modello in una cartella in cui sono archiviati tutti gli artefatti necessari
Il codice sorgente del modello presenta una grande complessità e richiede più file Python. Potenzialmente, una libreria supporta il modello
Si desidera personalizzare la modalità di caricamento del modello e il funzionamento della funzione predict

MLflow supporta questi modelli. Con MLflow è possibile specificare qualunque codice sorgente arbitrario da creare in un pacchetto assieme al modello, purché abbia un modulo caricatore. È possibile specificare moduli caricatore nell'istruzione log_model() con l'argomento loader_module, indicante lo spazio dei nomi Python che implementa il caricatore. L'argomento code_path è necessario anche per indicare i file di origine che definiscono loader_module. In questo spazio dei nomi è necessario implementare una funzione _load_pyfunc(data_path: str) che riceve il percorso degli artefatti e restituisce almeno un oggetto con una stima del metodo.

model_path = 'xgb.model'
model.save_model(model_path)

mlflow.pyfunc.log_model("classifier", 
                        data_path=model_path,
                        code_path=['src'],
                        loader_module='loader_module'
                        signature=signature)

Nota

Il modello non viene salvato come Pickle. Il codice, invece, ha salvato il modello con il metodo di salvataggio del framework usato
Un nuovo parametro, data_path, punta alla cartella contenente gli artefatti del modello. Gli artefatti possono essere una cartella o un file. Tali artefatti, una cartella o un file, verranno inseriti nel pacchetto con il modello
Un nuovo parametro, code_path, punta alla posizione del codice sorgente. Questa risorsa in questa posizione può essere un percorso o un singolo file. Tale risorsa, una cartella o un file, verrà inserita nel pacchetto con il modello
La funzione _load_pyfunc è archiviata nel modulo Python loader_module

La cartella src contiene il file loader_module.py. Il file è il modulo caricatore:

src/loader_module.py

class MyModel():
    def __init__(self, model):
        self._model = model

    def predict(self, data):
        return self._model.predict_proba(data)

def _load_pyfunc(data_path: str):
    import os

    model = XGBClassifier(use_label_encoder=False, eval_metric='logloss')
    model.load_model(os.path.abspath(data_path))

    return MyModel(model)

Nota

La classe MyModel non eredita da PythonModel come illustrato in precedenza. Tuttavia, ha una funzione predict
Il codice sorgente del modello si trova in un file. Qualunque codice sorgente funzionerà. A tal fine, una cartella src è ideale
Una funzione _load_pyfunc restituisce un’istanza della classe del modello

Il codice di training completo è simile al seguente:

import mlflow
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score
from mlflow.models import infer_signature

mlflow.xgboost.autolog(log_models=False)

model = XGBClassifier(use_label_encoder=False, eval_metric="logloss")
model.fit(X_train, y_train, eval_set=[(X_test, y_test)], verbose=False)
y_probs = model.predict_proba(X_test)

accuracy = accuracy_score(y_test, y_probs.argmax(axis=1))
mlflow.log_metric("accuracy", accuracy)

model_path = "xgb.model"
model.save_model(model_path)

signature = infer_signature(X_test, y_probs)
mlflow.pyfunc.log_model("classifier",
                        data_path=model_path,
                        code_path=["loader_module.py"],
                        loader_module="loader_module",
                        signature=signature)

Passaggi successivi

Distribuire modelli di MLflow

Condividi tramite

Registrazione di modelli MLflow

Perché registrare modelli anziché artefatti?

Registrazione di modelli con il log automatico

Registrazione di modelli con firma, ambiente o esempi personalizzati

Registrazione di modelli con un comportamento diverso nel metodo di stima

Registrazione di modelli personalizzati

Passaggi successivi

Commenti e suggerimenti

Commenti e suggerimenti

Risorse aggiuntive