Parte 4 dell'esercitazione: eseguire l'assegnazione dei punteggi batch e salvare le previsioni

Questa esercitazione illustra come importare il modello LightGBMClassifier registrato compilato nella parte 3. In questa esercitazione è stato usato il registro dei modelli MLflow di Microsoft Fabric per eseguire il training del modello e quindi eseguire stime batch su un set di dati di test caricato da una lakehouse.

Microsoft Fabric consente di rendere operativi i modelli di Machine Learning con una funzione scalabile denominata PREDICT, che supporta l'assegnazione dei punteggi batch in qualsiasi motore di calcolo. È possibile generare stime batch direttamente da un notebook di Microsoft Fabric o dalla pagina degli elementi di un determinato modello. Per altre informazioni, vedere PREDICT.

Per generare stime batch nel set di dati di test, si userà la versione 1 del modello LightGBM sottoposto a training che ha dimostrato le migliori prestazioni tra tutti i modelli di Machine Learning con training. Il set di dati di test verrà caricato in un dataframe spark e verrà creato un oggetto MLFlowTransformer per generare stime batch. È quindi possibile richiamare la funzione PREDICT usando uno dei tre modi seguenti:

API Transformer da SynapseML
Spark SQL API
Funzione PySpark definita dall'utente (UDF)

Prerequisiti

Ottenere una sottoscrizione di Microsoft Fabric. In alternativa, iscriversi per ottenere una versione di valutazione di Microsoft Fabric gratuita.
Accedere a Microsoft Fabric.
Passare a Fabric usando il commutatore dell'esperienza in basso a sinistra della tua home page.

Questa è la parte 4 di una serie di esercitazioni in cinque parti. Per procedere con questa esercitazione, è necessario completare:

%pip install scikit-learn==1.6.1

Seguire la procedura in Notebook

4-predict.ipynb è il notebook che accompagna questa esercitazione.

Per aprire il notebook di accompagnamento per questa esercitazione, seguire le istruzioni riportate in Preparare il sistema per le esercitazioni di data science per importare il notebook nell'area di lavoro.
Se si preferisce copiare e incollare il codice da questa pagina, è possibile creare un nuovo notebook.
Assicurarsi di collegare un lakehouse al notebook prima di iniziare a eseguire il codice.

Importante

Collegare lo stesso lakehouse usato nelle altre parti di questa serie.

Caricare il set di dati di test

Nel frammento di codice seguente caricare i dati di test salvati nella parte 3:

df_test = spark.read.format("delta").load("Tables/df_test")
display(df_test)

PREDICT con l'API Transformer

Per usare l'API Transformer di SynapseML, è prima necessario creare un oggetto MLFlowTransformer.

Creare un'istanza dell'oggetto MLFlowTransformer

L'oggetto MLFlowTransformer funge da wrapper intorno al modello MLFlow registrato nella parte 3. Consente di generare previsioni di batch in un determinato DataFrame. Per creare un'istanza dell'oggetto MLFlowTransformer, è necessario specificare i parametri seguenti:

Le colonne del dataframe di test richieste dal modello come input (in questo caso, il modello richiede tutte le colonne)
Nome della nuova colonna di output (in questo caso stime)
Nome del modello e versione del modello corretti per generare le stime (in questo caso lgbm_sm e versione 1)

Il frammento di codice seguente gestisce questi passaggi:

from synapse.ml.predict import MLFlowTransformer

model = MLFlowTransformer(
    inputCols=list(df_test.columns),
    outputCol='predictions',
    modelName='lgbm_sm',
    modelVersion=1
)

Ora che si dispone dell'oggetto MLFlowTransformer, è possibile usarlo per generare stime batch, come illustrato nel frammento di codice seguente:

import pandas

predictions = model.transform(df_test)
display(predictions)

PREDICT con l'API SPARK SQL

Il frammento di codice seguente usa l'API SPARK SQL per richiamare la funzione PREDICT:

from pyspark.ml.feature import SQLTransformer 

# Substitute "model_name", "model_version", and "features" below with values for your own model name, model version, and feature columns
model_name = 'lgbm_sm'
model_version = 1
features = df_test.columns

sqlt = SQLTransformer().setStatement( 
    f"SELECT PREDICT('{model_name}/{model_version}', {','.join(features)}) as predictions FROM __THIS__")

# Substitute "X_test" below with your own test dataset
display(sqlt.transform(df_test))

PREDICT con una funzione definita dall'utente (UDF)

Il seguente frammento di codice utilizza un UDF PySpark per invocare la funzione PREDICT.

from pyspark.sql.functions import col, pandas_udf, udf, lit

# Substitute "model" and "features" below with values for your own model name and feature columns
my_udf = model.to_udf()
features = df_test.columns

display(df_test.withColumn("predictions", my_udf(*[col(f) for f in features])))

È anche possibile generare codice PREDICT dalla pagina degli elementi di un modello. Per altre informazioni sulla funzione PREDICT, vedere Assegnazione dei punteggi del modello di Machine Learning con la risorsa PREDICT.

Scrivere i risultati della previsione del modello nel lakehouse

Dopo aver generato previsioni batch, registra i risultati delle previsioni del modello nel lakehouse, come mostrato nel seguente frammento di codice:

# Save predictions to lakehouse to be used for generating a Power BI report
table_name = "df_test_with_predictions_v1"
predictions.write.format('delta').mode("overwrite").save(f"Tables/{table_name}")
print(f"Spark DataFrame saved to delta table: {table_name}")

Passaggio successivo

Continuare con:

Parte 5: creare un report di Power BI per visualizzare le previsioni

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2025-12-26