Opetusohjelma, osa 4: Suorita erän pisteytys ja tallenna ennusteet Lakehouse-järjestelmään

Tämä opas näyttää, miten tuodaan rekisteröity LightGBMClassifier-malli, jonka rakensit osassa 3. Tuo opetusohjelma käytti Microsoft Fabric MLflow -mallirekisteriä mallin kouluttamiseen ja suoritti sitten eräajoennusteita järvitalosta ladatulle testiaineistolle.

Microsoft Fabric mahdollistaa koneoppimismallien operationalisoimisen skaalautuvalla PREDICT-toiminnolla, joka tukee eräpisteytystä missä tahansa laskentamoottorissa. Voit luoda eräennusteita suoraan Microsoft Fabric -muistikirjasta tai tietyn mallin tuotesivulta. Lisätietoja saat kohdasta PREDICT.

Eräennusteiden tuottamiseen testiaineistolle käytät koulutetun LightGBM-mallin versiota 1, joka osoitti parhaan suorituskyvyn kaikista koulutetuista koneoppimismalleista. Lataat testiaineiston spark-dataframeen ja luot MLFlowTransformer-objektin eräajoennusteiden tuottamiseen. Voit sitten kutsua PREDICT-funktion yhdellä seuraavista kolmesta tavasta:

Muuntajan ohjelmointirajapinta SynapseML:stä
Spark SQL -ohjelmointirajapinta
Käyttäjän määrittämä PySpark-funktio (UDF)

Edellytykset

Hanki Microsoft Fabric -tilaus. Voit myös rekisteröityä microsoft fabric -kokeiluversion maksuttomaan .
Kirjaudu sisään Microsoft Fabric .
Vaihda Fabric-tilaan käyttämällä etusivun vasemmassa alakulmassa olevaa kokemuskytkintä.

Tämä on osa 4 viiden osan opastussarjasta. Suorita tämä opetusohjelma suorittamalla ensin:

%pip install scikit-learn==1.6.1

Seuraa mukana muistikirjassa

4-predict.ipynb- on muistikirja, joka on tämän opetusohjelman mukana.

Jos haluat avata tämän opetusohjelman liitteenä olevan muistikirjan, noudata ohjeita kohdassa Valmistele järjestelmäsi datatiedeopetusohjelmia varten muistikirjan tuomiseksi työtilaasi.
Jos haluat kopioida ja liittää koodin tältä sivulta, voit luoda uuden muistikirjan.
Muista liittää muistikirjaan lakehouse- ennen kuin aloitat koodin suorittamisen.

Tärkeä

Liitä sama lakehouse, jota käytit sarjan muissa osissa.

Testitietojen lataaminen

Seuraavassa koodipätkässä lataa testitiedot, jotka tallennit osassa 3:

df_test = spark.read.format("delta").load("Tables/df_test")
display(df_test)

ENNUSTA muuntajan ohjelmointirajapinnan avulla

Käyttääksesi SynapseML:n Transformer API:a, sinun täytyy ensin luoda MLFlowTransformer-objekti.

MlFlowTransformer-objektin alustaminen

MLFlowTransformer-objekti toimii kääreenä MLFlow-mallin ympärille, jonka rekisteröit osassa 3. Sen avulla voit luoda eräennusteita tietylle DataFrame-kehykselle. MLFlowTransformer-objektin instanssiointiin sinun täytyy antaa seuraavat parametrit:

Testidataframe-sarakkeet, joita malli tarvitsee syötteenä (tässä tapauksessa malli tarvitsee ne kaikki)
Uuden lähtösarakkeen nimi (tässä tapauksessa ennusteet)
Oikea mallin nimi ja malliversio ennusteiden tuottamiseen (tässä lgbm_sm tapauksessa ja versio 1)

Seuraava koodipätkä käsittelee näitä vaiheita:

from synapse.ml.predict import MLFlowTransformer

model = MLFlowTransformer(
    inputCols=list(df_test.columns),
    outputCol='predictions',
    modelName='lgbm_sm',
    modelVersion=1
)

Nyt kun sinulla on MLFlowTransformer-objekti, voit käyttää sitä eräajoennusteiden generointiin, kuten seuraavassa koodipätkässä näkyy:

import pandas

predictions = model.transform(df_test)
display(predictions)

ENNUSTA Spark SQL -ohjelmointirajapinnan avulla

Seuraava koodipätkä käyttää Spark SQL API:ta PREDICT-funktion kutsumiseen:

from pyspark.ml.feature import SQLTransformer 

# Substitute "model_name", "model_version", and "features" below with values for your own model name, model version, and feature columns
model_name = 'lgbm_sm'
model_version = 1
features = df_test.columns

sqlt = SQLTransformer().setStatement( 
    f"SELECT PREDICT('{model_name}/{model_version}', {','.join(features)}) as predictions FROM __THIS__")

# Substitute "X_test" below with your own test dataset
display(sqlt.transform(df_test))

PREDICT käyttäjän määrittämällä funktiolla (UDF)

Seuraava koodipätkä käyttää PySpark UDF:ää PREDICT-funktion kutsumiseen:

from pyspark.sql.functions import col, pandas_udf, udf, lit

# Substitute "model" and "features" below with values for your own model name and feature columns
my_udf = model.to_udf()
features = df_test.columns

display(df_test.withColumn("predictions", my_udf(*[col(f) for f in features])))

Voit myös generoida PREDICT-koodia mallin tuotesivulta. Lisätietoja PREDICT-funktiosta löytyy kohdasta Koneoppimismallien pisteytys PREDICT-resurssilla .

Kirjoita mallin ennustustulokset Lakehouse-järjestelmään

Kun olet luonut eräennusteet, kirjoita mallin ennustetulokset takaisin järvenrakennukseen, kuten seuraavassa koodikatkelmassa on esitetty:

# Save predictions to lakehouse to be used for generating a Power BI report
table_name = "df_test_with_predictions_v1"
predictions.write.format('delta').mode("overwrite").save(f"Tables/{table_name}")
print(f"Spark DataFrame saved to delta table: {table_name}")

Seuraava vaihe

Jatka kohtaan:

osa 5: Power BI -raportin luominen ennusteiden visualisointia

Palaute

Onko tästä sivusta apua?

Last updated on 2025-12-26