Gépi tanulási modell pontozása a PREDICT használatával a Microsoft Fabricben
A Microsoft Fabric lehetővé teszi a felhasználók számára a gépi tanulási modellek üzembe helyezése a PREDICT nevű skálázható függvénnyel, amely támogatja a kötegelt pontozást bármely számítási motorban. A felhasználók közvetlenül egy Microsoft Fabric-jegyzetfüzetből vagy egy adott ML-modell elemlapjáról hozhatnak létre kötegelt előrejelzéseket.
Ebből a cikkből megtudhatja, hogyan alkalmazhatja a PREDICT mindkét módszerét, függetlenül attól, hogy ön is kényelmesebben ír kódot, vagy egy irányított felhasználói felülettel kezeli a kötegelt pontozást.
Előfeltételek
Microsoft Fabric-előfizetés lekérése. Vagy regisztráljon egy ingyenes Microsoft Fabric-próbaverzióra.
A kezdőlap bal oldalán található élménykapcsolóval válthat a Synapse Adattudomány felületre.
Korlátozások
- A PREDICT függvény jelenleg korlátozott ml-modell-ízek esetén támogatott, beleértve a következőket:
- PyTorch
- Sklearn
- Spark
- TensorFlow
- ONNX
- XGBoost
- LightGBM
- CatBoost
- Statsmodels
- Próféta
- Keras
- A PREDICT megköveteli , hogy az ML-modellek MLflow formátumban legyenek mentve az aláírásukkal együtt.
- A PREDICT nem támogatja a több tenzoros bemenetekkel vagy kimenetekkel rendelkező ML-modelleket.
A PREDICT hívása jegyzetfüzetből
A PREDICT támogatja az MLflow-csomagba csomagolt modelleket a Microsoft Fabric beállításjegyzékében. Ha már betanított és regisztrált ml-modell található a munkaterületen, ugorjon a 2. lépésre. Ha nem, az 1. lépés mintakódot biztosít, amely végigvezeti egy logisztikai regressziós mintamodell betanításán. Ezzel a modellel kötegelt előrejelzéseket hozhat létre az eljárás végén.
Gépi tanulási modell betanítása és regisztrálása az MLflow-jal. Az alábbi mintakód az MLflow API használatával hoz létre egy gépi tanulási kísérletet, és elindít egy MLflow-futtatást egy scikit-learn logisztikai regressziós modellhez. A modellverzió ezután a Microsoft Fabric beállításjegyzékében lesz tárolva és regisztrálva. Megtudhatja , hogyan taníthat be ml-modelleket a scikit-learn használatával, ha többet szeretne megtudni a betanítási modellekről és a saját kísérletek nyomon követéséről.
import mlflow import numpy as np from sklearn.linear_model import LogisticRegression from sklearn.datasets import load_diabetes from mlflow.models.signature import infer_signature mlflow.set_experiment("diabetes-demo") with mlflow.start_run() as run: lr = LogisticRegression() data = load_diabetes(as_frame=True) lr.fit(data.data, data.target) signature = infer_signature(data.data, data.target) mlflow.sklearn.log_model( lr, "diabetes-model", signature=signature, registered_model_name="diabetes-model" )
Töltse be a tesztadatokat Spark DataFrame-ként. Ha az előző lépésben betanított ml-modell használatával kötegelt előrejelzéseket szeretne létrehozni, akkor Spark DataFrame formájában kell tesztelnie az adatokat. Az alábbi kódban szereplő
test
változó értékét a saját adataival helyettesítheti.# You can substitute "test" below with your own data test = spark.createDataFrame(data.frame.drop(['target'], axis=1))
Hozzon létre egy objektumot
MLFlowTransformer
az ML-modell következtetéshez való betöltéséhez. Ha objektumotMLFlowTransformer
szeretne létrehozni a kötegelt előrejelzések létrehozásához, a következő műveleteket kell végrehajtania:- adja meg, hogy mely oszlopokra van szüksége a
test
DataFrame-ből modellbemenetként (ebben az esetben az összeset), - válasszon nevet az új kimeneti oszlopnak (ebben az esetben
predictions
), és - adja meg a megfelelő modellnevet és modellverziót az előrejelzések létrehozásához.
Ha saját ml-modellt használ, cserélje le a bemeneti oszlopok, a kimeneti oszlop neve, a modell neve és a modellverzió értékeit.
from synapse.ml.predict import MLFlowTransformer # You can substitute values below for your own input columns, # output column name, model name, and model version model = MLFlowTransformer( inputCols=test.columns, outputCol='predictions', modelName='diabetes-model', modelVersion=1 )
- adja meg, hogy mely oszlopokra van szüksége a
Előrejelzések létrehozása a PREDICT függvény használatával. A PREDICT függvény meghívásához használhatja a Transformer API-t, a Spark SQL API-t vagy a PySpark felhasználó által definiált függvényét (UDF). Az alábbi szakaszok bemutatják, hogyan hozhat létre kötegelt előrejelzéseket az előző lépésekben definiált tesztadatokkal és ml-modellel a PREDICT meghívására szolgáló különböző módszerek használatával.
PREDICT a Transformer API-val
Az alábbi kód meghívja a PREDICT függvényt a Transformer API-val. Ha saját ML-modellt használ, cserélje le a modell értékeit, és tesztelje az adatokat.
# You can substitute "model" and "test" below with values
# for your own model and test data
model.transform(test).show()
PREDICT a Spark SQL API-val
Az alábbi kód meghívja a PREDICT függvényt a Spark SQL API-val. Ha saját ML-modellt használ, cserélje le a , model_version
és a model_name
modell nevét, a modell verzióját és features
a szolgáltatás oszlopait.
Feljegyzés
Ha a Spark SQL API-t használja az előrejelzések létrehozásához, akkor is létre kell hoznia egy MLFlowTransformer
objektumot (ahogy a 3. lépésben).
from pyspark.ml.feature import SQLTransformer
# You can substitute "model_name," "model_version," and "features"
# with values for your own model name, model version, and feature columns
model_name = 'diabetes-model'
model_version = 1
features = test.columns
sqlt = SQLTransformer().setStatement(
f"SELECT PREDICT('{model_name}/{model_version}', {','.join(features)}) as predictions FROM __THIS__")
# You can substitute "test" below with your own test data
sqlt.transform(test).show()
ELŐREJELZÉS felhasználó által definiált függvénnyel
Az alábbi kód meghívja a PREDICT függvényt egy PySpark UDF használatával. Ha saját ML-modellt használ, cserélje le a modell és a funkciók értékeit.
from pyspark.sql.functions import col, pandas_udf, udf, lit
# You can substitute "model" and "features" below with your own values
my_udf = model.to_udf()
features = test.columns
test.withColumn("PREDICT", my_udf(*[col(f) for f in features])).show()
PREDICT-kód létrehozása egy ML-modell elemlapjáról
Bármely ml-modell elemoldalán az alábbi lehetőségek közül választhat, ha a PREDICT használatával elkezdi létrehozni a kötegelt előrejelzéseket egy adott modellverzióhoz.
- Irányított felhasználói felület használata PREDICT-kód létrehozásához
- Kódsablon másolása jegyzetfüzetbe, és a paraméterek testreszabása saját maga
Irányított felhasználói felület használata
Az irányított felhasználói felület végigvezeti a következő lépéseken:
- Forrásadatok kiválasztása pontozáshoz
- Az adatok helyes leképezése az ML-modell bemeneteihez
- Adja meg a modell kimeneteinek célhelyét
- Olyan jegyzetfüzet létrehozása, amely a PREDICT használatával hoz létre és tárol előrejelzési eredményeket
Az irányított felület használatához
Nyissa meg az adott ML-modellverzió elemoldalát.
Válassza a Modell alkalmazása varázslóban lehetőséget a Verzió alkalmazása legördülő listából.
A kijelölés megnyitja az "Ml-modell előrejelzéseinek alkalmazása" ablakot a "Beviteli tábla kiválasztása" lépésben.
Válasszon ki egy bemeneti táblát az aktuális munkaterület egyik tóházából.
A Tovább gombra kattintva lépjen a "Bemeneti oszlopok leképezése" lépésre.
Az oszlopnevek leképezése a forrástáblából az ML-modell bemeneti mezőire, amelyeket a modell aláírásából von le. Meg kell adnia egy bemeneti oszlopot a modell összes kötelező mezőjéhez. Emellett a forrásoszlopok adattípusainak meg kell egyeznie a modell várt adattípusával.
Tipp.
A varázsló előre feltölti ezt a leképezést, ha a bemeneti tábla oszlopainak neve megegyezik az ML-modell aláírásában naplózott oszlopnevekkel.
Válassza a Tovább lehetőséget a "Kimeneti tábla létrehozása" lépéshez.
Adjon nevet egy új táblának az aktuális munkaterület kijelölt tóházában. Ez a kimeneti tábla az ML-modell bemeneti értékeit a hozzáfűzött előrejelzési értékekkel tárolja. Alapértelmezés szerint a kimeneti tábla ugyanabban a tóházban jön létre, mint a bemeneti tábla, de a céltótó módosításának lehetősége is elérhető.
A Tovább gombra kattintva lépjen a "Kimeneti oszlopok leképezése" lépésre.
A megadott szövegmezőkkel nevezze el az ml-modell előrejelzéseit tároló kimeneti tábla oszlopait.
Válassza a Tovább lehetőséget a "Jegyzetfüzet konfigurálása" lépéshez.
Adjon nevet egy új jegyzetfüzetnek, amely a létrehozott PREDICT-kódot fogja futtatni. A varázsló ekkor megjeleníti a létrehozott kód előnézetét. A kódot átmásolhatja a vágólapra, és tetszés szerint beillesztheti egy meglévő jegyzetfüzetbe.
Válassza a Tovább lehetőséget a "Véleményezés és befejezés" lépéshez.
Tekintse át az összefoglaló oldalon található részleteket, és válassza a Jegyzetfüzet létrehozása lehetőséget, ha hozzá szeretné adni az új jegyzetfüzetet a létrehozott kóddal a munkaterülethez. A rendszer közvetlenül a jegyzetfüzetbe viszi, ahol futtathatja a kódot az előrejelzések létrehozásához és tárolásához.
Testre szabható kódsablon használata
Kódsablon használata kötegelt előrejelzések létrehozásához:
- Nyissa meg az adott ML-modellverzió elemoldalát.
- Válassza a Verzió alkalmazása legördülő listában az alkalmazáshoz használandó kód másolása lehetőséget. A kijelölés lehetővé teszi egy testre szabható kódsablon másolását.
Ezt a kódsablont beillesztheti egy jegyzetfüzetbe, hogy kötegelt előrejelzéseket hozzon létre az ML-modellel. A kódsablon sikeres futtatásához manuálisan kell lecserélnie a következő értékeket:
<INPUT_TABLE>
: Az ML-modell bemeneteit biztosító táblázat fájlelérési útja<INPUT_COLS>
: Oszlopnevek tömbje a bemeneti táblából az ML-modellbe való betöltéshez<OUTPUT_COLS>
: Az előrejelzéseket tároló kimeneti tábla új oszlopának neve<MODEL_NAME>
: Az előrejelzés létrehozásához használandó ml-modell neve<MODEL_VERSION>
: Az előrejelzés létrehozásához használt ml-modell verziója<OUTPUT_TABLE>
: Az előrejelzéseket tároló tábla fájlútvonala
import mlflow
from synapse.ml.predict import MLFlowTransformer
df = spark.read.format("delta").load(
<INPUT_TABLE> # Your input table filepath here
)
model = MLFlowTransformer(
inputCols=<INPUT_COLS>, # Your input columns here
outputCol=<OUTPUT_COLS>, # Your new column name here
modelName=<MODEL_NAME>, # Your ML model name here
modelVersion=<MODEL_VERSION> # Your ML model version here
)
df = model.transform(df)
df.write.format('delta').mode("overwrite").save(
<OUTPUT_TABLE> # Your output table filepath here
)
Kapcsolódó tartalom
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: