Modell létrehozása a SynapseML használatával
Ez a cikk bemutatja, hogyan hozhat létre gépi tanulási modellt a SynapseML használatával, és bemutatja, hogyan egyszerűsítheti a SynapseML az összetett gépi tanulási feladatokat. A SynapseML használatával létrehozhat egy kis gépi tanulási betanítási folyamatot, amely tartalmaz egy featurizációs szakaszt és egy LightGBM regressziós szakaszt. A folyamat a könyvértékelések adathalmazából származó véleményezések alapján előrejelzi a minősítéseket. Azt is láthatja, hogyan egyszerűsítheti a SynapseML az előre összeállított modellek használatát a gépi tanulási problémák megoldásához.
Előfeltételek
Microsoft Fabric-előfizetés lekérése. Vagy regisztráljon egy ingyenes Microsoft Fabric-próbaverzióra.
A kezdőlap bal oldalán található élménykapcsolóval válthat a Synapse Adattudomány felületre.
Erőforrások előkészítése
Hozza létre a modell és a folyamat létrehozásához szükséges eszközöket és erőforrásokat.
- Hozzon létre egy új jegyzetfüzetet.
- Csatolja a jegyzetfüzetet egy tóházhoz. Meglévő tóház hozzáadásához vagy új létrehozásához bontsa ki a Lakehouses elemet a bal oldali Explorer alatt, majd válassza a Hozzáadás lehetőséget.
- Az Azure AI-szolgáltatások kulcsának lekéréséhez kövesse a rövid útmutató utasításait : Többszolgáltatásos erőforrás létrehozása az Azure AI-szolgáltatásokhoz.
- Hozzon létre egy Azure Key Vault-példányt , és adja hozzá az Azure AI-szolgáltatási kulcsot a kulcstartóhoz titkos kulcsként.
- Jegyezze fel a kulcstartó nevét és titkos nevét. A cikk későbbi részében az egylépéses átalakítás futtatásához szüksége lesz ezekre az információkra.
A környezet beállítása
A jegyzetfüzetben importálja a SynapseML-kódtárakat, és inicializálja a Spark-munkamenetet.
from pyspark.sql import SparkSession
from synapse.ml.core.platform import *
spark = SparkSession.builder.getOrCreate()
Adatkészlet betöltése
Töltse be az adathalmazt, és ossza fel betanítási és tesztelési csoportokra.
train, test = (
spark.read.parquet(
"wasbs://publicwasb@mmlspark.blob.core.windows.net/BookReviewsFromAmazon10K.parquet"
)
.limit(1000)
.cache()
.randomSplit([0.8, 0.2])
)
display(train)
A betanítási folyamat létrehozása
Hozzon létre egy folyamatot, amely a kódtár használatával featurizálja az synapse.ml.featurize.text
adatokatTextFeaturizer
, és a függvény használatával lekér egy minősítéstLightGBMRegressor
.
from pyspark.ml import Pipeline
from synapse.ml.featurize.text import TextFeaturizer
from synapse.ml.lightgbm import LightGBMRegressor
model = Pipeline(
stages=[
TextFeaturizer(inputCol="text", outputCol="features"),
LightGBMRegressor(featuresCol="features", labelCol="rating", dataTransferMode="bulk")
]
).fit(train)
A tesztadatok kimenetének előrejelzése
Hívja meg a transform
modell függvényét a tesztadatok kimenetének előrejelzéséhez és adatkeretként való megjelenítéséhez.
display(model.transform(test))
Adatok átalakítása egy lépésben az Azure AI-szolgáltatások használatával
Az ilyen típusú, előre összeállított megoldással rendelkező feladatok esetében a SynapseML Azure AI-szolgáltatásokkal való integrációjával egyetlen lépésben alakíthatja át az adatokat. Futtassa a következő kódot az alábbi cserekódokkal:
- Cserélje le
<secret-name>
az Azure AI Services kulcstitkának nevére. - Cserélje le
<key-vault-name>
a kulcstartó nevére.
from synapse.ml.services import TextSentiment
from synapse.ml.core.platform import find_secret
model = TextSentiment(
textCol="text",
outputCol="sentiment",
subscriptionKey=find_secret("<secret-name>", "<key-vault-name>")
).setLocation("eastus")
display(model.transform(test))