Tworzenie pierwszego modelu usługi SynapseML
W tym artykule przedstawiono sposób tworzenia pierwszego modelu uczenia maszynowego przy użyciu języka SynapseML i pokazano, jak usługa SynapseML upraszcza złożone zadania uczenia maszynowego. Używamy usługi SynapseML do utworzenia małego potoku trenowania uczenia maszynowego, który obejmuje etap cechowania i etap regresji LightGBM. Potok przewiduje oceny na podstawie tekstu przeglądu z zestawu danych przeglądów książek firmy Amazon. Na koniec prezentujemy, jak usługa SynapseML upraszcza korzystanie ze wstępnie utworzonych modeli w celu rozwiązywania problemów z uczeniem maszynowym.
Wymagania wstępne
Subskrypcja usługi Microsoft Fabric. Możesz też utworzyć bezpłatną wersję próbną usługi Microsoft Fabric (wersja zapoznawcza).
Zaloguj się do usługi Microsoft Fabric.
Przejdź do środowiska Nauka o danych przy użyciu ikony przełącznika środowiska w lewym rogu strony głównej.
- Przejdź do środowiska Nauka o danych w usłudze Microsoft Fabric.
- Utwórz nowy notes.
- Dołącz notes do jeziora. Po lewej stronie notesu wybierz pozycję Dodaj , aby dodać istniejący obiekt lakehouse lub utworzyć nowy.
- Uzyskaj klucz usług sztucznej inteligencji platformy Azure, wykonując kroki opisane w przewodniku Szybki start: tworzenie zasobu wielousługowego dla usług Azure AI — szybki start. Ten klucz będzie potrzebny dla usług Azure AI do przekształcania danych w jednej sekcji tego artykułu.
Konfigurowanie środowiska
Zaimportuj biblioteki synapseML i zainicjuj sesję platformy Spark.
from pyspark.sql import SparkSession
from synapse.ml.core.platform import *
spark = SparkSession.builder.getOrCreate()
Ładowanie zestawu danych
Załaduj zestaw danych i podziel go na zestawy trenowania i testowania.
train, test = (
spark.read.parquet(
"wasbs://publicwasb@mmlspark.blob.core.windows.net/BookReviewsFromAmazon10K.parquet"
)
.limit(1000)
.cache()
.randomSplit([0.8, 0.2])
)
display(train)
Tworzenie potoku trenowania
Utwórz potok, który featurizuje dane przy użyciu TextFeaturizer
synapse.ml.featurize.text
biblioteki i uzyskuje ocenę przy użyciu LightGBMRegressor
funkcji.
from pyspark.ml import Pipeline
from synapse.ml.featurize.text import TextFeaturizer
from synapse.ml.lightgbm import LightGBMRegressor
model = Pipeline(
stages=[
TextFeaturizer(inputCol="text", outputCol="features"),
LightGBMRegressor(featuresCol="features", labelCol="rating"),
]
).fit(train)
Przewidywanie danych wyjściowych danych testowych
Wywołaj transform
funkcję w modelu, aby przewidzieć i wyświetlić dane wyjściowe danych testowych jako ramkę danych.
display(model.transform(test))
Przekształcanie danych w jednym kroku za pomocą usług Azure AI
Alternatywnie w przypadku tego rodzaju zadań, które mają wstępnie utworzone rozwiązanie, możesz użyć integracji usługi SynapseML z usługami Azure AI, aby przekształcić dane w jednym kroku.
from synapse.ml.cognitive import TextSentiment
from synapse.ml.core.platform import find_secret
model = TextSentiment(
textCol="text",
outputCol="sentiment",
subscriptionKey=find_secret("cognitive-api-key"), # Replace it with your cognitive service key, check prerequisites for more details
).setLocation("eastus")
display(model.transform(test))
Następne kroki
Opinia
Prześlij i wyświetl opinię dla