Attività di classificazione con SynapseML

Questo articolo illustra come eseguire un'attività di classificazione specifica con due metodi. Un metodo usa plain pysparke un metodo usa la synapseml libreria . Anche se i metodi producono le stesse prestazioni, evidenziano la semplicità di synapseml rispetto a pyspark.

L'attività descritta in questo articolo stima se una recensione specifica del libro venduto su Amazon è buona (valutazione > 3) o negativa, in base al testo della recensione. Per creare l'attività, si addestrano modelli di LogisticRegression con iperparametri diversi e quindi si sceglie il modello migliore.

Prerequisiti

Collegare il notebook a un lakehouse. Sul lato sinistro è possibile selezionare Aggiungi per aggiungere una lakehouse esistente oppure creare un nuovo lakehouse.

Configurazione

Importare le librerie Python necessarie e ottenere una sessione Spark:

from pyspark.sql import SparkSession

# Bootstrap Spark Session
spark = SparkSession.builder.getOrCreate()

Leggere i dati

Scaricare e leggere i dati:

rawData = spark.read.parquet(
    "wasbs://publicwasb@mmlspark.blob.core.windows.net/BookReviewsFromAmazon10K.parquet"
)
rawData.show(5)

Estrarre funzionalità ed elaborare i dati

I dati reali presentano una maggiore complessità rispetto al set di dati scaricato in precedenza. Un set di dati include spesso funzionalità di più tipi, ad esempio testo, numerico e categorico. Per mostrare le difficoltà di utilizzo di questi set di dati, aggiungere due funzionalità numeriche al set di dati: il conteggio delle parole della revisione e la lunghezza media della parola:

from pyspark.sql.functions import udf
from pyspark.sql.types import *


def wordCount(s):
    return len(s.split())


def wordLength(s):
    import numpy as np

    ss = [len(w) for w in s.split()]
    return round(float(np.mean(ss)), 2)


wordLengthUDF = udf(wordLength, DoubleType())
wordCountUDF = udf(wordCount, IntegerType())

from synapse.ml.stages import UDFTransformer

wordLength = "wordLength"
wordCount = "wordCount"
wordLengthTransformer = UDFTransformer(
    inputCol="text", outputCol=wordLength, udf=wordLengthUDF
)
wordCountTransformer = UDFTransformer(
    inputCol="text", outputCol=wordCount, udf=wordCountUDF
)

from pyspark.ml import Pipeline

data = (
    Pipeline(stages=[wordLengthTransformer, wordCountTransformer])
    .fit(rawData)
    .transform(rawData)
    .withColumn("label", rawData["rating"] > 3)
    .drop("rating")
)

data.show(5)

Classificare usando pyspark

Per scegliere il classificatore LogisticRegression migliore usando la pyspark libreria, è necessario eseguire in modo esplicito questi passaggi:

Elaborare le funzionalità
- Tokenizzare la colonna di testo
- Eseguire l'hashing della colonna tokenizzata in un vettore usando la funzione hash
- Integrare le caratteristiche numeriche al vettore
Per elaborare la colonna etichetta, eseguire il cast della colonna nel tipo appropriato
Addestrare più algoritmi di LogisticRegression sul set di dati train, con iperparametri diversi.
Calcolare l'area sotto la curva ROC per ognuno dei modelli sottoposti a training e selezionare il modello con la metrica più alta calcolata nel test set di dati
Valutare il modello migliore nel validation set

from pyspark.ml.feature import Tokenizer, HashingTF
from pyspark.ml.feature import VectorAssembler

# Featurize text column
tokenizer = Tokenizer(inputCol="text", outputCol="tokenizedText")
numFeatures = 10000
hashingScheme = HashingTF(
    inputCol="tokenizedText", outputCol="TextFeatures", numFeatures=numFeatures
)
tokenizedData = tokenizer.transform(data)
featurizedData = hashingScheme.transform(tokenizedData)

# Merge text and numeric features in one feature column
featureColumnsArray = ["TextFeatures", "wordCount", "wordLength"]
assembler = VectorAssembler(inputCols=featureColumnsArray, outputCol="features")
assembledData = assembler.transform(featurizedData)

# Select only columns of interest
# Convert rating column from boolean to int
processedData = assembledData.select("label", "features").withColumn(
    "label", assembledData.label.cast(IntegerType())
)

from pyspark.ml.evaluation import BinaryClassificationEvaluator
from pyspark.ml.classification import LogisticRegression

# Prepare data for learning
train, test, validation = processedData.randomSplit([0.60, 0.20, 0.20], seed=123)

# Train the models on the 'train' data
lrHyperParams = [0.05, 0.1, 0.2, 0.4]
logisticRegressions = [
    LogisticRegression(regParam=hyperParam) for hyperParam in lrHyperParams
]
evaluator = BinaryClassificationEvaluator(
    rawPredictionCol="rawPrediction", metricName="areaUnderROC"
)
metrics = []
models = []

# Select the best model
for learner in logisticRegressions:
    model = learner.fit(train)
    models.append(model)
    scoredData = model.transform(test)
    metrics.append(evaluator.evaluate(scoredData))
bestMetric = max(metrics)
bestModel = models[metrics.index(bestMetric)]

# Get AUC on the validation dataset
scoredVal = bestModel.transform(validation)
print(evaluator.evaluate(scoredVal))

Classificare usando SynapseML

L'opzione synapseml prevede passaggi più semplici:

Il TrainClassifier Stimatore caratterizza internamente i dati, purché le colonne selezionate nel dataset train, test, validation rappresentino le feature.
Estimator FindBestModel trova il modello migliore da un pool di modelli sottoposti a training. A tale scopo, trova il modello che offre prestazioni ottimali nel set di dati in base alla test metrica specificata
Il ComputeModelStatistics Trasformatore calcola contemporaneamente le diverse metriche su un dataset valutato (nel nostro caso, il dataset validation)

from synapse.ml.train import TrainClassifier, ComputeModelStatistics
from synapse.ml.automl import FindBestModel

# Prepare data for learning
train, test, validation = data.randomSplit([0.60, 0.20, 0.20], seed=123)

# Train the models on the 'train' data
lrHyperParams = [0.05, 0.1, 0.2, 0.4]
logisticRegressions = [
    LogisticRegression(regParam=hyperParam) for hyperParam in lrHyperParams
]
lrmodels = [
    TrainClassifier(model=lrm, labelCol="label", numFeatures=10000).fit(train)
    for lrm in logisticRegressions
]

# Select the best model
bestModel = FindBestModel(evaluationMetric="AUC", models=lrmodels).fit(test)


# Get AUC on the validation dataset
predictions = bestModel.transform(validation)
metrics = ComputeModelStatistics().transform(predictions)
print(
    "Best model's AUC on validation set = "
    + "{0:.2f}%".format(metrics.first()["AUC"] * 100)
)

Come usare il modello K-NN (K-Nearest-Neighbors) con SynapseML
Come usare ONNX con SynapseML - Deep Learning
Come usare Kernel SHAP per spiegare un modello di classificazione tabulare

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2025-04-30