Esercitazione: Stimare i prezzi usando la regressione con ML.NET

Questa esercitazione illustra come creare un modello di regressione usando ML.NET per stimare i prezzi, in particolare le tariffe dei taxi di New York City.

In questa esercitazione si apprenderà come:

Preparare e comprendere i dati
Caricare e trasformare i dati
Scegliere un algoritmo di apprendimento
Addestrare il modello
Valutare il modello
Usare il modello per le stime

Prerequisiti

Visual Studio 2022 o versione successiva con il carico di lavoro Sviluppo di applicazioni desktop .NET installato.

Creare un'applicazione console

Creare un'applicazione console C# denominata "TaxiFarePrediction".
Scegliere .NET 8 come framework da usare. Fare clic sul pulsante Crea.
Creare una directory denominata Data nel progetto per archiviare i file del set di dati e del modello.
Installare il pacchetto NuGet Microsoft.ML e Microsoft.ML.FastTree:

Annotazioni

In questo esempio viene usata la versione stabile più recente dei pacchetti NuGet menzionati, a meno che non diversamente specificato.

In Esplora soluzioni fare clic con il pulsante destro del mouse sul progetto e scegliere Gestisci pacchetti NuGet. Scegliere "nuget.org" come origine pacchetto, selezionare la scheda Sfoglia , cercare Microsoft.ML, selezionare il pacchetto nell'elenco e selezionare Installa. Selezionare il pulsante OK nella finestra di dialogo Anteprima modifiche e quindi selezionare il pulsante Accetto nella finestra di dialogo Accettazione della licenza se si accettano le condizioni di licenza per i pacchetti elencati. Eseguire la stessa operazione per il pacchetto NuGet Microsoft.ML.FastTree .

Preparare e comprendere i dati

Scaricare il taxi-fare-train.csv e i set di dati taxi-fare-test.csv e salvarli nella cartella Dati creata nel passaggio precedente. Questi set di dati vengono usati per eseguire il training del modello di Machine Learning e quindi valutare l'accuratezza del modello. Questi insiemi di dati provengono originariamente dal set di dati NYC TLC Taxi Trip.
In Esplora soluzioni fare clic con il pulsante destro del mouse su ognuno dei file *.csv e scegliere Proprietà. Nella sezione Avanzate, cambiare il valore di Copia nella directory di output con Copia se più recente.
Apri il file di dati 'taxi-fare-train.csv' ed esamina le intestazioni di colonna nella prima riga. Esaminare ognuna delle colonne. Comprendere i dati e decidere quali colonne sono funzionalità e quale è l'etichetta.

label è la colonna da stimare. Gli input identificati Featuressono gli input che si assegnano al modello per stimare l'oggetto Label.

Il set di dati fornito contiene le colonne seguenti:

vendor_id: L'ID del fornitore di taxi è una funzionalità.
rate_code: Il tipo di tariffa della corsa in taxi è una funzionalità.
passenger_count: Il numero di passeggeri durante il viaggio è una caratteristica.
trip_time_in_secs: Quantità di tempo impiegato dal viaggio. Si vuole prevedere la tariffa del viaggio prima del completamento del viaggio. In quel momento, non sai quanto tempo ci vorrebbe il viaggio. Pertanto, il tempo di viaggio non è una funzionalità e si escluderà questa colonna dal modello.
trip_distance: La distanza del viaggio è una caratteristica.
payment_type: Il metodo di pagamento (contanti o carta di credito) è una funzionalità.
fare_amount: La tariffa totale del taxi pagata viene indicata.

Creare classi di dati

Creare classi per i dati di input e le stime:

In Esplora soluzioni fare clic con il pulsante destro del mouse sul progetto e quindi scegliere Aggiungi>nuovo elemento.
Nella finestra di dialogo Aggiungi nuovo elemento selezionare Classe e modificare il campo Nome in TaxiTrip.cs. Quindi selezionare Aggiungi.
Aggiungere le direttive seguenti using al nuovo file:
```
using Microsoft.ML.Data;
```

Rimuovere la definizione di classe esistente e aggiungere il codice seguente, che include due classi TaxiTrip e TaxiTripFarePrediction, al file TaxiTrip.cs :

public class TaxiTrip
{
    [LoadColumn(0)]
    public string? VendorId;

    [LoadColumn(1)]
    public string? RateCode;

    [LoadColumn(2)]
    public float PassengerCount;

    [LoadColumn(3)]
    public float TripTime;

    [LoadColumn(4)]
    public float TripDistance;

    [LoadColumn(5)]
    public string? PaymentType;

    [LoadColumn(6)]
    public float FareAmount;
}

public class TaxiTripFarePrediction
{
    [ColumnName("Score")]
    public float FareAmount;
}

TaxiTrip è la classe di dati di input e ha definizioni per ognuna delle colonne del set di dati. Usare l'attributo LoadColumnAttribute per specificare gli indici delle colonne di origine nel set di dati.

La TaxiTripFarePrediction classe rappresenta i risultati stimati. Ha un singolo campo float, FareAmount, con un ScoreColumnNameAttribute attributo applicato. Nel caso dell'attività di regressione, la colonna Score contiene valori di etichetta stimati.

Annotazioni

Usare il float tipo per rappresentare i valori a virgola mobile nelle classi di dati di input e stima.

Definire i percorsi di dati e modelli

Aggiungere le direttive aggiuntive using seguenti all'inizio del file Program.cs :

using Microsoft.ML;
using TaxiFarePrediction;

È necessario creare tre campi per contenere i percorsi dei file con set di dati e il file per salvare il modello:

_trainDataPath contiene il percorso del file con il set di dati usato per eseguire il training del modello.
_testDataPath contiene il percorso del file con il set di dati usato per valutare il modello.
_modelPath contiene il percorso del file in cui è archiviato il modello sottoposto a training.

Aggiungere il codice seguente sotto la sezione usings per specificare tali percorsi e per la _textLoader variabile:

string _trainDataPath = Path.Combine(Environment.CurrentDirectory, "Data", "taxi-fare-train.csv");
string _testDataPath = Path.Combine(Environment.CurrentDirectory, "Data", "taxi-fare-test.csv");
string _modelPath = Path.Combine(Environment.CurrentDirectory, "Data", "Model.zip");

Tutte le operazioni di ML.NET iniziano nella classe MLContext. L'inizializzazione mlContext crea un nuovo ambiente ML.NET che può essere condiviso tra gli oggetti del flusso di lavoro di creazione del modello. È simile, concettualmente, a DBContext in Entity Framework.

Inizializzare le variabili

Sostituire la Console.WriteLine("Hello World!") riga con il codice seguente per dichiarare e inizializzare la mlContext variabile:

MLContext mlContext = new MLContext(seed: 0);

Aggiungere quanto segue come riga di codice successiva per chiamare il Train metodo :

var model = Train(mlContext, _trainDataPath);

Il Train() metodo esegue le attività seguenti:

Carica i dati.
Estrae e trasforma i dati.
Esegue il training del modello.
Restituisce il modello.

Il Train metodo esegue il training del modello. Creare questo metodo subito sotto usando il codice seguente:

ITransformer Train(MLContext mlContext, string dataPath)
{

}

Caricare e trasformare i dati

ML.NET usa l'interfaccia IDataView come modo flessibile ed efficiente di descrivere dati numerici o tabulari di testo. IDataView può caricare file di testo o in tempo reale (ad esempio, database SQL o file di log). Aggiungere il codice seguente come prima riga del Train() metodo:

IDataView dataView = mlContext.Data.LoadFromTextFile<TaxiTrip>(dataPath, hasHeader: true, separatorChar: ',');

Poiché si vuole prevedere la tariffa di corsa dei taxi, la colonna FareAmount è quella Label che verrà prevista (l'output del modello). Usare la CopyColumnsEstimator classe di trasformazione per copiare FareAmounte aggiungere il codice seguente:

var pipeline = mlContext.Transforms.CopyColumns(outputColumnName: "Label", inputColumnName:"FareAmount")

L'algoritmo che esegue il training del modello richiede funzionalità numeriche , pertanto è necessario trasformare i valori dei dati categorici (VendorId, RateCodee PaymentType) in numeri (VendorIdEncoded, RateCodeEncodede PaymentTypeEncoded). A tale scopo, usare la classe di trasformazione OneHotEncodingTransformer , che assegna valori numerici diversi ai diversi valori di chiave in ognuna delle colonne e aggiungere il codice seguente:

.Append(mlContext.Transforms.Categorical.OneHotEncoding(outputColumnName: "VendorIdEncoded", inputColumnName:"VendorId"))
.Append(mlContext.Transforms.Categorical.OneHotEncoding(outputColumnName: "RateCodeEncoded", inputColumnName: "RateCode"))
.Append(mlContext.Transforms.Categorical.OneHotEncoding(outputColumnName: "PaymentTypeEncoded", inputColumnName: "PaymentType"))

L'ultimo passaggio della preparazione dei dati combina tutte le colonne di funzionalità nella colonna Features usando la mlContext.Transforms.Concatenate classe di trasformazione . Per impostazione predefinita, un algoritmo di apprendimento elabora solo le funzionalità della colonna Funzionalità . Aggiungere il codice seguente:

.Append(mlContext.Transforms.Concatenate("Features", "VendorIdEncoded", "RateCodeEncoded", "PassengerCount", "TripDistance", "PaymentTypeEncoded"))

Scegliere un algoritmo di apprendimento

Questo problema riguarda la previsione di una corsa in taxi a New York City. A prima vista, può sembrare dipendere semplicemente dalla distanza percorsa. Tuttavia, i fornitori di taxi a New York addebitano importi diversi per altri fattori, ad esempio passeggeri aggiuntivi o pagare con carta di credito anziché contanti. Si vuole stimare il valore del prezzo, ovvero un valore reale, in base agli altri fattori nel set di dati. A tale scopo, scegliere un'attività di Machine Learning di regressione .

Aggiungi l'attività di apprendimento automatico FastTreeRegressionTrainer alle definizioni di trasformazione dei dati, inserendo quanto segue come prossima riga di codice in Train():

.Append(mlContext.Regression.Trainers.FastTree());

Addestrare il modello

Adattare il modello al training dataview e restituire il modello sottoposto a training aggiungendo la riga di codice seguente nel Train() metodo :

var model = pipeline.Fit(dataView);

Il metodo Fit() esegue il training del modello trasformando il set di dati e applicando il training.

Restituire il modello sottoposto a training con la riga di codice seguente nel Train() metodo :

return model;

Valutare il modello

Valutare quindi le prestazioni del modello con i dati di test per garantire la qualità e la convalida. Creare il Evaluate() metodo subito dopo Train()con il codice seguente:

void Evaluate(MLContext mlContext, ITransformer model)
{

}

Il Evaluate metodo esegue le attività seguenti:

Carica il set di dati di test.
Crea l'analizzatore di regressione.
Valuta il modello e crea metriche.
Visualizza le metriche.

Aggiungere una chiamata al nuovo metodo direttamente sotto la chiamata al Train metodo usando il codice seguente:

Evaluate(mlContext, model);

Caricare il set di dati di test usando il metodo LoadFromTextFile(). Valutare il modello usando questo set di dati come controllo qualitativo aggiungendo il codice seguente nel Evaluate metodo :

IDataView dataView = mlContext.Data.LoadFromTextFile<TaxiTrip>(_testDataPath, hasHeader: true, separatorChar: ',');

Trasformare quindi i Test dati aggiungendo il codice seguente a Evaluate():

var predictions = model.Transform(dataView);

Il metodo Transform() esegue stime per le righe di input del set di dati di test.

Il RegressionContext.Evaluate metodo calcola le metriche di qualità per l'oggetto PredictionModel usando il set di dati specificato. Restituisce un RegressionMetrics oggetto che contiene le metriche complessive calcolate dagli analizzatori di regressione.

Per visualizzarli per determinare la qualità del modello, è prima necessario ottenere le metriche. Aggiungere il codice seguente come riga successiva nel Evaluate metodo :

var metrics = mlContext.Regression.Evaluate(predictions, "Label", "Score");

Dopo aver impostato la stima, il metodo Evaluate() valuta il modello, che confronta i valori stimati con l'effettivo Labels nel set di dati di test e restituisce le metriche sulle prestazioni del modello.

Aggiungere il codice seguente per valutare il modello e produrre le metriche di valutazione:

Console.WriteLine();
Console.WriteLine($"*************************************************");
Console.WriteLine($"*       Model quality metrics evaluation         ");
Console.WriteLine($"*------------------------------------------------");

RSquared è un'altra metrica di valutazione dei modelli di regressione. RSquared accetta valori compresi tra 0 e 1. Il valore più vicino è 1, migliore è il modello. Aggiungere il codice seguente nel Evaluate metodo per visualizzare il valore RSquared:

Console.WriteLine($"*       RSquared Score:      {metrics.RSquared:0.##}");

RMS è una delle metriche di valutazione del modello di regressione. Più basso è, meglio è il modello. Aggiungere il codice seguente nel Evaluate metodo per visualizzare il valore RMS:

Console.WriteLine($"*       Root Mean Squared Error:      {metrics.RootMeanSquaredError:0.##}");

Usare il modello per le stime

Creare il TestSinglePrediction metodo subito dopo il Evaluate metodo usando il codice seguente:

void TestSinglePrediction(MLContext mlContext, ITransformer model)
{

}

Il TestSinglePrediction metodo esegue le attività seguenti:

Crea un singolo commento dei dati di test.
Stima l'importo della tariffa in base ai dati di test.
Combina i dati di test e le stime per la creazione di report.
Visualizza i risultati stimati.

Aggiungere una chiamata al nuovo metodo direttamente sotto la chiamata al Evaluate metodo usando il codice seguente:

TestSinglePrediction(mlContext, model);

PredictionEngine Usare per stimare la tariffa aggiungendo il codice seguente a TestSinglePrediction():

var predictionFunction = mlContext.Model.CreatePredictionEngine<TaxiTrip, TaxiTripFarePrediction>(model);

PredictionEngine è un'API utile che consente di eseguire una stima su una singola istanza di dati. PredictionEngine non è thread-safe. È accettabile usare in ambienti a thread singolo o prototipo. Per migliorare le prestazioni e la sicurezza dei thread negli ambienti di produzione, usa il PredictionEnginePool servizio, che crea un elenco di oggetti ObjectPoolPredictionEngine da utilizzare in tutta l'applicazione. Vedere questa guida su come usare PredictionEnginePool in un'API Web di ASP.NET Core.

Annotazioni

PredictionEnginePool l'estensione del servizio è attualmente in anteprima.

Questa esercitazione utilizza un percorso di prova in questa classe. In seguito è possibile aggiungere altri scenari per sperimentare il modello. Aggiungere un viaggio per testare la stima del costo del modello sottoposto a training nel TestSinglePrediction() metodo creando un'istanza di TaxiTrip:

var taxiTripSample = new TaxiTrip()
{
    VendorId = "VTS",
    RateCode = "1",
    PassengerCount = 1,
    TripTime = 1140,
    TripDistance = 3.75f,
    PaymentType = "CRD",
    FareAmount = 0 // To predict. Actual/Observed = 15.5
};

Successivamente, stimare la tariffa in base a una singola istanza dei dati relativi alle corse dei taxi e passarla a PredictionEngine aggiungendo quanto segue come righe di codice successive nel TestSinglePrediction() metodo :

var prediction = predictionFunction.Predict(taxiTripSample);

La funzione Predict() esegue una stima su una singola istanza di dati.

Per visualizzare la tariffa stimata della corsa specificata, aggiungere il codice seguente nel TestSinglePrediction metodo :

Console.WriteLine($"**********************************************************************");
Console.WriteLine($"Predicted fare: {prediction.FareAmount:0.####}, actual fare: 15.5");
Console.WriteLine($"**********************************************************************");

Esegui il programma per vedere la tariffa stimata del taxi per il test case.

Congratulazioni! È stato creato un modello di Machine Learning per stimare le tariffe dei taxi, valutarne l'accuratezza e usarlo per eseguire stime. È possibile trovare il codice sorgente per questa esercitazione nel repository GitHub dotnet/samples .

Passaggi successivi

In questo tutorial, hai imparato come:

Preparare e comprendere i dati
Creare una pipeline di apprendimento
Caricare e trasformare i dati
Scegliere un algoritmo di apprendimento
Addestrare il modello
Valutare il modello
Usare il modello per le stime

Passa all'esercitazione successiva per saperne di più.

Clustering dell'Iris

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2025-12-06