Regressione quantile della foresta rapida

Articolo
09/01/2024

Questo articolo descrive un modulo nella finestra di progettazione di Azure Machine Learning.

Usare questo componente per creare un modello di regressione quantile della foresta veloce in una pipeline. La regressione quantile della foresta veloce è utile se si vuole comprendere meglio la distribuzione del valore stimato, anziché ottenere un singolo valore medio di stima. Questo metodo include molte applicazioni, tra cui:

Stima dei prezzi
Stima delle prestazioni degli studenti o applicazione di grafici di crescita per valutare lo sviluppo figlio
Individuazione delle relazioni predittive nei casi in cui esiste solo una relazione debole tra le variabili

Questo algoritmo di regressione è un metodo di apprendimento supervisionato , il che significa che richiede un set di dati con tag che include una colonna etichetta. Poiché si tratta di un algoritmo di regressione, la colonna etichetta deve contenere solo valori numerici.

Altre informazioni sulla regressione quantile

Esistono molti tipi diversi di regressione. In poche parole, la regressione significa adattare un modello a una destinazione espressa come vettore numerico. Tuttavia, gli statistici hanno sviluppato metodi sempre più avanzati per la regressione.

La definizione più semplice di quantile è un valore che divide un set di dati in gruppi di dimensioni uguali, pertanto i valori quantili contrassegnano i limiti tra i gruppi. Statisticamente, i quantili sono valori acquisiti a intervalli regolari dall'inverso della funzione di distribuzione cumulativa (CDF) di una variabile casuale.

Mentre i modelli di regressione lineare tentano di stimare il valore di una variabile numerica usando una singola stima, la media, a volte è necessario stimare l'intervallo o l'intera distribuzione della variabile di destinazione. A questo scopo sono state sviluppate tecniche come la regressione bayesiana e la regressione quantile.

La regressione quantile consente di comprendere la distribuzione del valore stimato. I modelli di regressione quantile basati su albero, ad esempio quello usato in questo componente, hanno il vantaggio aggiuntivo che possono essere usati per stimare distribuzioni non parametriche.

Come configurare la regressione quantile della foresta veloce

Aggiungere il componente Fast Forest Quantile Regression alla pipeline nella finestra di progettazione. È possibile trovare questo componente in Algoritmi di Machine Learning nella categoria Regressione .
Nel riquadro destro del componente Fast Forest Quantile Regression specificare la modalità di training del modello impostando l'opzione Crea modalità di training.
- Singolo parametro: se si sa come configurare il modello, specificare un set specifico di valori come argomenti. Quando si esegue il training del modello, usare Train Model .When you train the model, use Train Model.
- Intervallo di parametri: se non si è certi dei parametri migliori, eseguire uno sweep di parametri usando il componente Ottimizza iperparametri del modello. Il formatore esegue l'iterazione su più valori specificati per trovare la configurazione ottimale.
Numero di alberi, digitare il numero massimo di alberi che è possibile creare nell'insieme. Se si creano più alberi, in genere si verifica una maggiore accuratezza, ma al costo di un tempo di training più lungo.
Numero di foglie, digitare il numero massimo di foglie o nodi terminal che possono essere creati in qualsiasi albero.
Numero minimo di istanze di training necessarie per formare una foglia, specificare il numero minimo di esempi necessari per creare qualsiasi nodo terminale (foglia) in un albero.

Aumentando questo valore, si aumenta la soglia per la creazione di nuove regole. Ad esempio, con il valore predefinito 1, anche un singolo caso può causare la creazione di una nuova regola. Se si aumenta il valore a 5, i dati di training devono contenere almeno 5 case che soddisfano le stesse condizioni.
Frazione di bagging, specificare un numero compreso tra 0 e 1 che rappresenta la frazione di campioni da usare durante la compilazione di ogni gruppo di quantili. I campioni vengono scelti in modo casuale, con sostituzione.
Divisione frazione, digitare un numero compreso tra 0 e 1 che rappresenta la frazione di caratteristiche da usare in ogni divisione dell'albero. Le funzionalità usate vengono sempre scelte in modo casuale.
Quantili da stimare, digitare un elenco delimitato da punto e virgola dei quantili per cui si vuole eseguire il training e creare stime del modello.

Ad esempio, se si vuole creare un modello che stima i quartili, digitare 0.25; 0.5; 0.75.
Facoltativamente, digitare un valore per Valore di inizializzazione numero casuale per inizializzare il generatore di numeri casuali usato dal modello. Il valore predefinito è 0, ovvero viene scelto un valore di inizializzazione casuale.

È necessario specificare un valore se è necessario riprodurre i risultati nelle esecuzioni successive sugli stessi dati.
Connettere il set di dati di training e il modello non sottoposto a training a uno dei componenti di training:
- Se si imposta Create trainer mode (Crea modalità trainer) su Single Parameter (Parametro singolo), usare il componente Train Model (Esegui training modello).
- Se si imposta Crea modalità di training su Intervallo di parametri, usare il componente Ottimizza iperparametri del modello.
Avviso
- Se si passa un intervallo di parametri a Train Model, viene usato solo il primo valore nell'elenco di intervalli di parametri.
- Se si passa un singolo set di valori di parametro al componente Tune Model Hyperparameters , quando prevede un intervallo di impostazioni per ogni parametro, ignora i valori e usa i valori predefiniti per lo strumento di apprendimento.
- Se si seleziona l'opzione Intervallo di parametri e si immette un singolo valore per qualsiasi parametro, tale singolo valore specificato viene usato durante lo sweep, anche se altri parametri cambiano in un intervallo di valori.
Inviare la pipeline.

Risultati

Al termine del training:

Per salvare uno snapshot del modello sottoposto a training, selezionare il componente di training e quindi passare alla scheda Output e log nel pannello a destra. Fare clic sull'icona Registra set di dati. È possibile trovare il modello salvato come componente nell'albero dei componenti.

Metriche di valutazione

È possibile usare il componente Evaluate Model per valutare il modello sottoposto a training. Per La regressione quantile della foresta veloce, le metriche sono le seguenti.

Quantile Loss (Perdita quantile): misura dell'errore per un quantile specifico nel modello.
Perdita quantile media: si tratta semplicemente della media dei valori quantile Loss in tutti i quantili considerati nel modello. Fornisce una misura complessiva delle prestazioni del modello in tutti i quantili.

Passaggi successivi

Vedere il set di componenti disponibili per Azure Machine Learning.

Condividi tramite