SdcaRegressionTrainer Classe
Definizione
Importante
Alcune informazioni sono relative alla release non definitiva del prodotto, che potrebbe subire modifiche significative prima della release definitiva. Microsoft non riconosce alcuna garanzia, espressa o implicita, in merito alle informazioni qui fornite.
Oggetto IEstimator<TTransformer> per il training di un modello di regressione usando il metodo ascente a doppia coordinata stocastica.
public sealed class SdcaRegressionTrainer : Microsoft.ML.Trainers.SdcaTrainerBase<Microsoft.ML.Trainers.SdcaRegressionTrainer.Options,Microsoft.ML.Data.RegressionPredictionTransformer<Microsoft.ML.Trainers.LinearRegressionModelParameters>,Microsoft.ML.Trainers.LinearRegressionModelParameters>
type SdcaRegressionTrainer = class
inherit SdcaTrainerBase<SdcaRegressionTrainer.Options, RegressionPredictionTransformer<LinearRegressionModelParameters>, LinearRegressionModelParameters>
Public NotInheritable Class SdcaRegressionTrainer
Inherits SdcaTrainerBase(Of SdcaRegressionTrainer.Options, RegressionPredictionTransformer(Of LinearRegressionModelParameters), LinearRegressionModelParameters)
- Ereditarietà
Commenti
Per creare questo formatore, usare Sdca o Sdca (Options).To create this trainer, use Sdca or Sdca(Options).
Colonne di input e output
I dati della colonna dell'etichetta di input devono essere Single. I dati delle colonne delle funzionalità di input devono essere un vettore di dimensioni note di Single.
Questo formatore restituisce le colonne seguenti:
Nome colonna di output | Tipo di colonna | Descrizione |
---|---|---|
Score |
Single | Punteggio non associato stimato dal modello. |
Caratteristiche del formatore
Attività di Machine Learning | Regressione |
La normalizzazione è necessaria? | Sì |
La memorizzazione nella cache è necessaria? | No |
NuGet richiesto oltre a Microsoft.ML | Nessuno |
Esportabile in ONNX | Sì |
Dettagli algoritmo di training
Questo formatore si basa sul metodo SdCA (Stochastic Dual Coordinate Ascent), una tecnica di ottimizzazione all'avanguardia per le funzioni obiettivo convesso. L'algoritmo può essere ridimensionato perché si tratta di un algoritmo di training di streaming come descritto in un documento KDD migliore.
La convergenza viene sovrascritta applicando periodicamente la sincronizzazione tra variabili primarie e doppie in un thread separato. Vengono inoltre fornite diverse scelte di funzioni di perdita, ad esempio perdita della cerniera e perdita logistica. A seconda della perdita usata, il modello sottoposto a training può essere, ad esempio, la macchina a vettori di supporto o la regressione logistica. Il metodo SDCA combina diverse delle migliori proprietà, ad esempio la possibilità di eseguire l'apprendimento in streaming (senza adattare l'intero set di dati nella memoria), raggiungendo un risultato ragionevole con alcune analisi dell'intero set di dati (ad esempio, vedere esperimenti in questo documento) e non spendendo alcun calcolo su zeri in set di dati di tipo sparse.
Si noti che SDCA è un algoritmo di ottimizzazione stocastico e di streaming. Il risultato dipende dall'ordine dei dati di training perché la tolleranza di arresto non è sufficiente. Nell'ottimizzazione fortemente convessa, la soluzione ottimale è unica e quindi tutti alla fine raggiungono lo stesso posto. Anche in casi non convesso, si otterranno soluzioni altrettanto valide da eseguire per l'esecuzione. Per i risultati riproducibili, è consigliabile impostare "Shuffle" su False e "NumThreads" su 1.
Questa classe usa la riduzione al minimo dei rischi empirici (ad esempio ERM) per formulare il problema di ottimizzazione basato sui dati raccolti. Si noti che il rischio empirico viene in genere misurato applicando una funzione di perdita alle stime del modello sui punti dati raccolti. Se i dati di training non contengono punti dati sufficienti ,ad esempio per eseguire il training di un modello lineare nello spazio $n$dimensionale, è necessario almeno $n$ punti dati, l'overfitting può verificarsi in modo che il modello prodotto da ERM sia utile per descrivere i dati di training, ma potrebbe non riuscire a prevedere i risultati corretti in eventi non visualizzati. La regolarizzazione è una tecnica comune per alleviare tale fenomeno penalizzando la grandezza (in genere misurata dalla funzione norm) dei parametri del modello. Questo formatore supporta la regolarizzazione della rete elastica, che penalizza una combinazione lineare di L1-norm (LASSO), $|| \textbf{w}_c || _1$, e L2-norm (ridge), $|| \textbf{w}_c || _2^2$ regolarizzazioni per $c=1,\dots,m$. Le regolarizzazioni L1-norm e L2-norm hanno effetti e usi diversi che sono complementari in determinati aspetti.
Insieme all'algoritmo di ottimizzazione implementato, la regolarizzazione della norma L1 può aumentare la spaziatura dei pesi del modello, $\textbf{w}_1,\dots,\textbf{w}_m$. Per i set di dati ad alta dimensione e sparse, se gli utenti selezionano attentamente il coefficiente della norma L1, è possibile ottenere una buona qualità di stima con un modello con pochi pesi diversi da zero (ad esempio, 1% dei pesi totali del modello) senza influire sulla potenza di stima. Al contrario, L2-norm non può aumentare la spaziatura del modello sottoposto a training, ma può comunque impedire l'overfitting evitando valori di parametri di grandi dimensioni. A volte, l'uso della norma L2 porta a una migliore qualità di stima, quindi gli utenti potrebbero comunque voler provare e ottimizzare i coefficienti di L1-norm e L2-norm. Si noti che concettualmente, l'uso di L1-norm implica che la distribuzione di tutti i parametri del modello è una distribuzione Laplace mentre L2-norm implica una distribuzione gaussiana per loro.
Una regolarizzazione aggressiva (ovvero l'assegnazione di coefficienti di grandi dimensioni ai termini di regolarizzazione L1-norm o L2) può danneggiare la capacità predittiva escludendo le variabili importanti dal modello. Ad esempio, un coefficiente L1-norm molto grande può forzare tutti i parametri a essere zeri e portare a un modello semplice. Pertanto, scegliere i coefficienti di regolarizzazione corretti è importante in pratica.
Per altre informazioni, vedere:
- Aumento dell'ascente della doppia coordinata stocastica.
- Metodi di ascente a doppia coordinata stocastica per la riduzione della perdita regolare.
Vedere la sezione Vedere anche per i collegamenti ad esempi di utilizzo.
Campi
FeatureColumn |
Colonna di funzionalità prevista dal formatore. (Ereditato da TrainerEstimatorBase<TTransformer,TModel>) |
LabelColumn |
Colonna dell'etichetta prevista dal formatore. Può essere |
WeightColumn |
Colonna di peso prevista dal formatore. Può essere |
Proprietà
Info |
Oggetto IEstimator<TTransformer> per il training di un modello di regressione usando il metodo ascente a doppia coordinata stocastica. (Ereditato da StochasticTrainerBase<TTransformer,TModel>) |
Metodi
Fit(IDataView) |
Esegue il training e restituisce un oggetto ITransformer. (Ereditato da TrainerEstimatorBase<TTransformer,TModel>) |
GetOutputSchema(SchemaShape) |
Oggetto IEstimator<TTransformer> per il training di un modello di regressione usando il metodo ascente a doppia coordinata stocastica. (Ereditato da TrainerEstimatorBase<TTransformer,TModel>) |
Metodi di estensione
AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment) |
Aggiungere un "checkpoint di memorizzazione nella cache" alla catena di stima. Ciò garantisce che gli estimatori downstream vengano sottoposti a training in base ai dati memorizzati nella cache. È utile avere un checkpoint di memorizzazione nella cache prima che i formatori eseseguono più passaggi di dati. |
WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>) |
Dato un estimator, restituire un oggetto wrapping che chiamerà un delegato una volta Fit(IDataView) chiamato. È spesso importante che uno strumento di stima restituisca informazioni sull'adattamento, motivo per cui il Fit(IDataView) metodo restituisce un oggetto tipizzato in modo specifico, anziché solo un oggetto generale ITransformer. Tuttavia, allo stesso tempo, IEstimator<TTransformer> vengono spesso formati in pipeline con molti oggetti, quindi potrebbe essere necessario creare una catena di estimatori tramite EstimatorChain<TLastTransformer> dove lo strumento di stima per il quale si vuole ottenere il trasformatore è sepolto in una posizione in questa catena. Per questo scenario, è possibile collegare un delegato che verrà chiamato una volta chiamato fit. |