Freigeben über


SdcaMulticlassTrainerBase<TModel> Klasse

Definition

Das IEstimator<TTransformer> Ziel mithilfe eines linearen Multiclass-Klassifizierermodells, das mit einer Koordinatenabstiegsmethode trainiert wurde, vorherzusagen. Abhängig von der verwendeten Verlustfunktion kann das trainierte Modell z. B. maximaler Entropy-Klassifizierer oder mehrstufiger Supportvektorcomputer sein.

public abstract class SdcaMulticlassTrainerBase<TModel> : Microsoft.ML.Trainers.SdcaTrainerBase<Microsoft.ML.Trainers.SdcaMulticlassTrainerBase<TModel>.MulticlassOptions,Microsoft.ML.Data.MulticlassPredictionTransformer<TModel>,TModel> where TModel : class
type SdcaMulticlassTrainerBase<'Model (requires 'Model : null)> = class
    inherit SdcaTrainerBase<SdcaMulticlassTrainerBase<'Model>.MulticlassOptions, MulticlassPredictionTransformer<'Model>, 'Model (requires 'Model : null)>
Public MustInherit Class SdcaMulticlassTrainerBase(Of TModel)
Inherits SdcaTrainerBase(Of SdcaMulticlassTrainerBase(Of TModel).MulticlassOptions, MulticlassPredictionTransformer(Of TModel), TModel)

Typparameter

TModel
Vererbung
Abgeleitet

Hinweise

Verwenden Sie SdcaMaximumEntropy(Options), um diesen Trainer für maximal entropy-Klassifizierer zu erstellen. Um diesen Trainer für eine Verlustfunktion (z. B. den Vektorcomputerverlust) ihrer Wahl zu erstellen, verwenden Sie SdcaNonCalibrated oder SdcaNonCalibrated(Options).

Eingabe- und Ausgabespalten

Die Eingabebeschriftungsspaltendaten müssen schlüsseltyp sein, und die Featurespalte muss ein bekannter Vektor sein Single.

Der Trainer gibt folgende Spalten aus:

Name der Ausgabespalte Spaltentyp Beschreibung
Score Vektor von Single Die Bewertungen aller Klassen. Ein höherer Wert bedeutet eine höhere Wahrscheinlichkeit, in die zugehörige Klasse zu fallen. Wenn das i-te Element den größten Wert hat, wäre der vorhergesagte Bezeichnungsindex i. Beachten Sie, dass „i“ ein nullbasierter Index ist.
PredictedLabel Typ key Der Index der vorhergesagten Bezeichnung. Wenn sein Wert i ist, wäre die eigentliche Bezeichnung die i-te Kategorie des Typs der Schlüssel-Wert-Eingabebezeichnung.

Trainereigenschaften

ML-Aufgabe Multiklassenklassifizierung
Ist die Normalisierung erforderlich? Yes
Ist zwischenspeichern erforderlich? No
Erforderliche NuGet zusätzlich zu Microsoft.ML Keine
Exportierbar in ONNX Yes

Bewertungsfunktion

Dieses lineare Modell trainiert, um Probleme mit mehrklassigen Klassifizierungen zu lösen. Angenommen, die Anzahl der Klassen ist $m$ und die Anzahl der Features ist $n$. Es weist der $c$-th-Klasse einen Vektor $\textbf{w}_c \in {\mathbb R}^n$ und eine Verzerrung $b_c \in {\mathbb R}$, für $c=1,\dots,m$. Angesichts eines Featurevektors $\textbf{x} \in {\mathbb R}^n$, wäre die Bewertung der $c$-th-Klasse $\hat{y}^c = \textbf{w}_c^T \textbf{x} + b_c$. Wenn $\textbf{x}$ zur Klasse gehört $c$, sollte $\hat{y}^c$ viel größer als 0 sein. Im Gegensatz dazu bedeutet ein $\hat{y}^c$ viel kleiner als 0, dass die gewünschte Bezeichnung nicht $c$sein sollte.

Wenn das trainierte Modell ein maximaler Entropy-Klassifizierer ist, können Sie den Ausgabebewertungsvektor als die vorhergesagte Klassenwahrscheinlichkeit interpretieren, da die Softmax-Funktion möglicherweise auf die Bewertungen aller Klassen angewendet werden kann. Insbesondere wird die Wahrscheinlichkeit von $\textbf{x}$ aus der Klasse $c$ berechnet von $\tilde{P}( c | \textbf{x} ) = \frac{ e^{\hat{y}^c} }{ \sum_{c' = 1}^m^{\hat{y}^{c'}} }$ und speichern Sie im $c$-th-Element im Scorevektor. In anderen Fällen ist der Ausgabebewertungsvektor nur $[\hat{y}^1, \dots, \hat{y}^m]$.

Schulungsalgorithmusdetails

Der Optimierungsalgorithmus ist eine Erweiterung einer Koordinatenabstiegsmethode nach einem ähnlichen Pfad, der in einem früheren Papier vorgeschlagen wurde. Es ist in der Regel viel schneller als L-BFGS und abgeschnittene Newton-Methoden für große und sparsame Datensätze.

Diese Klasse verwendet empirische Risikominimierung (d. h. ERM), um das Optimierungsproblem zu formulieren, das auf gesammelten Daten basiert. Beachten Sie, dass empirisches Risiko in der Regel durch Anwenden einer Verlustfunktion auf die Vorhersagen des Modells auf gesammelten Datenpunkten gemessen wird. Wenn die Schulungsdaten nicht genügend Datenpunkte enthalten (z. B. um ein lineares Modell in $n$-dimensionalen Raum zu trainieren, benötigen wir mindestens $n$-Datenpunkte ), kann das Überpassen geschehen, damit das modell, das von ERM erzeugt wird, gut bei der Beschreibung von Schulungsdaten ist, aber möglicherweise keine korrekten Ergebnisse in nicht verfügbaren Ereignissen vorhergesagt werden können. Die Regularisierung ist eine allgemeine Technik, um ein solches Phänomen zu verringern, indem die Größe (normalerweise durch die Normfunktion) von Modellparametern bestraft wird. Dieser Trainer unterstützt die elastische Net-Regularisierung, die eine lineare Kombination aus L1-Norm (LASSO), $|| \textbf{w}_c || _1$, und L2-Norm (Ridge), $|| \textbf{w}_c || _2^2$ regularizations for $c=1,\dots,m$. L1-Norm- und L2-Norm-Regularisierungen haben unterschiedliche Auswirkungen und Verwendungen, die in bestimmten Aspekten ergänzen.

Zusammen mit dem implementierten Optimierungsalgorithmus kann die L1-Norm-Regularisierung die Sparsität der Modellgewichte, $\textbf{w}_1,\dots,\textbf{w}_m$erhöhen. Wenn Benutzer sorgfältig den Koeffizienten der L1-Norm auswählen, ist es möglich, eine gute Vorhersagequalität mit einem Modell zu erzielen, das nur wenige Nicht-Null-Gewichte (z. B. 1 % der Gesamtmodellgewichte) aufweist, ohne die Vorhersagekraft zu beeinträchtigen. Im Gegensatz dazu kann L2-Norm die Sparsität des trainierten Modells nicht erhöhen, aber dennoch verhindern, dass die Überlastung verhindert wird, indem große Parameterwerte vermieden werden. Manchmal führt die Verwendung von L2-Norm zu einer besseren Vorhersagequalität, sodass Benutzer es noch ausprobieren und die Koeffizienten von L1-Norm und L2-Norm optimieren möchten. Beachten Sie, dass die Verwendung von L1-Norm bedeutet, dass die Verteilung aller Modellparameter eine Laplace-Verteilung ist, während L2-Norm eine Gaussian-Verteilung für sie bedeutet.

Eine aggressive Regularisierung (d. h. große Koeffizienten zu L1-Norm- oder L2-Norm-Regularisierungsbedingungen) kann die Vorhersagekapazität beeinträchtigen, indem wichtige Variablen aus dem Modell ausgeschlossen werden. Beispielsweise kann ein sehr großer L1-Norm-Koeffizient alle Parameter auf Nullen erzwingen und zu einem trivialen Modell führen. Daher ist die Auswahl der richtigen Regularisierungskoeffizienten in der Praxis wichtig.

Überprüfen Sie den Abschnitt "Siehe auch", um Links zu Verwendungsbeispielen zu finden.

Felder

FeatureColumn

Die Featurespalte, die der Trainer erwartet.

(Geerbt von TrainerEstimatorBase<TTransformer,TModel>)
LabelColumn

Die Bezeichnungsspalte, die der Trainer erwartet. Kann sein null, was angibt, dass die Bezeichnung nicht für Schulungen verwendet wird.

(Geerbt von TrainerEstimatorBase<TTransformer,TModel>)
WeightColumn

Die Gewichtsspalte, die der Trainer erwartet. nullKann sein, was angibt, dass das Gewicht nicht für die Schulung verwendet wird.

(Geerbt von TrainerEstimatorBase<TTransformer,TModel>)

Eigenschaften

Info

Das IEstimator<TTransformer> Ziel mithilfe eines linearen Multiclass-Klassifizierermodells, das mit einer Koordinatenabstiegsmethode trainiert wurde, vorherzusagen. Abhängig von der verwendeten Verlustfunktion kann das trainierte Modell z. B. maximaler Entropy-Klassifizierer oder mehrstufiger Supportvektorcomputer sein.

(Geerbt von StochasticTrainerBase<TTransformer,TModel>)

Methoden

Fit(IDataView)

Züge und zurückgeben eine ITransformer.

(Geerbt von TrainerEstimatorBase<TTransformer,TModel>)
GetOutputSchema(SchemaShape)

Das IEstimator<TTransformer> Ziel mithilfe eines linearen Multiclass-Klassifizierermodells, das mit einer Koordinatenabstiegsmethode trainiert wurde, vorherzusagen. Abhängig von der verwendeten Verlustfunktion kann das trainierte Modell z. B. maximaler Entropy-Klassifizierer oder mehrstufiger Supportvektorcomputer sein.

(Geerbt von TrainerEstimatorBase<TTransformer,TModel>)

Erweiterungsmethoden

AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment)

Fügen Sie einen "Zwischenspeicherpunkt" an die Stimatorkette an. Dadurch wird sichergestellt, dass die nachgelagerten Stimatoren gegen zwischengespeicherte Daten trainiert werden. Es ist hilfreich, einen Cache-Prüfpunkt zu haben, bevor Trainer, die mehrere Daten übergeben.

WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>)

Geben Sie aufgrund einer Schätzung ein Umbruchobjekt zurück, das einen Stellvertretung aufruft, sobald Fit(IDataView) er aufgerufen wird. Es ist oft wichtig, dass eine Schätzung Informationen zu dem zurückgibt, was passt, weshalb die Fit(IDataView) Methode ein spezifisches typiertes Objekt zurückgibt, anstatt nur ein allgemeines ITransformer. Gleichzeitig IEstimator<TTransformer> werden jedoch oft Pipelines mit vielen Objekten gebildet, sodass wir möglicherweise eine Kette von EstimatorChain<TLastTransformer> Schätzern erstellen müssen, über die der Schätzer, für den wir den Transformator erhalten möchten, irgendwo in dieser Kette begraben wird. Für dieses Szenario können wir über diese Methode eine Stellvertretung anfügen, die einmal aufgerufen wird, wenn die Anpassung aufgerufen wird.

Gilt für:

Weitere Informationen