Sdílet prostřednictvím


SdcaMulticlassTrainerBase<TModel> Třída

Definice

Předpověď IEstimator<TTransformer> cíle pomocí lineárního vícetřídového klasifikátoru natrénovaného pomocí metody souřadnicového sestupu. V závislosti na použité ztrátové funkci může být trénovaný model, například maximální klasifikátor entropie nebo stroj s podporou více tříd.

public abstract class SdcaMulticlassTrainerBase<TModel> : Microsoft.ML.Trainers.SdcaTrainerBase<Microsoft.ML.Trainers.SdcaMulticlassTrainerBase<TModel>.MulticlassOptions,Microsoft.ML.Data.MulticlassPredictionTransformer<TModel>,TModel> where TModel : class
type SdcaMulticlassTrainerBase<'Model (requires 'Model : null)> = class
    inherit SdcaTrainerBase<SdcaMulticlassTrainerBase<'Model>.MulticlassOptions, MulticlassPredictionTransformer<'Model>, 'Model (requires 'Model : null)>
Public MustInherit Class SdcaMulticlassTrainerBase(Of TModel)
Inherits SdcaTrainerBase(Of SdcaMulticlassTrainerBase(Of TModel).MulticlassOptions, MulticlassPredictionTransformer(Of TModel), TModel)

Parametry typu

TModel
Dědičnost
Odvozené

Poznámky

Chcete-li vytvořit tento trenér pro maximální entropy klasifikátor, použijte SdcaMaximumEntropy nebo SdcaMaximumEntropy(Options). Pokud chcete vytvořit tohoto trenéra pro funkci ztráty (například ztrátu závěsu vektorového stroje) podle vašeho výběru, použijte SdcaNonCalibrated nebo SdcaNonCalibrated(Options).

Vstupní a výstupní sloupce

Vstupní data sloupce popisku musí být klíčovým typem a sloupec funkce musí být vektorem Singleznámé velikosti .

Tento trenér vypíše následující sloupce:

Název výstupního sloupce Typ sloupce Description
Score Vektor Single Skóre všech tříd. Vyšší hodnota znamená, že vyšší pravděpodobnost spadá do přidružené třídy. Pokud má prvek i-th největší hodnotu, bude predikovaný index popisku i. Všimněte si, že i je index založený na nule.
PredictedLabel typ klíče Index predikovaného popisku. Pokud je jeho hodnota i, skutečný popisek by byl i-th kategorie v typu vstupního popisku s hodnotou klíče.

Charakteristiky trenéra

Úloha strojového učení Vícetřídní klasifikace
Vyžaduje se normalizace? Yes
Vyžaduje se ukládání do mezipaměti? No
Povinné nuGet kromě Microsoft.ML Žádné
Exportovatelný do ONNX Yes

Bodovací funkce

Tento trénuje lineární model pro řešení problémů s klasifikací více tříd. Předpokládejme, že počet tříd je $m$ a počet funkcí je $n$. Přiřadí $c$-th třídy vektor koeficientu $\textbf{w}_c \in {\mathbb R}^n$ a předsudky $b_c \in {\mathbb R}$, pro $c=1,\tečky,m$. Vzhledem k vektoru funkce $\textbf{x} \in {\mathbb R}^n$by skóre $c$-th třídy bylo $\hat{y}^c = \textbf{w}_c^T \textbf{x} + b_c$. Pokud $\textbf{x}$ patří do třídy $c$, měl by být $\hat{y}^c$ mnohem větší než 0. Naproti tomu $\hat{y}^c$ mnohem menší než 0 znamená, že požadovaný popisek by neměl být $c$.

Pokud a pouze v případě, že trénovaný model je maximální klasifikátor entropie, můžete interpretovat vektor výstupního skóre jako predikované pravděpodobnosti tříd, protože funkce softmax může být použita pro hodnocení všech tříd po zpracování. Konkrétněji je pravděpodobnost $\textbf{x}$ patřící do třídy $c$ vypočítán hodnotou $\tilde{P}( c | \textbf{x} ) = \frac{ e^{\\. hat{y}^c} }{ \sum_{c' = 1}^m e^{\hat{y}^{c'}} }$ a uloží se na $c$-th prvek v vektoru skóre. V jiných případech je výstupní vektor skóre pouze $[\hat{y}^1, \tečky, \hat{y}^m]$.

Podrobnosti o trénovacím algoritmu

Algoritmus optimalizace je rozšíření metody souřadnicového sestupu podle podobné cesty navržené v dřívějším dokumentu. Obvykle je mnohem rychlejší než L-BFGS a zkrácené metody Newton pro rozsáhlé a řídké datové sady.

Tato třída používá empirické minimalizaci rizik (tj. ERM) k formulování problému optimalizace založeného na shromážděných datech. Všimněte si, že empirické riziko se obvykle měří použitím funkce ztráty na predikcích modelu na shromážděných datových bodech. Pokud trénovací data neobsahují dostatek datových bodů (například pro trénování lineárního modelu v $n$-dimenzionálním prostoru, potřebujeme alespoň $n$ datových bodů), může dojít k přeurčení , aby byl model vytvořený ERM dobrý při popisu trénovacích dat, ale nemusí selhat predikovat správné výsledky v neviděných událostech. Regularizace je běžná technika pro zmírnění takového jevu pomocí penalizace velikosti (obvykle měřené normou) parametrů modelu. Tento trenér podporuje elastickou regulární síť, která postihuje lineární kombinaci L1-norm (LASSO), $|| \textbf{w}_c || _1$ a L2-norm (ridge), $|| \textbf{w}_c || _2^2$ regularizations for $c=1,\dots,m$. Regulární pravidla L1 a L2-norm mají různé účinky a používají doplňkové v určitých ohledech.

Spolu s implementovaným algoritmem optimalizace může pravidelná aktualizace L1 zvýšit sparsitu hmotností modelu, $\textbf{w}_1,\dots,\textbf{w}_m$. U vysoce dimenzionálních a řídkých datových sad je možné, pokud uživatelé pečlivě vyberou koeficient L1-normu, je možné dosáhnout dobré kvality předpovědi s modelem, který má pouze několik nenulových hmotností (např. 1 % celkových hmotností modelu), aniž by to ovlivnilo jeho predikční výkon. Naproti tomu L2-normu nemůže zvýšit sparsitu trénovaného modelu, ale přesto může zabránit přeurčení tím, že se vyhnete velkým hodnotám parametrů. Někdy použití L2-norm vede k lepší kvalitě předpovědi, takže uživatelé mohou stále chtít vyzkoušet a vyladit koeficienty L1-norm a L2-norm. Mějte na paměti, že použití L1-norm znamená, že rozdělení všech parametrů modelu je laplace rozdělení , zatímco L2-norm znamená Gaussian rozdělení pro ně.

Agresivní regularizace (tj. přiřazení velkých koeficientů k regulárním termínům L1 nebo L2-norm) může poškodit prediktivní kapacitu vyloučením důležitých proměnných z modelu. Například velmi velký koeficient L1-norm může vynutit, aby všechny parametry byly nuly a vést k triviálnímu modelu. Proto je volba správných regulárních koeficientů důležitá v praxi.

V části Viz také najdete odkazy na příklady použití.

Pole

FeatureColumn

Sloupec funkcí, který trenér očekává.

(Zděděno od TrainerEstimatorBase<TTransformer,TModel>)
LabelColumn

Sloupec popisku, který trenér očekává. Může to být null, což označuje, že popisek se nepoužívá pro trénování.

(Zděděno od TrainerEstimatorBase<TTransformer,TModel>)
WeightColumn

Sloupec hmotnosti, který trenér očekává. Může být null, což značí, že váha se nepoužívá pro trénování.

(Zděděno od TrainerEstimatorBase<TTransformer,TModel>)

Vlastnosti

Info

Předpověď IEstimator<TTransformer> cíle pomocí lineárního vícetřídového klasifikátoru natrénovaného pomocí metody souřadnicového sestupu. V závislosti na použité ztrátové funkci může být trénovaný model, například maximální klasifikátor entropie nebo stroj s podporou více tříd.

(Zděděno od StochasticTrainerBase<TTransformer,TModel>)

Metody

Fit(IDataView)

Vlaky a vrátí ITransformerhodnotu .

(Zděděno od TrainerEstimatorBase<TTransformer,TModel>)
GetOutputSchema(SchemaShape)

Předpověď IEstimator<TTransformer> cíle pomocí lineárního vícetřídového klasifikátoru natrénovaného pomocí metody souřadnicového sestupu. V závislosti na použité ztrátové funkci může být trénovaný model, například maximální klasifikátor entropie nebo stroj s podporou více tříd.

(Zděděno od TrainerEstimatorBase<TTransformer,TModel>)

Metody rozšíření

AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment)

Připojte k řetězci odhadu kontrolní bod ukládání do mezipaměti. Tím zajistíte, aby se podřízené estimátory natrénovaly na data uložená v mezipaměti. Před průchodem více dat je užitečné mít kontrolní bod ukládání do mezipaměti.

WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>)

Pokud získáte odhadátor, vraťte obtékání objektu, který jednou zavolá delegáta Fit(IDataView) . Často je důležité, aby estimátor vrátil informace o tom, co bylo vhodné, což je důvod, proč Fit(IDataView) metoda vrací konkrétně zadaný objekt, a ne jen obecné ITransformer. Ve stejnou dobu se však často vytvářejí do kanálů s mnoha objekty, takže možná budeme muset vytvořit řetězec odhadovačů prostřednictvím EstimatorChain<TLastTransformer> toho, kde je odhadovač, IEstimator<TTransformer> pro který chceme získat transformátor, uložen někde v tomto řetězu. Pro tento scénář můžeme prostřednictvím této metody připojit delegáta, který bude volána po volání fit.

Platí pro

Viz také