Sdílet prostřednictvím


SdcaNonCalibratedBinaryTrainer Třída

Definice

Trénování IEstimator<TTransformer> binárního klasifikačního modelu logistické regrese pomocí metody stochastické duální souřadnice.

public sealed class SdcaNonCalibratedBinaryTrainer : Microsoft.ML.Trainers.SdcaBinaryTrainerBase<Microsoft.ML.Trainers.LinearBinaryModelParameters>
type SdcaNonCalibratedBinaryTrainer = class
    inherit SdcaBinaryTrainerBase<LinearBinaryModelParameters>
Public NotInheritable Class SdcaNonCalibratedBinaryTrainer
Inherits SdcaBinaryTrainerBase(Of LinearBinaryModelParameters)
Dědičnost

Poznámky

K vytvoření tohoto trenéra použijte SdcaNonCalibrated nebo SdcaNonCalibrated(Options).

Vstupní a výstupní sloupce

Vstupní data sloupce popisku musí být Boolean. Vstupními funkcemi musí být data sloupců známého vektoru Singlevelikosti . Tento trenér vypíše následující sloupce:

Název výstupního sloupce Typ sloupce Description
Score Single Nevázané skóre, které byl vypočítán modelem.
PredictedLabel Boolean Predikovaný popisek na základě znaménka skóre Záporná mapa false skóre a pozitivní skóre mapuje na true.

Charakteristiky trenéra

Úloha strojového učení Binární klasifikace
Vyžaduje se normalizace? Yes
Vyžaduje se ukládání do mezipaměti? No
Povinné nuGet kromě Microsoft.ML Žádné
Exportovatelný do ONNX Yes

Podrobnosti o trénovacím algoritmu

Tento trenér je založen na metodě Stochastic Dual Coordinate Ascent (SDCA), což je nejmodernější technika optimalizace pro konvexní objektivní funkce. Algoritmus je možné škálovat, protože se jedná o streamovací trénovací algoritmus, jak je popsáno v nejlepším dokumentu KDD.

Konvergence je přepsána pravidelným vynucením synchronizace mezi primárními a duálními proměnnými v samostatném vlákně. K dispozici je také několik možností funkcí ztráty, jako je ztráta závěsu a logistická ztráta. V závislosti na použité ztrátě může být trénovaný model například podpůrný vektorový stroj nebo logistická regrese. Metoda SDCA kombinuje několik nejlepších vlastností, jako je schopnost streamovat učení (bez přizpůsobení celé datové sady do paměti), dosažení přiměřeného výsledku s několika kontrolami celé datové sady (například experimenty v tomto dokumentu) a útratu na nule v řídkých datových sadách.

Všimněte si, že SDCA je stochastický a streamovací algoritmus optimalizace. Výsledek závisí na pořadítchch V optimalizaci silně konvexní je optimální řešení jedinečné a proto všichni nakonec dosáhnou stejného místa. I v nekonvexních případech získáte stejně dobrá řešení od běhu až po spuštění. Pro reprodukovatelné výsledky se doporučuje, aby jedna sada "Shuffle" na False a 'NumThreads' na 1.

Tato třída používá empirické minimalizaci rizik (tj. ERM) k formulování problému optimalizace založeného na shromážděných datech. Všimněte si, že empirické riziko se obvykle měří použitím funkce ztráty na predikcích modelu na shromážděných datových bodech. Pokud trénovací data neobsahují dostatek datových bodů (například pro trénování lineárního modelu v $n$-dimenzionálním prostoru, potřebujeme alespoň $n$ datových bodů), může dojít k přeurčení , aby byl model vytvořený ERM dobrý při popisu trénovacích dat, ale nemusí selhat predikovat správné výsledky v neviděných událostech. Regularizace je běžná technika pro zmírnění takového jevu pomocí penalizace velikosti (obvykle měřené normou) parametrů modelu. Tento trenér podporuje elastickou regulární síť, která postihuje lineární kombinaci L1-norm (LASSO), $|| \textbf{w}_c || _1$ a L2-norm (ridge), $|| \textbf{w}_c || _2^2$ regularizations for $c=1,\dots,m$. Regulární pravidla L1 a L2-norm mají různé účinky a používají doplňkové v určitých ohledech.

Spolu s implementovaným algoritmem optimalizace může pravidelná aktualizace L1 zvýšit sparsitu hmotností modelu, $\textbf{w}_1,\dots,\textbf{w}_m$. U vysoce dimenzionálních a řídkých datových sad je možné, pokud uživatelé pečlivě vyberou koeficient L1-normu, je možné dosáhnout dobré kvality předpovědi s modelem, který má pouze několik nenulových hmotností (např. 1 % celkových hmotností modelu), aniž by to ovlivnilo jeho predikční výkon. Naproti tomu L2-normu nemůže zvýšit sparsitu trénovaného modelu, ale přesto může zabránit přeurčení tím, že se vyhnete velkým hodnotám parametrů. Někdy použití L2-norm vede k lepší kvalitě předpovědi, takže uživatelé mohou stále chtít vyzkoušet a vyladit koeficienty L1-norm a L2-norm. Mějte na paměti, že použití L1-norm znamená, že rozdělení všech parametrů modelu je laplace rozdělení , zatímco L2-norm znamená Gaussian rozdělení pro ně.

Agresivní regularizace (tj. přiřazení velkých koeficientů k regulárním termínům L1 nebo L2-norm) může poškodit prediktivní kapacitu vyloučením důležitých proměnných z modelu. Například velmi velký koeficient L1-norm může vynutit, aby všechny parametry byly nuly a vést k triviálnímu modelu. Proto je volba správných regulárních koeficientů důležitá v praxi.

Další informace naleznete v tématu:

V části Viz také najdete odkazy na příklady použití.

Pole

FeatureColumn

Sloupec funkcí, který trenér očekává.

(Zděděno od TrainerEstimatorBase<TTransformer,TModel>)
LabelColumn

Sloupec popisku, který trenér očekává. Může to být null, což označuje, že popisek se nepoužívá pro trénování.

(Zděděno od TrainerEstimatorBase<TTransformer,TModel>)
WeightColumn

Sloupec hmotnosti, který trenér očekává. Může být null, což značí, že váha se nepoužívá pro trénování.

(Zděděno od TrainerEstimatorBase<TTransformer,TModel>)

Vlastnosti

Info

Trénování IEstimator<TTransformer> binárního klasifikačního modelu logistické regrese pomocí metody stochastické duální souřadnice.

(Zděděno od SdcaBinaryTrainerBase<TModelParameters>)

Metody

Fit(IDataView)

Vlaky a vrátí ITransformerhodnotu .

(Zděděno od TrainerEstimatorBase<TTransformer,TModel>)
GetOutputSchema(SchemaShape)

Trénování IEstimator<TTransformer> binárního klasifikačního modelu logistické regrese pomocí metody stochastické duální souřadnice.

(Zděděno od TrainerEstimatorBase<TTransformer,TModel>)

Metody rozšíření

AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment)

Připojte k řetězci odhadu kontrolní bod ukládání do mezipaměti. Tím zajistíte, aby se podřízené estimátory natrénovaly na data uložená v mezipaměti. Před průchodem více dat je užitečné mít kontrolní bod ukládání do mezipaměti.

WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>)

Pokud získáte odhadátor, vraťte obtékání objektu, který jednou zavolá delegáta Fit(IDataView) . Často je důležité, aby estimátor vrátil informace o tom, co bylo vhodné, což je důvod, proč Fit(IDataView) metoda vrací konkrétně zadaný objekt, a ne jen obecné ITransformer. Ve stejnou dobu se však často vytvářejí do kanálů s mnoha objekty, takže možná budeme muset vytvořit řetězec odhadovačů prostřednictvím EstimatorChain<TLastTransformer> toho, kde je odhadovač, IEstimator<TTransformer> pro který chceme získat transformátor, uložen někde v tomto řetězu. Pro tento scénář můžeme prostřednictvím této metody připojit delegáta, který bude volána po volání fit.

Platí pro

Viz také