Vyhodnocení modelu ML.NET s využitím metrik

Seznamte se s metrikami použitými k vyhodnocení modelu ML.NET.

Metriky vyhodnocení jsou specifické pro typ úlohy strojového učení, kterou model provádí.

Například pro úlohu klasifikace se model vyhodnocuje měřením toho, jak dobře předpovězená kategorie odpovídá skutečné kategorii. A pro clustering je vyhodnocení založené na tom, jak blízko jsou skupinové položky mezi sebou a kolik oddělení mezi clustery existuje.

Metriky vyhodnocení pro binární klasifikaci

Metriky Popis Hledat
Přesnost Přesnost je poměr správných předpovědí s testovací sadou dat. Jedná se o poměr počtu správných predikcí k celkovému počtu vstupních vzorků. Funguje dobře, pokud existuje podobný počet vzorků, které patří do každé třídy. Čím blíž k 1,00, tím lépe. Ale přesně 1,00 značí problém (obvykle: únik popisek/cíl, přeintečování nebo testování s trénovacími daty). Pokud jsou testovací data nevyvážená (kde většina instancí patří do jedné z tříd), datová sada je malá nebo skóre 0,00 nebo 1,00, přesnost ve skutečnosti nezachytí efektivitu klasifikátoru a potřebujete zkontrolovat další metriky.
AUC aucROC nebo Oblast pod křivkou měří oblast pod křivkou vytvořenou úklidem skutečné kladné rychlosti vs. falešně pozitivní míra. Čím blíž k 1,00, tím lépe. Aby byl model přijatelný, měl by být větší než 0,50. Model s AUC 0,50 nebo méně je bezcenný.
AUCPR aucPR nebo Area under the curve of a Precision-Recall curve: Useful measure of success of prediction when the classes are imbalanced (highly skewed datasets). Čím blíž k 1,00, tím lépe. Vysoké skóre blízko 1,00 ukazují, že klasifikátor vrací přesné výsledky (vysoká přesnost) a vrací většinu všech pozitivních výsledků (vysoké úplnosti).
F1-score Skóre F1 označované také jako vyvážené skóre F nebo míra F. Je to harmonický průměr přesnosti a úplnosti. F1 Score je užitečné, když chcete hledat rovnováhu mezi přesností a úplností. Čím blíž k 1,00, tím lépe. Skóre F1 dosáhne nejlepší hodnoty při 1,00 a nejhorším skóre na 0,00. Řekne vám, jak přesný je klasifikátor.

Další podrobnosti o metrikách binární klasifikace najdete v následujících článcích:

Metriky vyhodnocení pro klasifikaci více tříd a klasifikaci textu

Metriky Popis Hledat
Mikropřesnost Mikroprůměrná přesnost agreguje příspěvky všech tříd pro výpočet průměrné metriky. Jedná se o zlomek instancí, které jsou předpovězeny správně. Mikroprůměr nebere v úvahu členství ve třídě. V podstatě každý pár třídy vzorků přispívá stejně k metrikě přesnosti. Čím blíž k 1,00, tím lépe. V úloze klasifikace s více třídami je mikropřesnost vhodnější než přesnost maker, pokud máte podezření, že existuje nerovnováha tříd (tj. může existovat mnoho dalších příkladů jedné třídy než jiných tříd).
Přesnost maker Přesnost průměru makra je průměrná přesnost na úrovni třídy. Přesnost každé třídy se vypočítá a přesnost maker je průměrem těchto přesností. V podstatě každá třída přispívá stejně k metrikě přesnosti. Menšinové třídy mají stejnou váhu jako větší třídy. Metrika průměru makra dává každé třídě stejnou váhu bez ohledu na to, kolik instancí z této třídy datová sada obsahuje. Čím blíž k 1,00, tím lépe. Vypočítá metriku nezávisle pro každou třídu a pak vezme průměr (a proto zachází se všemi třídami stejně).
Ztráta protokolu Logaritmická ztráta měří výkon klasifikačního modelu, kde vstup předpovědi představuje hodnotu pravděpodobnosti mezi 0,00 a 1,00. Ztráta protokolu se zvyšuje, protože se predikovaná pravděpodobnost liší od skutečného popisku. Čím blíž k 0,00, tím lépe. Dokonalý model by měl ztrátu protokolu 0,00. Cílem našich modelů strojového učení je minimalizovat tuto hodnotu.
Snížení ztráty protokolů Logaritmické snížení ztráty lze interpretovat jako výhodu klasifikátoru při náhodné predikci. Pohybuje se od -inf a 1,00, kde 1,00 je perfektní předpovědi a 0,00 označuje střední předpovědi. Pokud se například hodnota rovná 0,20, lze ji interpretovat jako "pravděpodobnost správné předpovědi je 20 % lepší než náhodné odhadování".

Mikropřesnost je obecně lépe v souladu s obchodními potřebami predikcí ML. Pokud chcete vybrat jednu metriku pro výběr kvality úlohy klasifikace s více třídami, měla by být obvykle mikropřesnost.

Příklad úlohy klasifikace lístku podpory: (mapuje příchozí lístky na týmy podpory).

  • Mikropřesnost – jak často se příchozí lístek klasifikuje správnému týmu?
  • Přesnost maker – pro průměrný tým, jak často je příchozí lístek pro svůj tým správný?

Přesnost makra obtěžuje malé týmy v tomto příkladu; Malý tým, který získá pouze 10 lístků za rok, se počítá stejně jako velký tým s 10k vstupenkami na rok. Mikropřesnost v tomto případě koreluje lépe s obchodní potřebou , "kolik času a peněz může společnost ušetřit automatizací procesu směrování lístků".

Další podrobnosti o metrikách klasifikace s více třídami najdete v následujících článcích:

Metriky vyhodnocení pro regresi a doporučení

Regrese i úkoly doporučení předpovídají číslo. V případě regrese může být číslo libovolnou výstupní vlastností, která je ovlivněna vstupními vlastnostmi. Pro doporučení je číslo obvykle hodnotou hodnocení (například od 1 do 5), nebo doporučení typu Ano/ne (vyjádřeno číslem 1 a 0).

Metrický Popis Hledat
R-Squared R-squared (R2) nebo koeficient určení představuje prediktivní výkon modelu jako hodnotu mezi -inf a 1,00. 1,00 znamená, že je perfektní fit a fit může být libovolně špatný, takže skóre může být záporné. Skóre 0,00 znamená, že model odhaduje očekávanou hodnotu popisku. Záporná hodnota R2 označuje, že fit neodpovídá trendu dat a model provádí horší než náhodné odhadování. To je možné pouze u nelineárních regresních modelů nebo omezené lineární regrese. R2 měří, jak blízko jsou skutečné hodnoty testovacích dat předpovězené hodnoty. Čím blíž k 1,00, tím lepší kvalita. Někdy ale mohou být nízké hodnoty R-kvadrát (například 0,50) zcela normální nebo dostatečně dobré pro váš scénář a vysoké hodnoty R-kvadrát nejsou vždy dobré a být podezřelé.
Absolutní ztráta Absolutní ztráta nebo střední absolutní chyba (MAE) měří, jak blízko jsou předpovědi skutečným výsledkům. Jedná se o průměr všech chyb modelu, kdy chyba modelu představuje absolutní vzdálenost mezi predikovanou hodnotou popisku a správnou hodnotou popisku. Tato chyba předpovědi se vypočítá pro každý záznam testovací sady dat. Nakonec se střední hodnota vypočítá pro všechny zaznamenané absolutní chyby. Čím blíž k 0,00, tím lepší kvalita. Střední absolutní chyba používá stejné měřítko jako naměřená data (není normalizováno do konkrétního rozsahu). K porovnání modelů pro stejnou datovou sadu nebo datové sady s podobným rozdělením hodnot popisků je možné použít absolutní ztrátu, čtvercovou ztrátu a ztrátu RMS.
Čtvercová ztráta Kvadratická ztráta nebo střední kvadratická chyba (MSE) označovaná také jako střední kvadratická odchylka (MSD) vám říká, jak blízko regresní přímky je sada hodnot testovacích dat, a to tak, že vezme vzdálenost od bodů k regresní přímce (tyto vzdálenosti jsou chyby E) a squaring je. Squaring dává větší váhu větším rozdílům. Je vždy nezáporná a hodnoty blížící se 0,00 jsou lepší. V závislosti na datech nemusí být možné získat velmi malou hodnotu střední kvadratická chyba.
Ztráta RMS Rms-loss nebo root Mean Squared Error (RMSE) (označuje se také jako Root Mean Square Deviation, RMSD), měří rozdíl mezi hodnotami předpovídanými modelem a hodnotami pozorovanými z prostředí, které se modeluje. RMS-loss je druhou odmocninou čtvercové ztráty a má stejné jednotky jako popisek, podobně jako absolutní ztráta, i když dává větší váhu větším rozdílům. Kořenová střední kvadratická chyba se běžně používá v climatologii, prognózování a regresní analýze k ověření experimentálních výsledků. Je vždy nezáporná a hodnoty blížící se 0,00 jsou lepší. RMSD je míra přesnosti, která porovnává prognózování chyb různých modelů pro konkrétní datovou sadu a ne mezi datovými sadami, protože je závislá na škálování.

Další podrobnosti o regresních metrikách najdete v následujících článcích:

Metriky vyhodnocení pro clustering

Metrický Popis Hledat
Průměrná vzdálenost Průměr vzdálenosti mezi datovými body a středem přiřazeného clusteru Průměrná vzdálenost je míra blízkosti datových bodů k centroidům clusteru. Je to míra toho, jak je cluster "těsný". Hodnoty blíže 0 jsou lepší. Čím blíž k nule je průměrná vzdálenost, tím více jsou data seskupenější. Všimněte si ale, že tato metrika se sníží, pokud se zvýší počet clusterů, a v extrémním případě (kde je každý odlišný datový bod vlastním clusterem), bude se rovnat nule.
Davies Bouldin Index Průměrný poměr vzdáleností v rámci clusteru k vzdálenostem mezi clustery. Tím užší cluster a dále jsou clustery, tím nižší je tato hodnota. Hodnoty blíže 0 jsou lepší. Shluky, které jsou od sebe vzdáleny a méně rozptýlené, budou mít lepší skóre.
Normalizované vzájemné informace Dá se použít, když trénovací data použitá k trénování modelu clusteringu mají také základní popisky pravdy (to znamená clustering pod dohledem). Metrika Normalizované vzájemné informace měří, jestli se podobné datové body přiřazují ke stejnému clusteru a různorodé datové body se přiřazují různým clusterům. Normalizované vzájemné informace jsou hodnota mezi 0 a 1. Hodnoty blíže 1 jsou lepší.

Metriky vyhodnocení pro ranking

Metrický Popis Hledat
Zvýhodněné kumulativní zisky Zvýhodněný kumulativní zisk (DCG) je míra kvality řazení. Vychází ze dvou předpokladů. Jedna: Vysoce relevantní položky jsou užitečnější při zobrazení vyššího pořadí pořadí. Dvě: Užitečnost sleduje relevanci, tj. čím vyšší je relevance, tím užitečnější položka. Zlevněný kumulativní zisk se vypočítá pro určitou pozici v pořadí řazení. Sečte hodnocení relevance dělené logaritmem indexu hodnocení až do pozice zájmu. Vypočítá se pomocí $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}$ hodnocení podle relevance jako popisky základní pravdy. Jedna hodnota DCG se poskytuje pro každou pozici v tabulce hodnocení, a proto název Diskontované kumulativní zisky. Vyšší hodnoty jsou lepší.
Normalizované zlevněné kumulativní zisky Normalizace DCG umožňuje porovnávat metriku pro seznamy řazení s různými délkami. Hodnoty blíže 1 jsou lepší.

Metriky vyhodnocení pro detekci anomálií

Metrický Popis Hledat
Oblast pod křivkou ROC Oblast pod křivkou operátoru přijímače měří, jak dobře model odděluje neobvyklé a obvyklé datové body. Hodnoty blíže 1 jsou lepší. Pouze hodnoty větší než 0,5 demonstrují efektivitu modelu. Hodnoty 0,5 nebo nižší značí, že model není lepší než náhodné přidělování vstupů neobvyklým a obvyklým kategoriím.
Míra detekce s falešně pozitivním počtem Míra detekce s falešně pozitivním počtem je poměr počtu správně identifikovaných anomálií k celkovému počtu anomálií v testovací sadě indexované jednotlivými falešně pozitivními výsledky. To znamená, že pro každou falešně pozitivní položku existuje hodnota míry detekce s falešně pozitivním počtem. Hodnoty blíže 1 jsou lepší. Pokud neexistují falešně pozitivní výsledky, je tato hodnota 1.

Metriky vyhodnocení pro podobnost vět

Metrický Popis Hledat
Pearsonova korelace Pearsonova korelace, označovaná také jako korelační koeficient, měří závislost nebo vztah mezi dvěma sadami dat. Absolutní hodnoty blížící se 1 jsou nejvíce podobné. Tato metrika se pohybuje od -1 do 1. Absolutní hodnota 1 znamená, že datové sady jsou identické. Hodnota 0 znamená, že mezi těmito dvěma sadami dat neexistuje žádný vztah.