Megosztás a következőn keresztül:


A ML.NET modell kiértékelése metrikákkal

Az ML.NET modell kiértékeléséhez használt metrikák ismertetése.

A kiértékelési metrikák a modell által végrehajtott gépi tanulási feladat típusára vonatkoznak.

A besorolási feladat esetében például a modell kiértékelése annak mérésével történik, hogy egy előrejelzett kategória mennyire felel meg a tényleges kategóriának. A fürtözés esetében a kiértékelés azon alapul, hogy mennyire közel vannak egymáshoz a fürtözött elemek, és hogy mekkora az elkülönülés a fürtök között.

Kiértékelési metrikák bináris besoroláshoz

Mértékek Leírás Keress
Pontosság A pontosság a tesztadatkészlettel rendelkező helyes előrejelzések aránya. Ez a helyes előrejelzések számának és a bemeneti minták teljes számának aránya. Jól működik, ha az egyes osztályokhoz hasonló számú minta tartozik. Minél közelebb van az 1,00-hoz, annál jobb. De pontosan az 1.00 hibát jelez (gyakran: címke/célszivárgás, túlillesztés vagy tesztelés betanítási adatokkal). Ha a tesztadatok kiegyensúlyozatlanok (ahol a példányok többsége az egyik osztályhoz tartozik), az adathalmaz kicsi, vagy a pontszámok megközelítése 0,00 vagy 1,00, akkor a pontosság nem igazán rögzíti az osztályozó hatékonyságát, és további metrikákat kell ellenőriznie.
AUC az aucROC vagy a görbe alatti terület a görbe alatti területet a valódi pozitív ráta és a hamis pozitív arány söprésével méri. Minél közelebb van az 1,00-hoz, annál jobb. A modell elfogadhatóságához 0,50-nél nagyobbnak kell lennie. Egy 0,50-nél kisebb AUC-val rendelkező modell értéktelen.
AUCPR aucPR vagy Görbék alatti terület egy Precision-Recall görbe esetében: Ez egy hasznos mérték a sikeres előrejelzéshez, amikor az osztályok kiegyensúlyozatlanok (nagyon ferde adathalmazok esetén). Minél közelebb van az 1,00-hoz, annál jobb. Az 1,00-hoz közeli magas pontszámok azt mutatják, hogy az osztályozó pontos eredményeket (nagy pontosságot) ad vissza, és az összes pozitív eredmény többségét visszaadja (magas visszahívás).
F1-pontszám F1 pontszám , más néven kiegyensúlyozott F-pontszám vagy F-mérték. Ez a pontosság és a visszahívás harmonikus középértéke. Az F1 pontszám akkor hasznos, ha egyensúlyt szeretne keresni a pontosság és a visszahívás között. Minél közelebb van az 1,00-hoz, annál jobb. Az F1 pontszám 1,00-kor éri el a legjobb értékét, a legrosszabb pedig 0,00-nál. Megmutatja, hogy milyen pontos az osztályozó.

A bináris besorolási metrikákkal kapcsolatos további részletekért olvassa el a következő cikkeket:

Értékelési metrikák többosztályos besoroláshoz és szövegbesoroláshoz

Mértékek Leírás Keress
Mikropontosság A mikroátlagos pontosság összesíti az összes osztály hozzájárulását az átlagos metrika kiszámításához. Ez a helyesen megjósolt esetek töredéke. A mikroátlag nem veszi figyelembe az osztálytagságokat. Alapvetően minden mintaosztálypár egyenlő mértékben járul hozzá a pontossági metrikához. Minél közelebb van az 1,00-hoz, annál jobb. A többosztályos besorolási feladatokban a mikropontosság előnyösebb a makró pontossága helyett, ha azt gyanítja, hogy az osztály kiegyensúlyozatlansága lehetséges (vagyis egy osztályra több példa lehet, mint a többi osztályra).
Makró pontossága A makró-átlag pontosság az osztály szintjén megadott átlagos pontosság. Az egyes osztályok pontossága kiszámítva, a makró pontossága pedig ezeknek a pontosságoknak az átlaga. Alapvetően minden osztály egyenlő mértékben járul hozzá a pontossági metrikához. A kisebbségi osztályok egyenlő súlyt kapnak, mint a nagyobb osztályok. A makróátlagos metrika ugyanazt a súlyt adja az egyes osztályoknak, függetlenül attól, hogy az adathalmaz hány példányt tartalmaz. Minél közelebb van az 1,00-hoz, annál jobb. Az egyes osztályok metrikáit egymástól függetlenül számítja ki, majd az átlagot veszi fel (így az összes osztályt egyenlően kezeli)
Logaritmikus veszteség A logaritmikus veszteség egy besorolási modell teljesítményét méri, ahol az előrejelzési bemenet 0,00 és 1,00 közötti valószínűségi érték. A naplóveszteség növekszik, mivel az előrejelzett valószínűség eltér a tényleges címkétől. Minél közelebb van a 0,00-hoz, annál jobb. A tökéletes modell log-loss értéke 0,00 lenne. A gépi tanulási modellek célja ennek az értéknek a minimalizálása.
Log-Loss csökkentés A logaritmikus veszteségcsökkentés úgy értelmezhető, mint az osztályozó előnye egy véletlenszerű előrejelzéssel szemben. Az -inf és az 1,00 közötti tartomány, ahol az 1,00 tökéletes előrejelzés, a 0,00 pedig középértékeket jelez. Ha például az érték 0,20, akkor "a helyes előrejelzés valószínűsége 20% jobb, mint a véletlenszerű becslés"

A mikropontosság általában jobban igazodik az ML-előrejelzések üzleti igényeihez. Ha egyetlen metrikát szeretne kiválasztani egy többosztályos besorolási feladat minőségének kiválasztásához, annak általában mikropontosnak kell lennie.

Példa a támogatási jegyek besorolási feladatára: (a bejövő jegyeket a támogatási csapatokhoz osztja ki)

  • Mikropontosság – milyen gyakran kerül besorolásra egy bejövő jegy a megfelelő csapathoz?
  • Makró pontosság – Egy átlagos csapat esetében milyen gyakran megfelelő számukra egy beérkező jegy?

A makró pontossága túlsúlyos a kis csapatoknál ebben a példában; Egy kis csapat, amely évente csak 10 jegyet kap, ugyanannyit számít, mint egy nagy csapat, amely évente 10 ezer jegyet kap. A mikropontosság ebben az esetben jobban korrelál az üzleti igényekkel, "mennyi időt/pénzt takaríthat meg a vállalat a jegy-útválasztási folyamat automatizálásával".

A többosztályos besorolási metrikákkal kapcsolatos további részletekért lásd a pontosság, a visszahívás és az F-pontszám mikroátlagát és makróátlagát.

Kiértékelési metrikák a regresszióhoz és a javaslathoz

A regressziós és a javaslati tevékenységek egyaránt előrejeleznek egy számot. Regresszió esetén a szám bármilyen kimeneti tulajdonság lehet, amelyet a bemeneti tulajdonságok befolyásolnak. Javaslat esetén a szám általában egy minősítési érték (például 1 és 5 között), vagy egy igen/nem ajánlás (1 és 0).

Mértékegység Leírás Keress
R-négyzet Az R-négyzet (R2) vagy a meghatározási együttható a modell prediktív erejét jelöli -inf és 1,00 közötti értékként. Az 1.00 azt jelenti, hogy tökéletes az illesztés, és az illesztés tetszőlegesen gyenge lehet, így a pontszámok negatívak lehetnek. A 0,00-es pontszám azt jelenti, hogy a modell a címke várt értékét találja ki. A negatív R2 érték azt jelzi, hogy az illesztés nem követi az adatok trendjének alakulását, és a modell rosszabbul teljesít, mint a véletlenszerű becslés. Ez csak nem lineáris regressziós modellek vagy korlátozott lineáris regresszió esetén lehetséges. Az R2 azt méri, hogy a tényleges tesztadat-értékek milyen közel vannak az előrejelzett értékekhez. Minél közelebb van az 1,00-hoz, annál jobb a minőség. Néha azonban az alacsony R-négyzetértékek (például a 0,50) teljesen normálisak vagy elég jók lehetnek a forgatókönyvhöz, és a magas R-négyzet értékek nem mindig jók és gyanúsak.
Abszolút veszteség Az abszolút veszteség vagy az átlagos abszolút hiba (MAE) azt méri , hogy az előrejelzések milyen közel vannak a tényleges eredményekhez. Ez az összes modellhiba átlaga, ahol a modellhiba az előrejelzett címkeérték és a helyes címkeérték közötti abszolút távolság. Ez az előrejelzési hiba a tesztadatkészlet minden rekordjára ki lesz számítva. Végül a középérték kiszámítása az összes rögzített abszolút hiba esetében történik. Minél közelebb van a 0,00-hoz, annál jobb a minőség. Az átlagos abszolút hiba ugyanazt a skálát használja, mint a mért adatok (nem normalizálódik adott tartományra). Az abszolút veszteség, a négyzetes veszteség és az RMS-veszteség csak az azonos adatkészlethez vagy hasonló címkeérték-eloszlású adatkészlethez tartozó modellek összehasonlítására használható.
Négyzetes veszteség A négyzetes veszteség, vagy a közép négyzetes hiba (MSE), más néven közép négyzetes eltérés (MSD), azt jelzi, hogy a regressziós vonal mennyire közelíti meg a tesztadatok értékeit, azáltal, hogy megvizsgálja a pontok és a regressziós vonal közötti távolságokat (ezek az E hibák), és négyzetre emeli őket. A négyzetre emelés nagyobb súlyt ad a nagyobb különbségeknek. Ez mindig nem negatív, és a 0,00-hoz közelebbi értékek jobbak. Az adatoktól függően előfordulhat, hogy lehetetlen nagyon kis értéket kapni a középérték négyzetes hibájához.
RMS-veszteség Az RMS-veszteség vagy a gyökér középértéke négyzetes hiba (RMSE) ( más néven gyökér középértéke négyzetes eltérés, RMSD) a modell által előrejelzett értékek és a modellezett környezetből megfigyelt értékek közötti különbséget méri. Az RMS-veszteség a négyzetes veszteség négyzetgyöke, és ugyanazokkal az egységekkel rendelkezik, mint a címke, hasonló az abszolút veszteséghez, bár nagyobb súlyt ad a nagyobb különbségeknek. A fő középérték négyzetes hibát gyakran használják a climatológiában, az előrejelzésben és a regressziós elemzésben a kísérleti eredmények ellenőrzéséhez. Ez mindig nem negatív, és a 0,00-hoz közelebbi értékek jobbak. Az RMSD egy pontossági mérték, amely egy adott adathalmaz különböző modelljeinek előrejelzési hibáit hasonlítja össze, nem pedig az adathalmazok között, mivel skálázásfüggő.

A regressziós metrikákkal kapcsolatos további részletekért olvassa el a következő cikkeket:

Értékelési metrikák fürtözéshez

Mértékegység Leírás Keress
Átlagos távolság Az adatpontok és a hozzárendelt fürt középpontja közötti távolság átlaga. Az átlagos távolság az adatpontok fürt centroidokhoz való közelségét méri. Ez annak a mértéke, hogy mennyire "szűk" a fürt. A 0-hoz közelebbi értékek jobbak. Minél közelebb van az átlagos távolság nullához, annál több a csoportosított adat. Vegye figyelembe azonban, hogy ez a metrika csökken, ha a fürtök száma növekszik, és szélső esetben (ahol minden különálló adatpont a saját fürtje lesz) nulla lesz.
Davies Bouldin Index A fürtön belüli távolságok és a fürtök közötti távolságok átlagos aránya. Minél szűkebbek a fürtök, és minél távolabb vannak egymástól a fürtök, annál alacsonyabb ez az érték. A 0-hoz közelebbi értékek jobbak. A távolabbi és kevésbé szétszórt fürtök jobb pontszámot eredményeznek.
Normalizált kölcsönös információ Akkor használjuk, ha a fürtözési modell betanításánál használt adatok valódi címkékkel (azaz felügyelt fürtözéssel) is rendelkeznek. A Normalized Mutual Information metrika azt méri, hogy a hasonló adatpontok ugyanahhoz a fürthöz vannak-e rendelve, és hogy a különböző adatpontok különböző fürtökhöz vannak-e rendelve. A normalizált kölcsönös információ 0 és 1 közötti érték. Az 1-hez közelebbi értékek jobbak.

Értékelési metrikák a rangsoroláshoz

Mértékegység Leírás Keress
Diszkontált halmozott nyereség A kedvezményes kumulatív nyereség (DCG) a rangsorolási minőség mértéke. Két feltételezésből származik. Egy: A kiemelten releváns elemek akkor hasznosak, ha magasabb sorrendben jelennek meg. Kettő: A hasznosság nyomon követi a relevanciát, vagyis minél nagyobb a relevancia, annál hasznosabb egy elem. A diszkontált összesített nyereséget a rangsorolási sorrend egy adott pozíciójára számítjuk ki. Összegzi a rangsorolási index logaritmusával felosztott relevancia szerinti osztályozást a kamatpozícióig. A számítás a $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}} használatával történik. A relevancia-besorolások a rangsorolási betanítási algoritmus számára alapigazság-címkékként vannak megadva. A rangsorolási táblázat minden pozíciójához megadunk egy DCG-értéket, ezért nevezik diszkontált kumulatív nyereségeknek. A magasabb értékek jobbak.
Normalizált diszkontált összesített nyereség A DCG normalizálása lehetővé teszi a metrika összehasonlítását a különböző hosszúságú rangsorolási listákhoz. Az 1-hez közelebbi értékek jobbak.

Az anomáliadetektálási értékelési metrikák

Mértékegység Leírás Keress
Terület a ROC-görbe alatt A fogadó operátor görbe alatti terület azt méri, hogy a modell mennyire választja el a rendellenes és a szokásos adatpontokat. Az 1-hez közelebbi értékek jobbak. Csak a 0,5-nél nagyobb értékek mutatják a modell hatékonyságát. A 0,5-ös vagy újabb értékek azt jelzik, hogy a modell nem jobb, mint a bemenetek véletlenszerű elosztása rendellenes és szokásos kategóriákba.
Éberségi arány hamis pozitív értékeknél A hamis pozitív értékek észlelési aránya a helyesen azonosított anomáliák számának és a tesztkészletben lévő anomáliák teljes számának aránya, amelyet az egyes hamis pozitív értékek indexelnek. Ez azt jelenti, hogy minden egyes hamis pozitív elemhez tartozik egy észlelési arány érték a hamis pozitívok számánál. Az 1-hez közelebbi értékek jobbak. Ha nincsenek hamis pozitív értékek, akkor ez az érték 1.

Kiértékelési metrikák a mondatok hasonlóságához

Mértékegység Leírás Keress
Pearson-korreláció A Pearson-korreláció, más néven korrelációs együttható két adathalmaz függőségét vagy kapcsolatát méri. Az 1-hez közelebbi abszolút értékek a leginkább hasonlóak. Ez a metrika -1 és 1 között mozog. Az 1 abszolút értéke azt jelenti, hogy az adathalmazok azonosak. A 0 érték azt jelenti, hogy nincs kapcsolat a két adatkészlet között.