Utvärdera din ML.NET modell med mått

Förstå de mått som används för att utvärdera en ML.NET modell.

Utvärderingsmått är specifika för den typ av maskininlärningsuppgift som en modell utför.

För klassificeringsuppgiften utvärderas till exempel modellen genom att mäta hur väl en förutsagd kategori matchar den faktiska kategorin. Och för klustring baseras utvärderingen på hur nära klustrade objekt är varandra och hur mycket separation det finns mellan klustren.

Utvärderingsmått för binär klassificering

Mätvärden	Beskrivning	Titta efter
Noggrannhet	Noggrannhet är andelen korrekta förutsägelser med en testdatauppsättning. Det är förhållandet mellan antalet korrekta förutsägelser och det totala antalet indataexempel. Det fungerar bra om det finns liknande antal prover som hör till varje klass.	Desto närmare 1,00 desto bättre. Men exakt 1,00 anger ett problem (vanligtvis: etikett- eller målläckage, överanpassning [overfitting] eller testning med träningsdata). När testdata är obalanserade (där de flesta instanser tillhör en av klasserna), datamängden är liten, eller poängen närmar sig 0,00 eller 1,00, så fångar noggrannheten inte riktigt in effektiviteten hos en klassificerare, och du behöver kontrollera ytterligare mått.
AUC	aucROC eller Area under kurvan mäter området under kurvan som skapats genom att svepa den sanna positiva frekvensen jämfört med den falska positiva frekvensen.	Desto närmare 1,00 desto bättre. Den bör vara större än 0,50 för att en modell ska vara acceptabel. En modell med AUC på 0,50 eller mindre är värdelös.
AUCPR	aucPR eller Område under kurvan för en Precision-Recall kurva: Användbart mått på förutsägelsens framgång när klasserna är obalanserade (mycket skeva datauppsättningar).	Desto närmare 1,00 desto bättre. Höga poäng nära 1,00 visar att klassificeraren returnerar korrekta resultat (hög precision) och returnerar en majoritet av alla positiva resultat (hög träffsäkerhet).
F1-poäng	F1-poäng kallas även för balanserad F-poäng eller F-mått. Det är det harmoniska medelvärdet av precisionen och återkallandet. F1-poäng är användbart när du vill söka en balans mellan Precision och Recall.	Desto närmare 1,00 desto bättre. En F1-poäng når sitt bästa värde på 1,00 och sämsta poäng vid 0,00. Den visar hur exakt klassificeraren är.

Mer information om mått för binär klassificering finns i följande artiklar:

Utvärderingsmått för flervalsklassificering och textklassificering.

Mätvärden	Beskrivning	Titta efter
Mikronoggrannhet	Mikrogenomsnittsnoggrannhet aggregerar bidragen från alla klasser för att beräkna det genomsnittliga måttet. Det är den andel av instanserna som förutsagts korrekt. Mikrogenomsnittet tar inte hänsyn till klassmedlemskap. I grund och botten bidrar varje exempelklasspar lika till noggrannhetsmåttet.	Desto närmare 1,00 desto bättre. I en klassificeringsuppgift med flera klasser är mikronoggrannhet att föredra framför makronoggrannhet om du misstänker att det kan finnas obalans i klassen (dvs. du kan ha många fler exempel på en klass än andra klasser).
Makronoggrannhet	Makrogenomsnittsnoggrannhet är den genomsnittliga noggrannheten på klassnivå. Noggrannheten för varje klass beräknas och makronoggrannheten är genomsnittet av dessa noggrannheter. I grund och botten bidrar varje klass lika till noggrannhetsmåttet. Minoritetsklasser ges samma vikt som de större klasserna. Makrogenomsnittsmåttet ger samma vikt för varje klass, oavsett hur många instanser från den klassen datamängden innehåller.	Desto närmare 1,00 desto bättre. Det beräknar måttet oberoende av varandra för varje klass och tar sedan medelvärdet (vilket innebär att alla klasser behandlas lika)
Loggförlust	Logaritmisk förlust mäter prestanda för en klassificeringsmodell där förutsägelseindata är ett sannolikhetsvärde mellan 0,00 och 1,00. Loggförlusten ökar när den förväntade sannolikheten avviker från den faktiska etiketten.	Desto närmare 0,00 desto bättre. En perfekt modell skulle ha en loggförlust på 0,00. Målet med maskininlärningsmodellerna är att minimera det här värdet.
Log-Loss minskning	Logaritmisk förlustminskning kan tolkas som fördelen med klassificeraren jämfört med en slumpmässig förutsägelse.	Sträcker sig från -inf och 1,00, där 1,00 är perfekta förutsägelser och 0,00 anger medelvärdesförutsägelser. Om värdet till exempel är lika med 0,20 kan det tolkas som "sannolikheten för en korrekt förutsägelse är 20% bättre än slumpmässig gissning"

Mikronoggrannhet är i allmänhet bättre anpassad till affärsbehoven för ML-förutsägelser. Om du vill välja ett enda mått för att välja kvaliteten på en klassificeringsuppgift med flera klasser bör det vanligtvis vara mikronoggrannhet.

Exempel för en klassificeringsuppgift för supportärenden: (mappar inkommande biljetter till supportteam)

Mikronoggrannhet – hur ofta klassificeras en inkommande biljett till rätt team?
Makronoggrannhet – för ett genomsnittligt team, hur ofta är en inkommande biljett korrekt för deras team?

Makronoggrannhet överviktar små team i det här exemplet; Ett litet team som bara får 10 biljetter per år räknas som ett stort team med 10 000 biljetter per år. Mikronoggrannhet i det här fallet korrelerar bättre med affärsbehovet, "hur mycket tid/pengar kan företaget spara genom att automatisera min biljettroutningsprocess".

Mer information om klassificeringsmått för flera klasser finns i Micro-average och Macro-average of Precision, Recall och F-Score.

Utvärderingsmått för regression och rekommendation

Både regressions- och rekommendationsuppgifterna förutsäger ett tal. Vid regression kan talet vara valfri utdataegenskap som påverkas av indataegenskaperna. För rekommendation är talet vanligtvis ett klassificeringsvärde (mellan 1 och 5 till exempel) eller en ja/nej-rekommendation (representeras av 1 respektive 0).

Måttsystem	Beskrivning	Titta efter
R-kvadrat	R-kvadrat (R2) eller bestämningskoefficient representerar modellens förutsägande kraft som ett värde mellan -inf och 1,00. 1.00 innebär att det finns en perfekt passform, och passformen kan vara godtyckligt dålig så att poängen kan vara negativa. Poängen 0,00 innebär att modellen gissar det förväntade värdet för etiketten. Ett negativt R2-värde anger att anpassningen inte följer datatrenden och att modellen presterar sämre än slumpmässig gissning. Detta är endast möjligt med icke-linjära regressionsmodeller eller begränsad linjär regression. R2 mäter hur nära de faktiska testdatavärdena är för de förutsagda värdena.	Desto närmare 1,00, desto bättre kvalitet. Men ibland kan låga R-kvadratvärden (till exempel 0,50) vara helt normala eller tillräckligt bra för ditt scenario och höga R-kvadratvärden är inte alltid bra och vara misstänkta.
Absolut förlust	Absolute-loss eller Mean absolute error (MAE) mäter hur nära förutsägelserna är för de faktiska utfallen. Det är medelvärdet av alla modellfel, där modellfelet är det absoluta avståndet mellan det förutsagda etikettvärdet och rätt etikettvärde. Det här prognosfelet beräknas för varje post i testdatasatsen. Slutligen beräknas medelvärdet för alla registrerade absoluta fel.	Desto närmare 0,00, desto bättre kvalitet. Det genomsnittliga absoluta felet använder samma skala som de data som mäts (normaliseras inte till ett specifikt intervall). Absolut förlust, kvadratförlust och RMS-förlust kan bara användas för att göra jämförelser mellan modeller för samma datamängd eller datauppsättning med en liknande etikettvärdefördelning.
Kvadratförlust	Kvadratförlust eller Medelkvadratfel (MSE), även kallat Medelkvadratavvikelse (MSD), anger hur nära en regressionslinje ligger en uppsättning testdatavärden genom att ta avstånden från punkterna till regressionslinjen (dessa avstånd är felen E) och kvadrera dem. Kvadreringen ger större vikt åt större skillnader.	Det är alltid icke-negativt och värden närmare 0,00 är bättre. Beroende på dina data kan det vara omöjligt att få ett mycket litet värde för det genomsnittliga kvadratfelet.
RMS-förlust	RMS-förlust eller RMSE (Root Mean Squared Error) ( kallas även Rot mean square deviation, RMSD), mäter skillnaden mellan värden som förutsägs av en modell och de värden som observeras från miljön som modelleras. RMS-förlust är kvadratroten av Squared-loss och har samma enheter som etiketten, liknande den absoluta förlusten men ger mer vikt till större skillnader. Rotvärdets kvadratfel används ofta i climatologi, prognostisering och regressionsanalys för att verifiera experimentella resultat.	Det är alltid icke-negativt och värden närmare 0,00 är bättre. RMSD är ett mått på noggrannhet för att jämföra prognosfel för olika modeller för en viss datamängd och inte mellan datauppsättningar, eftersom det är skalberoende.

Mer information om regressionsmått finns i följande artiklar:

Utvärderingsmått för klustring

Måttsystem	Beskrivning	Titta efter
Genomsnittligt avstånd	Medelvärde av avståndet mellan datapunkter och mitten av deras tilldelade kluster. Det genomsnittliga avståndet är ett mått på närheten av datapunkterna till klustercentroider. Det är ett mått på hur sammanhållet klustret är.	Värden närmare 0 är bättre. Ju närmare noll det genomsnittliga avståndet är, desto mer klustrade är data. Observera dock att det här måttet minskar om antalet kluster ökar, och i det extrema fallet (där varje distinkt datapunkt är ett eget kluster) är det lika med noll.
Davies Bouldin Index	Det genomsnittliga förhållandet mellan avstånd inom klustret och avstånd mellan kluster. Ju tätare klustret är, och ju längre ifrån varandra klustren är, desto lägre är det här värdet.	Värden närmare 0 är bättre. Kluster som är längre ifrån varandra och mindre spridda resulterar i bättre poäng.
Normaliserad ömsesidig information	Kan användas när träningsdata som används för att träna klustringsmodellen också levereras med sanna etiketter (det vill säga, övervakad klustring). Måttet Normalized Mutual Information mäter om liknande datapunkter tilldelas till samma kluster och olika datapunkter tilldelas till olika kluster. Normaliserad ömsesidig information är ett värde mellan 0 och 1.	Värden närmare 1 är bättre.

Utvärderingsmått för rangordning

Måttsystem	Beskrivning	Titta efter
Rabatterade ackumulerade vinster	Rabatterad kumulativ vinst (DCG) är ett mått på rangordningskvalitet. Den härleds från två antaganden. Ett: Mycket relevanta objekt är mer användbara när de visas högre i rangordning. Två: Användbarhet spårar relevans, vilket är, ju högre relevans, desto mer användbart är ett objekt. Rabatterad ackumulerad vinst beräknas för en viss position i rangordningen. Den summerar relevansklassificeringen dividerad med logaritmen för rangordningsindexet upp till positionen av intresse. Den beräknas med hjälp av $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}$. Relevansklassificeringar tillhandahålls till en rangordningsträningsalgoritm som sanna etiketter. Ett DCG-värde anges för varje position i rangordningstabellen, därav namnet Rabatterade kumulativa vinster.	Högre värden är bättre.
Normaliserade rabatterade kumulativa vinster	Genom att normalisera DCG kan måttet jämföras för rangordningslistor med olika längder.	Värden närmare 1 är bättre.

Utvärderingsmått för avvikelseidentifiering

Måttsystem	Beskrivning	Titta efter
Område under ROC-kurva	Området under mottagaroperatorkurvan mäter hur väl modellen separerar avvikande och vanliga datapunkter.	Värden närmare 1 är bättre. Endast värden som är större än 0,5 visar modellens effektivitet. Värden på 0,5 eller lägre anger att modellen inte är bättre än att slumpmässigt allokera indata till avvikande och vanliga kategorier.
Identifieringsfrekvens vid falskt positivt antal	Identifieringshastighet vid falskt positivt antal är förhållandet mellan antalet korrekt identifierade avvikelser och det totala antalet avvikelser i en testuppsättning, indexerad av varje falsk positiv identifiering. Det vill säga, det finns ett värde för detektionshastigheten vid räkning av falska positiva resultat för varje falskt positivt objekt.	Värden närmare 1 är bättre. Om det inte finns några falska positiva identifieringar är det här värdet 1.

Utvärderingsmått för meningslikhet

Måttsystem	Beskrivning	Titta efter
Pearson-korrelation	Pearson-korrelation, även kallat korrelationskoefficient, mäter beroendet eller relationen mellan två datauppsättningar.	Absoluta värden närmare 1 är mest lika. Det här måttet sträcker sig från -1 till 1. Ett absolut värde på 1 innebär att datauppsättningarna är identiska. Värdet 0 innebär att det inte finns någon relation mellan de två datauppsättningarna.

Feedback

Var den här sidan till hjälp?

Last updated on 2025-06-17