Utvärdera din ML.NET modell med mått

Förstå de mått som används för att utvärdera en ML.NET modell.

Utvärderingsmått är specifika för den typ av maskininlärningsuppgift som en modell utför.

För klassificeringsuppgiften utvärderas till exempel modellen genom att mäta hur väl en förutsagd kategori matchar den faktiska kategorin. Och för klustring baseras utvärderingen på hur nära klustrade objekt är varandra och hur mycket separation det finns mellan klustren.

Utvärderingsmått för binär klassificering

Metrics beskrivning Titta efter
Noggrannhet Noggrannhet är andelen korrekta förutsägelser med en testdatauppsättning. Det är förhållandet mellan antalet korrekta förutsägelser och det totala antalet indataexempel. Det fungerar bra om det finns liknande antal prover som hör till varje klass. Desto närmare 1,00 desto bättre. Men exakt 1.00 anger ett problem (vanligtvis: etikett-/målläckage, överanpassning eller testning med träningsdata). När testdata är obalanserade (där de flesta instanser tillhör någon av klasserna) är datamängden liten, eller poängmetoden 0,00 eller 1,00, och noggrannheten fångar inte riktigt in effektiviteten hos en klassificerare och du måste kontrollera ytterligare mått.
AUC aucROC eller Area under kurvan mäter området under kurvan som skapats genom att svepa den sanna positiva frekvensen jämfört med den falska positiva frekvensen. Desto närmare 1,00 desto bättre. Den bör vara större än 0,50 för att en modell ska vara acceptabel. En modell med AUC på 0,50 eller mindre är värdelös.
AUCPR aucPR eller Område under kurvan för en precisionsåterkallningskurva: Användbart mått på förutsägelsens framgång när klasserna är obalanserade (mycket skeva datauppsättningar). Desto närmare 1,00 desto bättre. Höga poäng nära 1,00 visar att klassificeraren returnerar korrekta resultat (hög precision) och returnerar en majoritet av alla positiva resultat (hög träffsäkerhet).
F1-poäng F1-poäng kallas även för balanserad F-poäng eller F-mått. Det är det harmoniska medelvärdet av precisionen och återkallandet. F1-poäng är användbart när du vill söka en balans mellan Precision och Recall. Desto närmare 1,00 desto bättre. En F1-poäng når sitt bästa värde på 1,00 och sämsta poäng vid 0,00. Den visar hur exakt klassificeraren är.

Mer information om mått för binär klassificering finns i följande artiklar:

Utvärderingsmått för klassificering och textklassificering i flera klasser

Metrics beskrivning Titta efter
Mikronoggrannhet Mikrogenomsnittsnoggrannhet aggregerar bidragen från alla klasser för att beräkna det genomsnittliga måttet. Det är den del av instanserna som förutsägs korrekt. Mikrogenomsnittet tar inte hänsyn till klassmedlemskap. I grund och botten bidrar varje exempelklasspar lika till noggrannhetsmåttet. Desto närmare 1,00 desto bättre. I en klassificeringsuppgift med flera klasser är mikronoggrannhet att föredra framför makronoggrannhet om du misstänker att det kan finnas obalans i klassen (dvs. du kan ha många fler exempel på en klass än andra klasser).
Makronoggrannhet Makrogenomsnittsnoggrannhet är den genomsnittliga noggrannheten på klassnivå. Noggrannheten för varje klass beräknas och makronoggrannheten är genomsnittet av dessa noggrannheter. I grund och botten bidrar varje klass lika till noggrannhetsmåttet. Minoritetsklasser ges samma vikt som de större klasserna. Makrogenomsnittsmåttet ger samma vikt för varje klass, oavsett hur många instanser från den klassen datamängden innehåller. Desto närmare 1,00 desto bättre. Det beräknar måttet oberoende av varandra för varje klass och tar sedan medelvärdet (vilket innebär att alla klasser behandlas lika)
Loggförlust Logaritmisk förlust mäter prestanda för en klassificeringsmodell där förutsägelseindata är ett sannolikhetsvärde mellan 0,00 och 1,00. Loggförlusten ökar när den förväntade sannolikheten avviker från den faktiska etiketten. Desto närmare 0,00 desto bättre. En perfekt modell skulle ha en loggförlust på 0,00. Målet med våra maskininlärningsmodeller är att minimera det här värdet.
Minskning av loggförlust Logaritmisk förlustminskning kan tolkas som fördelen med klassificeraren jämfört med en slumpmässig förutsägelse. Sträcker sig från -inf och 1.00, där 1.00 är perfekta förutsägelser och 0,00 anger medelvärdesförutsägelser. Om värdet till exempel är lika med 0,20 kan det tolkas som "sannolikheten för en korrekt förutsägelse är 20 % bättre än slumpmässig gissning"

Mikronoggrannhet är i allmänhet bättre anpassad till affärsbehoven för ML-förutsägelser. Om du vill välja ett enda mått för att välja kvaliteten på en klassificeringsuppgift med flera klasser bör det vanligtvis vara mikronoggrannhet.

Exempel för en klassificeringsuppgift för supportärenden: (mappar inkommande biljetter till supportteam)

  • Mikronoggrannhet – hur ofta klassificeras en inkommande biljett till rätt team?
  • Makronoggrannhet – för ett genomsnittligt team, hur ofta är en inkommande biljett korrekt för deras team?

Makronoggrannhet överviktar små team i det här exemplet; Ett litet team som bara får 10 biljetter per år räknas som ett stort team med 10 000 biljetter per år. Mikronoggrannhet i det här fallet korrelerar bättre med affärsbehovet, "hur mycket tid/pengar kan företaget spara genom att automatisera min biljettroutningsprocess".

Mer information om klassificeringsmått för flera klasser finns i följande artiklar:

Utvärderingsmått för regression och rekommendation

Både regressions- och rekommendationsuppgifterna förutsäger ett tal. Vid regression kan talet vara valfri utdataegenskap som påverkas av indataegenskaperna. För rekommendation är talet vanligtvis ett klassificeringsvärde (mellan 1 och 5 till exempel) eller en ja/nej-rekommendation (representeras av 1 respektive 0).

Mätvärde Beskrivning Titta efter
R-kvadrat R-kvadrat (R2) eller bestämningskoefficient representerar modellens förutsägelsekraft som ett värde mellan -inf och 1,00. 1.00 innebär att det finns en perfekt passform, och passformen kan vara godtyckligt dålig så att poängen kan vara negativa. Poängen 0,00 innebär att modellen gissar det förväntade värdet för etiketten. Ett negativt R2-värde anger att anpassningen inte följer datatrenden och att modellen presterar sämre än slumpmässig gissning. Detta är endast möjligt med icke-linjära regressionsmodeller eller begränsad linjär regression. R2 mäter hur nära de faktiska testdatavärdena är för de förutsagda värdena. Desto närmare 1,00, desto bättre kvalitet. Men ibland kan låga R-kvadratvärden (till exempel 0,50) vara helt normala eller tillräckligt bra för ditt scenario och höga R-kvadratvärden är inte alltid bra och vara misstänkta.
Absolut förlust Absolute-loss eller Mean absolute error (MAE) mäter hur nära förutsägelserna är för de faktiska utfallen. Det är medelvärdet av alla modellfel, där modellfelet är det absoluta avståndet mellan det förutsagda etikettvärdet och rätt etikettvärde. Det här förutsägelsefelet beräknas för varje post i testdatauppsättningen. Slutligen beräknas medelvärdet för alla registrerade absoluta fel. Desto närmare 0,00, desto bättre kvalitet. Det genomsnittliga absoluta felet använder samma skala som de data som mäts (normaliseras inte till ett specifikt intervall). Absolut förlust, kvadratförlust och RMS-förlust kan bara användas för att göra jämförelser mellan modeller för samma datamängd eller datauppsättning med en liknande etikettvärdefördelning.
Kvadratförlust Kvadratförlust eller MSE (Mean Squared Error), även kallat MSD (Mean Squared Deviation), anger hur nära en regressionslinje är för en uppsättning testdatavärden genom att ta avstånden från punkterna till regressionslinjen (dessa avstånd är felen E) och placera dem i kvart. Kvarneringen ger större vikt åt större skillnader. Det är alltid icke-negativt och värden närmare 0,00 är bättre. Beroende på dina data kan det vara omöjligt att få ett mycket litet värde för det genomsnittliga kvadratfelet.
RMS-förlust RMS-förlust eller RMSE (Root Mean Squared Error) (kallas även Rot mean square deviation, RMSD), mäter skillnaden mellan värden som förutsägs av en modell och de värden som observeras från miljön som modelleras. RMS-förlust är kvadratroten av Squared-loss och har samma enheter som etiketten, liknande den absoluta förlusten men ger mer vikt till större skillnader. Rotvärdets kvadratfel används ofta i climatologi, prognostisering och regressionsanalys för att verifiera experimentella resultat. Det är alltid icke-negativt och värden närmare 0,00 är bättre. RMSD är ett mått på noggrannhet för att jämföra prognosfel för olika modeller för en viss datamängd och inte mellan datauppsättningar, eftersom det är skalberoende.

Mer information om regressionsmått finns i följande artiklar:

Utvärderingsmått för klustring

Mätvärde Beskrivning Titta efter
Genomsnittligt avstånd Medelvärde av avståndet mellan datapunkter och mitten av deras tilldelade kluster. Det genomsnittliga avståndet är ett mått på närheten av datapunkterna till klustercentroider. Det är ett mått på hur nära klustret är. Värden närmare 0 är bättre. Ju närmare noll det genomsnittliga avståndet är, desto mer klustrad är data. Observera dock att det här måttet minskar om antalet kluster ökar, och i det extrema fallet (där varje distinkt datapunkt är ett eget kluster) är det lika med noll.
Davies Bouldin Index Det genomsnittliga förhållandet mellan avstånd inom klustret och avstånd mellan kluster. Ju tätare klustret är, och ju längre ifrån varandra klustren är, desto lägre är det här värdet. Värden närmare 0 är bättre. Kluster som är längre ifrån varandra och mindre spridda resulterar i bättre poäng.
Normaliserad ömsesidig information Kan användas när träningsdata som används för att träna klustringsmodellen också levereras med mark sanningsetiketter (det vill säga övervakad klustring). Måttet Normalized Mutual Information mäter om liknande datapunkter tilldelas till samma kluster och olika datapunkter tilldelas till olika kluster. Normaliserad ömsesidig information är ett värde mellan 0 och 1. Värden närmare 1 är bättre.

Utvärderingsmått för rangordning

Mätvärde Beskrivning Titta efter
Rabatterade ackumulerade vinster Rabatterad kumulativ vinst (DCG) är ett mått på rangordningskvalitet. Den härleds från två antaganden. Ett: Mycket relevanta objekt är mer användbara när de visas högre i rangordning. Två: Användbarhet spårar relevans, vilket är, ju högre relevans, desto mer användbart är ett objekt. Rabatterad ackumulerad vinst beräknas för en viss position i rangordningen. Den summerar relevansklassificeringen dividerad med logaritmen för rangordningsindexet upp till positionen av intresse. Den beräknas med hjälp av $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}$ Relevansklassificeringar tillhandahålls till en rangordningsträningsalgoritm som jordsanningsetiketter. Ett DCG-värde anges för varje position i rangordningstabellen, därav namnet Rabatterade kumulativa vinster. Högre värden är bättre.
Normaliserade rabatterade kumulativa vinster Genom att normalisera DCG kan måttet jämföras för rangordningslistor med olika längder. Värden närmare 1 är bättre.

Utvärderingsmått för avvikelseidentifiering

Mätvärde Beskrivning Titta efter
Område under ROC-kurva Området under mottagaroperatorkurvan mäter hur väl modellen separerar avvikande och vanliga datapunkter. Värden närmare 1 är bättre. Endast värden som är större än 0,5 visar modellens effektivitet. Värden på 0,5 eller lägre anger att modellen inte är bättre än att slumpmässigt allokera indata till avvikande och vanliga kategorier.
Identifieringsfrekvens vid falskt positivt antal Identifieringshastighet vid falskt positivt antal är förhållandet mellan antalet korrekt identifierade avvikelser och det totala antalet avvikelser i en testuppsättning, indexerad av varje falsk positiv identifiering. Det vill: det finns ett värde för identifieringshastighet vid falskt positivt antal för varje falskt positivt objekt. Värden närmare 1 är bättre. Om det inte finns några falska positiva identifieringar är det här värdet 1.

Utvärderingsmått för meningslikhet

Mätvärde Beskrivning Titta efter
Pearson-korrelation Pearson-korrelation, även kallat korrelationskoefficient, mäter beroendet eller relationen mellan två datauppsättningar. Absoluta värden närmare 1 är mest lika. Det här måttet sträcker sig från -1 till 1. Ett absolut värde på 1 innebär att datauppsättningarna är identiska. Värdet 0 innebär att det inte finns någon relation mellan de två datauppsättningarna.