Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Inzicht in de metrische gegevens die worden gebruikt om een ML.NET model te evalueren.
Metrische evaluatiegegevens zijn specifiek voor het type machine learning-taak dat door een model wordt uitgevoerd.
Voor de classificatietaak wordt het model bijvoorbeeld geëvalueerd door te meten hoe goed een voorspelde categorie overeenkomt met de werkelijke categorie. En voor clustering is evaluatie gebaseerd op hoe dicht geclusterde items bij elkaar liggen en hoeveel scheiding er is tussen de clusters.
Metrische evaluatiegegevens voor binaire classificatie
| Statistieken | Beschrijving | Zoek naar: |
|---|---|---|
| Nauwkeurigheid | Nauwkeurigheid is het aandeel van de juiste voorspellingen met een testgegevensset. Dit is de verhouding van het aantal juiste voorspellingen tot het totale aantal invoervoorbeelden. Het werkt goed als er een vergelijkbaar aantal proeven bij elke klasse hoort. | Hoe dichter bij 1,00, hoe beter. Maar precies 1,00 geeft een probleem aan (meestal: label/doel datalekken, overfitting of testen met trainingsdata). Wanneer de testgegevens niet in balans zijn (waarbij de meeste exemplaren deel uitmaken van een van de klassen), de dataset klein is, of scores benaderen 0,00 of 1,00, legt nauwkeurigheid niet echt de effectiviteit van een classifier vast en u moet aanvullende metrische gegevens controleren. |
| AUC | aucROC of Area onder de curve meet het gebied onder de curve dat is gemaakt door het werkelijke positieve percentage af te vegen versus het fout-positieve percentage. | Hoe dichter bij 1,00, hoe beter. Een model moet groter zijn dan 0,50 om als acceptabel te worden beschouwd. Een model met AUC van 0,50 of minder is waardeloos. |
| AUCPR | aucPR of Gebied onder de curve van een Precision-Recall-curve: Nuttige meting van het succes van voorspellingen wanneer de klassen onevenwichtig zijn (zeer scheve gegevenssets). | Hoe dichter bij 1,00, hoe beter. Hoge scores dicht bij 1,00 tonen aan dat de classifier nauwkeurige resultaten retourneert (hoge precisie) en het merendeel van alle positieve resultaten teruggeeft (hoge sensitiviteit). |
| F1-score | F1-score wordt ook wel gebalanceerde F-score of F-meting genoemd. Het is het harmonische gemiddelde van de precisie en herroepbaarheid. F1-score is handig wanneer u een balans wilt vinden tussen Precisie en Oproepbaarheid. | Hoe dichter bij 1,00, hoe beter. Een F1-score bereikt de beste waarde op 1,00 en slechtste score op 0,00. Er wordt aangegeven hoe nauwkeurig uw classificatie is. |
Lees de volgende artikelen voor meer informatie over metrische binaire classificatiegegevens:
- Klasse Metrische gegevens voor binaire classificatie
- De relatie tussen Precision-Recall en ROC-curven
Evaluatiemetrieken voor meerklassenclassificatie en tekstclassificatie
| Statistieken | Beschrijving | Zoek naar: |
|---|---|---|
| Micronauwkeurigheid | De nauwkeurigheid van microgemiddelde voegt de bijdragen van alle klassen samen om de gemiddelde metrische waarde te berekenen. Het is het deel van de gevallen die correct zijn voorspeld. Het microgemiddelde houdt geen rekening met klaslidmaatschap. In principe draagt elk paar van de voorbeeldklasse evenveel bij aan de metrische nauwkeurigheid. | Hoe dichter bij 1,00, hoe beter. In een classificatietaak met meerdere klassen verdient micronauwkeurigheid de voorkeur boven macronauwkeurigheid als u vermoedt dat er sprake is van een onevenwichtige klasse (dat wil bijvoorbeeld dat u veel meer voorbeelden van één klasse hebt dan van andere klassen). |
| Macronauwkeurigheid | Nauwkeurigheid van macrogemiddelde is de gemiddelde nauwkeurigheid op klasseniveau. De nauwkeurigheid voor elke klasse wordt berekend en de macronauwkeurigheid is het gemiddelde van deze nauwkeurigheid. In principe draagt elke klasse net zo bij aan de metrische nauwkeurigheid. Minderheidsklassen krijgen gelijk gewicht als de grotere klassen. De metrische macrogemiddelde geeft hetzelfde gewicht aan elke klasse, ongeacht hoeveel exemplaren van die klasse de gegevensset bevat. | Hoe dichter bij 1,00, hoe beter. Het berekent de metrische gegevens onafhankelijk voor elke klasse en neemt vervolgens het gemiddelde in beslag (waardoor alle klassen gelijk worden behandeld) |
| Logboekverlies | Logaritmisch verlies meet de prestaties van een classificatiemodel waarbij de voorspellingsinvoer een waarschijnlijkheidswaarde is tussen 0,00 en 1,00. Logboekverlies neemt toe naarmate de voorspelde waarschijnlijkheid afwijkt van het werkelijke label. | Hoe dichter bij 0,00, hoe beter. Een perfect model zou een log-verlies van 0,00 hebben. Het doel van de machine learning-modellen is om deze waarde te minimaliseren. |
| Log-Loss vermindering | Logaritmische verliesvermindering kan worden geïnterpreteerd als het voordeel van de classificatie ten opzichte van een willekeurige voorspelling. | Varieert van -inf en 1,00, waarbij 1,00 perfecte voorspellingen is en 0,00 de gemiddelde voorspellingen aangeeft. Als de waarde bijvoorbeeld gelijk is aan 0,20, kan deze worden geïnterpreteerd als 'de waarschijnlijkheid van een juiste voorspelling is 20% beter dan willekeurig raden' |
Micronauwkeurigheid is over het algemeen beter afgestemd op de bedrijfsbehoeften van ML-voorspellingen. Als u één metriek wilt selecteren voor het kiezen van de kwaliteit van een classificatietaak met meerdere klassen, moet dit meestal micronauwkeurigheid zijn.
Bijvoorbeeld voor een taak voor het classificeren van ondersteuningstickets: (hiermee worden binnenkomende tickets toegewezen aan ondersteuningsteams)
- Micronauwkeurigheid: hoe vaak wordt een binnenkomend ticket geclassificeerd bij het juiste team?
- Macronauwkeurigheid: voor een gemiddeld team, hoe vaak is een binnenkomend ticket correct voor hun team?
Macronauwkeurigheid weegt zwaarder voor kleine teams in dit voorbeeld; een klein team dat slechts 10 tickets per jaar krijgt, telt net zoveel mee als een groot team met 10.000 tickets per jaar. Micronauwkeurigheid in dit geval correleert beter met de bedrijfsbehoefte van: "hoeveel tijd/geld kan het bedrijf besparen door mijn ticketrouteringsproces te automatiseren".
Zie Microgemiddelde en Macrogemiddelde van Precisie, Recall en F-score voor meer informatie over metrieken voor multiclassificatie.
Metrische evaluatiegegevens voor regressie en aanbeveling
Zowel de regressie- als aanbevelingstaken voorspellen een getal. In het geval van regressie kan het getal elke uitvoereigenschap zijn die wordt beïnvloed door de invoereigenschappen. Voor aanbeveling is het getal meestal een beoordelingswaarde (bijvoorbeeld tussen 1 en 5) of een ja/nee-aanbeveling (vertegenwoordigd door respectievelijk 1 en 0).
| Metrisch | Beschrijving | Zoek naar: |
|---|---|---|
| R-Kwadraat | R-kwadraat (R2) of coëfficiënt van bepaling vertegenwoordigt de voorspellende kracht van het model als een waarde tussen -inf en 1,00. 1,00 betekent dat er een perfecte pasvorm is en de pasvorm willekeurig slecht kan zijn, zodat de scores negatief kunnen zijn. Een score van 0,00 betekent dat het model de verwachte waarde voor het label raadt. Een negatieve R2-waarde geeft aan dat de pasvorm niet de trend van de gegevens volgt en dat het model slechter presteert dan willekeurig raden. Dit is alleen mogelijk bij niet-lineaire regressiemodellen of beperkte lineaire regressie. R2 meet hoe dicht de werkelijke testgegevenswaarden bij de voorspelde waarden liggen. | Hoe dichter bij 1,00, hoe beter de kwaliteit. Soms zijn lage R-kwadratische waarden (zoals 0,50) echter volledig normaal of goed genoeg voor uw scenario en zijn hoge R-kwadratische waarden niet altijd goed en verdacht. |
| Absoluut verlies | Absolute verlies of Gemiddelde absolute fout (MAE) meet hoe dicht de voorspellingen bij de werkelijke resultaten liggen. Dit is het gemiddelde van alle modelfouten, waarbij de modelfout de absolute afstand is tussen de voorspelde labelwaarde en de juiste labelwaarde. Deze voorspellingsfout wordt berekend voor elke record van de testgegevensset. Ten slotte wordt de gemiddelde waarde berekend voor alle vastgelegde absolute fouten. | Hoe dichter bij 0,00, hoe beter de kwaliteit. De gemiddelde absolute fout maakt gebruik van dezelfde schaal als de gegevens die worden gemeten (wordt niet genormaliseerd tot een bepaald bereik). Absoluut verlies, kwadratenverlies en RMS-verlies kunnen alleen worden gebruikt om vergelijkingen te maken tussen modellen voor dezelfde gegevensset of gegevensset met een vergelijkbare distributie van labelwaarden. |
| Kwadratisch verlies | Kwadratische verlies of GEMIDDELDE kwadratische fout (MSE), ook wel GEMIDDELDE kwadratische afwijking (MSD) genoemd, geeft aan hoe dicht een regressielijn is bij een set testgegevenswaarden door de afstanden van de punten naar de regressielijn te nemen (deze afstanden zijn de fouten E) en ze te kwadrateren. De kwadrateren geeft meer gewicht aan grotere verschillen. | Het is altijd niet-negatief en waarden dichter bij 0,00 zijn beter. Afhankelijk van uw gegevens is het mogelijk onmogelijk om een zeer kleine waarde te krijgen voor de gemiddelde kwadratische fout. |
| RMS-verlies | RMS-verlies of Root Mean Squared Error (RMSE) ( ook wel Root Mean Square Deviation, RMSD genoemd), meet het verschil tussen waarden die zijn voorspeld door een model en de waarden die worden waargenomen uit de omgeving die wordt gemodelleerd. RMS-verlies is de vierkantswortel van kwadratisch verlies en heeft dezelfde eenheden als het label. Het is vergelijkbaar met het absolute verlies maar geeft meer gewicht aan grotere verschillen. Wortelgemiddelde kwadratische fout wordt vaak gebruikt in de klimatologie, bij prognoses en in regressieanalyse om experimentele resultaten te verifiëren. | Het is altijd niet-negatief en waarden dichter bij 0,00 zijn beter. RMSD is een meting van nauwkeurigheid, om prognosefouten van verschillende modellen voor een bepaalde gegevensset te vergelijken en niet tussen gegevenssets, omdat deze afhankelijk is van schaal. |
Lees de volgende artikelen voor meer informatie over metrische regressiegegevens:
- Regressieanalyse: Hoe interpreteer ik R-kwadraat en beoordeel ik de goede geschiktheid?
- Hoe het R-kwadraat te interpreteren in een regressieanalyse
- R-kwadratische definitie
- De bepalingscoëfficiënt en de veronderstellingen van lineaire regressiemodellen
- Gemiddelde kwadratische foutdefinitie
- Wat zijn gemiddelde kwadratische fout en wortel gemiddelde kwadratische fout?
Metrische evaluatiegegevens voor clustering
| Metrisch | Beschrijving | Zoek naar: |
|---|---|---|
| Gemiddelde afstand | Het gemiddelde van de afstand tussen gegevenspunten en het midden van het toegewezen cluster. De gemiddelde afstand is een meting van de nabijheid van de gegevenspunten naar clusterkernen. Het is een meting van hoe 'strak' het cluster is. | Waarden dichter bij 0 zijn beter. Hoe dichter bij nul de gemiddelde afstand ligt, hoe meer geclusterde gegevens zijn. Houd er echter rekening mee dat deze metrische waarde afneemt als het aantal clusters wordt verhoogd en in het extreme geval (waarbij elk afzonderlijk gegevenspunt een eigen cluster is) het gelijk is aan nul. |
| Davies Bouldin-index | De gemiddelde verhouding van binnen-clusterafstanden tot tussen-clusterafstanden. Hoe strakker het cluster en hoe verder van elkaar de clusters zijn, hoe lager deze waarde is. | Waarden dichter bij 0 zijn beter. Clusters die verder uit elkaar liggen en minder verspreid zijn, leiden tot een betere score. |
| Genormaliseerde wederzijdse informatie | Kan worden gebruikt wanneer de trainingsgegevens die worden gebruikt om het clusteringmodel te trainen, ook worden geleverd met basiswaarlabels (dat wil zeggen, clustering onder supervisie). De genormaliseerde metrische gegevens over wederzijdse gegevens meten of vergelijkbare gegevenspunten worden toegewezen aan hetzelfde cluster en verschillende gegevenspunten worden toegewezen aan verschillende clusters. Genormaliseerde wederzijdse informatie is een waarde tussen 0 en 1. | Waarden dichter bij 1 zijn beter. |
Metrische evaluatiegegevens voor classificatie
| Metrisch | Beschrijving | Zoek naar: |
|---|---|---|
| Gedisconteerde cumulatieve opbrengsten | Gediskonteerde cumulatieve winst (DCG) is een meting van rangschikkingskwaliteit. Het is afgeleid van twee aannames. Een: Zeer relevante items zijn nuttiger bij het weergeven van een hogere rangorde. Twee: Bruikbaarheid houdt relevantie bij, hoe hoger de relevantie, hoe nuttiger een item. De discounted cumulatieve winst wordt berekend voor een bepaalde positie in de rangorde. Het telt de relevantieclassificatie op, gedeeld door de logaritme van de rangindex, tot de positie van interesse. Dit wordt berekend met $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}$. Relevantieclassificaties worden verstrekt aan een rangschikkingstrainingalgoritme als grondwaarheidslabels. Er wordt één DCG-waarde opgegeven voor elke positie in de ranglijst, vandaar de naam Gedisconteerde Cumulatieve Gains. | Hogere waarden zijn beter. |
| Genormaliseerde gedisconteerde cumulatieve winsten | Door DCG te normaliseren, kan de metrische waarde worden vergeleken voor classificatielijsten met verschillende lengten. | Waarden dichter bij 1 zijn beter. |
Metrische evaluatiegegevens voor anomaliedetectie
| Metrisch | Beschrijving | Zoek naar: |
|---|---|---|
| Gebied onder ROC-curve | Het gebied onder de curve van de ontvangeroperator meet hoe goed het model afwijkende en gebruikelijke gegevenspunten scheidt. | Waarden dichter bij 1 zijn beter. Alleen waarden die groter zijn dan 0,5 tonen de effectiviteit van het model aan. Waarden van 0,5 of lager geven aan dat het model niet beter is dan willekeurig de invoer toewijzen aan afwijkende en gebruikelijke categorieën. |
| Detectiepercentage bij fout-positief aantal | Detectiepercentage bij een aantal fout-positieven is de verhouding van het aantal correct geïdentificeerde afwijkingen tot het totale aantal afwijkingen in een testset, waarbij er rekening wordt gehouden met elke fout-positief. Met andere woorden, voor elk fout-positief item is er een waarde voor de detectiegraad bij een bepaald aantal fout-positieven. | Waarden dichter bij 1 zijn beter. Als er geen vals-positieven zijn, is deze waarde 1. |
Metrische evaluatiegegevens voor overeenkomsten tussen zinnen
| Metrisch | Beschrijving | Zoek naar: |
|---|---|---|
| Pearson Correlatie | Pearson correlatie, ook wel correlatiecoëfficiënt genoemd, meet de afhankelijkheid of relatie tussen twee gegevenssets. | Absolute waarden dichter bij 1 zijn het meest vergelijkbaar. Deze metrische waarde varieert van -1 tot 1. Een absolute waarde van 1 impliceert dat de gegevenssets identiek zijn. Een waarde van 0 impliceert dat er geen relatie is tussen de twee gegevenssets. |