Udostępnij za pośrednictwem


Ocena modelu ML.NET za pomocą metryk

Omówienie metryk używanych do oceny modelu ML.NET.

Metryki oceny są specyficzne dla typu zadania uczenia maszynowego, które wykonuje model.

Na przykład w przypadku zadania klasyfikacji model jest oceniany przez pomiar, jak dobrze przewidywana kategoria odpowiada rzeczywistej kategorii. W przypadku klastrowania ocena zależy od tego, jak blisko siebie znajdują się elementy klastrowane i ile jest separacji między klastrami.

Metryki oceny klasyfikacji binarnej

Wskaźniki Opis Szukaj
Dokładność Dokładność to proporcja prawidłowych przewidywań z zestawem danych testowych. Jest to stosunek liczby poprawnych przewidywań do całkowitej liczby próbek wejściowych. Działa dobrze, jeśli istnieje podobna liczba próbek należących do każdej klasy. Im bliżej 1,00, tym lepiej. Jednak dokładnie 1,00 wskazuje na problem (często: wyciek etykiety/celu, nadmierne dopasowanie lub testowanie z danymi treningowymi). Gdy dane testowe są niezrównoważone (gdy większość przypadków należy do jednej z klas), zbiór danych jest mały lub wyniki zbliżają się do 0,00 lub 1,00, dokładność nie oddaje skuteczności klasyfikatora i należy sprawdzić dodatkowe metryki.
AUC aucROC lub Area pod krzywą mierzy obszar pod krzywą utworzoną przez zamiatanie rzeczywistego dodatniego współczynnika w porównaniu z fałszywie dodatnim współczynnikiem. Im bliżej 1,00, tym lepiej. Aby model był akceptowalny, powinien być większy niż 0,50. Model z wartością AUC 0,50 lub mniej jest bezwartościowy.
AUCPR aucPR lub Pole pod krzywą Precision-Recall: Przydatna miara sukcesu prognozowania, gdy klasy są niezrównoważone (znacznie niezrównoważone zestawy danych). Im bliżej 1,00, tym lepiej. Wysokie wyniki bliskie wartości 1,00 pokazują, że klasyfikator zwraca trafne wyniki (wysoka trafność) i zwraca większość wszystkich wyników dodatnich (wysoka czułość).
Wynik F1 Wynik F1 znany również jako zrównoważony wynik F lub miara F. Jest to średnia harmoniczna precyzji i czułości. Wynik F1 jest pomocny, gdy chcesz znaleźć równowagę między precyzją a kompletnością. Im bliżej 1,00, tym lepiej. Wynik F1 osiąga najlepszą wartość na poziomie 1,00 i najgorszy wynik na poziomie 0,00. Informuje o tym, jak precyzyjny jest klasyfikator.

Aby uzyskać więcej informacji na temat metryk klasyfikacji binarnej, przeczytaj następujące artykuły:

Metryki oceny dla klasyfikacji wieloklasowej i klasyfikacji tekstu

Wskaźniki Opis Szukaj
Mikrodokładność Mikrośrednią dokładność agreguje wkład wszystkich klas w celu obliczenia średniej metryki. Jest to ułamek wystąpień przewidywanych poprawnie. Mikrośrednia nie uwzględnia członkostwa w klasach. Zasadniczo każda para próbek-klas przyczynia się na równi do metryki dokładności. Im bliżej 1,00, tym lepiej. W zadaniu klasyfikacji wieloklasowej dokładność mikro jest preferowana w stosunku do dokładności makro, jeśli podejrzewasz, że może wystąpić nierównowaga klas (tj. może być wiele więcej przykładów jednej klasy niż innych klas).
Dokładność na poziomie makro Średnia dokładność makro jest średnią dokładnością na poziomie klasy. Dokładność każdej klasy jest obliczana, a dokładność makr jest średnią z tych dokładności. Zasadniczo każda klasa przyczynia się równomiernie do dokładności metryki. Klasy mniejszości mają taką samą wagę jak większe klasy. Metryka średniej makr daje taką samą wagę każdej klasie, niezależnie od liczby wystąpień z tej klasy, które zawiera zestaw danych. Im bliżej 1,00, tym lepiej. Oblicza metryki niezależnie dla każdej klasy, a następnie przyjmuje średnią (dlatego traktując wszystkie klasy w równym stopniu)
Strata logarytmiczna Utrata logarytmczna mierzy wydajność modelu klasyfikacji, w którym dane wejściowe przewidywania są wartością prawdopodobieństwa z zakresu od 0,00 do 1,00. Strata logarytmiczna zwiększa się wraz ze wzrostem różnicy między przewidywanym prawdopodobieństwem a rzeczywistą etykietą. Im bliżej 0,00, tym lepiej. Idealny model miałby stratę logarytmiczną 0,00. Celem modeli uczenia maszynowego jest zminimalizowanie tej wartości.
redukcjaLog-Loss Zmniejszenie strat logarytmicznych można interpretować jako zaletę klasyfikatora w przypadku przewidywania losowego. Zakresy od -inf i 1,00, gdzie 1,00 jest idealnymi przewidywaniami, a wartość 0,00 wskazuje średnie przewidywania. Jeśli na przykład wartość jest równa 0,20, można ją interpretować jako "prawdopodobieństwo poprawnego przewidywania wynosi 20% lepsze niż losowe odgadnięcie"

Mikrotrafność jest ogólnie lepiej dostosowana do potrzeb biznesowych prognoz uczenia maszynowego. Jeśli chcesz wybrać pojedynczą metrykę do oceny jakości zadania klasyfikacji wieloklasowej, zwykle powinna to być dokładność mikrokwali.

Na przykład w przypadku zadania klasyfikacji biletów pomocy technicznej: (mapuje bilety przychodzące na zespoły pomocy technicznej)

  • Mikro-dokładność — jak często bilet przychodzący trafia do odpowiedniego zespołu?
  • Makro-dokładność — dla zespołu o przeciętnych wynikach, jak często przychodzący ticket jest prawidłowy dla tego zespołu?

Makro-dokładność przeważa w przypadku małych zespołów w tym przykładzie; mały zespół, który dostaje tylko 10 zgłoszeń rocznie, jest równie znaczący co duży zespół z 10 tysiącami zgłoszeń rocznie. Mikro-dokładność w tym przypadku lepiej odpowiada potrzebie biznesowej – "ile czasu/pieniędzy może zaoszczędzić firma, automatyzując proces routingu biletów".

Aby uzyskać więcej informacji na temat metryk klasyfikacji wieloklasowej, zobacz średnia mikro i średnia makro precyzji, przypomnienia i wartości F.

Metryki oceny dla regresji i rekomendacji

Zarówno zadania regresji, jak i rekomendacji przewidują liczbę. W przypadku regresji liczba może być dowolną właściwością wyjściową, która ma wpływ na właściwości wejściowe. W przypadku rekomendacji liczba jest zwykle wartością klasyfikacji (na przykład z zakresu od 1 do 5) lub zaleceniem tak/bez (reprezentowane odpowiednio przez 1 i 0).

Wskaźnik Opis Szukaj
R-Squared R-squared (R2) lub Współczynnik determinacji reprezentuje moc predykcyjną modelu jako wartość z zakresu od -inf do 1,00. 1.00 oznacza, że istnieje idealne dopasowanie, a dopasowanie może być arbitralnie słabe, więc wyniki mogą być ujemne. Wynik 0,00 oznacza, że model odgadnie oczekiwaną wartość etykiety. Ujemna wartość R2 wskazuje, że dopasowanie nie odzwierciedla trendu danych, a model działa gorzej niż przypadkowe zgadywanie. Jest to możliwe tylko w przypadku modeli regresji nieliniowej lub regresji liniowej ograniczonej. R2 mierzy, jak blisko rzeczywistych wartości danych testowych są wartości przewidywane. Im bliżej 1,00, tym lepsza jakość Jednak czasami niskie wartości R-kwadrat (takie jak 0,50) mogą być całkowicie normalne lub wystarczająco dobre dla scenariusza, a wysokie wartości R-kwadrat nie zawsze są dobre i mogą wzbudzać podejrzenia.
Utrata bezwzględna Bezwzględna utrata lub średni błąd bezwzględny (MAE) mierzy, jak blisko przewidywań są rzeczywiste wyniki. Jest to średnia wszystkich błędów modelu, gdzie błąd modelu jest bezwzględną odległością między przewidywaną wartością etykiety a poprawną wartością etykiety. Ten błąd przewidywania jest obliczany dla każdego rekordu zestawu danych testowych. Na koniec średnia wartość jest obliczana dla wszystkich zarejestrowanych błędów bezwzględnych. Im bliższa 0,00, tym lepsza jakość. Średni błąd bezwzględny używa tej samej skali co mierzone dane (nie jest znormalizowany do określonego zakresu). Straty bezwzględnej, straty kwadratowej i straty RMS można używać tylko do porównywania modeli dla tego samego zestawu danych lub zestawu danych o podobnym rozkładzie wartości etykiet.
Strata kwadratowa Strata kwadratowa lub błąd średniokwadratowy (MSE), nazywany również odchyleniem średniokwadratowym (MSD), informuje, jak blisko linii regresji znajduje się zestaw wartości danych testowych, poprzez mierzenie odległości punktów od linii regresji (te odległości to błędy E) i podnoszenie ich do kwadratu. Podniesienie do kwadratu nadaje większą wagę większym różnicom. Zawsze jest to wartość nieujemna, a wartości zbliżone do 0,00 są lepsze. W zależności od danych uzyskanie bardzo małej wartości błędu średniokwadratowego może być niemożliwe.
Utrata usługi RMS Utrata RMS lub błąd średniokwadratowy (RMSE) (znany również jako Odchylenie średniokwadratowe, RMSD), mierzy różnicę między wartościami przewidywanymi przez model a wartościami obserwowanymi w środowisku, które się modeluje. Strata RMS jest pierwiastkiem kwadratowym ze straty kwadratowej i wyrażona jest w tych samych jednostkach co etykieta, podobnie jak strata bezwzględna, ale przyznaje większą wagę większym różnicom. Główny błąd średniokwadratowy jest często używany w analizie climatologii, prognozowania i regresji w celu zweryfikowania wyników eksperymentalnych. Zawsze jest to wartość nieujemna, a wartości zbliżone do 0,00 są lepsze. RMSD to miara dokładności, służąca do porównywania błędów prognozowania różnych modeli dla określonego zestawu danych, a nie między zestawami danych, ponieważ jest zależne od skali.

Aby uzyskać więcej informacji na temat metryk regresji, przeczytaj następujące artykuły:

Metryki oceny dla klastrowania

Wskaźnik Opis Szukaj
Średnia odległość Średnia odległość między punktami danych a centrum przypisanego klastra. Średnia odległość to miara zbliżenia punktów danych do centroidów klastra. Jest to miara tego, jak "napięty" jest klaster. Wartości bliżej 0 są lepsze. Im bliżej zera jest średnia odległość, tym bardziej klastrowane są dane. Należy jednak pamiętać, że ta metryka zmniejszy się, jeśli liczba klastrów zostanie zwiększona, a w skrajnym przypadku (gdzie każdy odrębny punkt danych jest własnym klastrem) będzie równy zero.
Indeks Davies Bouldin Średni stosunek odległości w obrębie klastra do odległości między klastrami. Im ściślejszy klaster i tym dalej znajdują się klastry, tym niższa jest ta wartość. Wartości bliżej 0 są lepsze. Klastry, które są dalej i mniej rozproszone, spowodują lepszą ocenę.
Znormalizowane wzajemne informacje Może być używany, gdy dane szkoleniowe używane do trenowania modelu klastrowania są również dostarczane z etykietami prawdy podstawowej (czyli klastrowanie nadzorowane). Metryka Znormalizowanej Wzajemnej Informacji mierzy, czy podobne punkty danych są przypisywane do tego samego klastra, a odmienne punkty danych do różnych klastrów. Znormalizowane wzajemne informacje są wartością z zakresu od 0 do 1. Wartości bliżej 1 są lepsze.

Metryki oceny dla klasyfikacji

Wskaźnik Opis Szukaj
Obniżone skumulowane zyski Zysk skumulowany z dyskontem (DCG) to miara jakości rankingu. Pochodzi ona z dwóch założeń. Jeden: Bardzo istotne elementy są bardziej przydatne, gdy pojawiają się wyżej w rankingu. Dwa: Użyteczność śledzi istotność, co oznacza, że im większe znaczenie, tym bardziej przydatny jest element. Zysk skumulowany z rabatem jest obliczany dla określonej pozycji w kolejności klasyfikacji. Sumuje ocenę istotności podzieloną przez logarytm indeksu rankingowego do konkretnej pozycji. Jest obliczane przy użyciu $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}$. Oceny istotności są dostarczane do algorytmu trenowania jako etykiety prawdy podstawowej. Jedna wartość DCG jest udostępniana dla każdej pozycji w tabeli klasyfikacji, stąd nazwa Discounted Cumulative Gains. Wyższe wartości są lepsze.
Znormalizowane skumulowane zyski z rabatu Normalizacja dcG umożliwia porównywanie metryki dla list klasyfikacji o różnych długościach. Wartości bliżej 1 są lepsze.

Metryki oceny wykrywania anomalii

Wskaźnik Opis Szukaj
Obszar pod krzywą ROC Obszar pod krzywą operatora odbiorcy mierzy, jak dobrze model oddziela nietypowe i zwykłe punkty danych. Wartości bliżej 1 są lepsze. Tylko wartości większe niż 0,5 pokazują skuteczność modelu. Wartości 0,5 lub poniżej wskazują, że model nie jest lepszy niż losowo przydzielanie danych wejściowych do nietypowych i zwykłych kategorii.
Wskaźnik wykrywania przy liczbie wyników fałszywie dodatnich Współczynnik wykrywania przy liczbie fałszywych alarmów to stosunek liczby poprawnie zidentyfikowanych anomalii do całkowitej liczby anomalii w zestawie testowym, z uwzględnieniem każdego fałszywego alarmu. Oznacza to, że istnieje wartość współczynnika wykrywania przy liczbie wyników fałszywie dodatnich dla każdego elementu fałszywie dodatniego. Wartości bliżej 1 są lepsze. Jeśli nie ma wyników fałszywie dodatnich, ta wartość to 1.

Metryki oceny dla podobieństwa zdań

Wskaźnik Opis Szukaj
Korelacja Pearson Korelacja Pearson, znana również jako współczynnik korelacji, mierzy zależność lub relację między dwoma zestawami danych. Wartości bezwzględne bliżej 1 są najbardziej podobne. Ta metryka waha się od -1 do 1. Wartość bezwzględna 1 oznacza, że zestawy danych są identyczne. Wartość 0 oznacza, że nie ma relacji między dwoma zestawami danych.