Bewerten eines Klassifizierungsmodells
Beim maschinellen Lernen nimmt die Bewertung, wie gut Modelle funktionieren, einen großen Raum ein. Diese Bewertung findet während des Trainings statt, um die Modellbildung zu unterstützen, und auch nach dem Training, damit wir beurteilen können, ob das Modell für die Verwendung in der realen Welt geeignet ist. Für Klassifizierungsmodelle muss eine Bewertung durchgeführt werden, wie dies auch bei Regressionsmodellen der Fall ist. Die Art und Weise der Bewertung kann manchmal aber etwas komplexer ausfallen.
Zur Erinnerung: Informationen zu den Kosten
Es wurde bereits beschrieben, dass wir während des Trainings berechnen, wie schlecht die Leistung eines Modells ist, und dass dies als „Kosten“ oder „Verlust“ bezeichnet wird. Bei der linearen Regression wird beispielsweise häufig eine Metrik mit der Bezeichnung „Mittlere quadratische Abweichung“ (Mean Squared Error, MSE) verwendet. Der Wert für die mittlere quadratische Abweichung wird berechnet, indem die Vorhersage und die tatsächliche Bezeichnung (Englisch: Label) verglichen werden und dann die Differenz quadriert und der Mittelwert des Ergebnisses gebildet wird. Wir können die mittlere quadratische Abweichung verwenden, um unser Modell anzupassen und ein Ergebnis zu seiner Leistung zu erhalten.
Kostenfunktionen für die Klassifizierung
Klassifizierungsmodelle werden entweder nach ihren ausgegebenen Wahrscheinlichkeiten, z. B. 40 %ige Lawinenwahrscheinlichkeit, oder den endgültigen Bezeichnungen (no avalanche
oder avalanche
) beurteilt. Die Verwendung der Ausgabewahrscheinlichkeiten kann während des Trainings von Vorteil sein. Geringfügige Änderungen des Modells werden als Änderungen der Wahrscheinlichkeiten wiedergegeben (auch wenn sie nicht ausreichen, um eine Änderung der endgültigen Entscheidung zu bewirken). Die Verwendung der endgültigen Bezeichnungen für eine Kostenfunktion ist nützlicher, wenn wir die Leistung unseres Modells in der realen Welt abschätzen möchten. Beispielsweise für das Testdataset. Da wir für die Nutzung in der realen Welt nicht die Wahrscheinlichkeiten, sondern die endgültigen Bezeichnungen verwenden.
Protokollverlust
„Logarithmischer Verlust“ (Englisch: Log loss) ist eine der beliebtesten Kostenfunktionen für die einfache Klassifizierung. Auf Ausgabewahrscheinlichkeiten wird der „Logarithmische Verlust“ angewendet. Ähnlich wie bei der mittleren quadratischen Abweichung führen geringe Fehlermengen zu geringen Kosten, während mittlere Fehlermengen zu hohen Kosten führen. Im folgenden Diagramm stellen wir den logarithmischen Verlust für eine Bezeichnung dar, für die die richtige Antwort 0 (false) lautet.
Auf der x-Achse sind die möglichen Modellausgaben (Wahrscheinlichkeiten von 0 bis 1) und auf der y-Achse die Kosten aufgeführt. Wenn ein Modell eine hohe Zuverlässigkeit aufweist, dass die richtige Antwort 0 ist (z. B. Vorhersage von 0,1). Dann sind die Kosten niedrig, weil in diesem Fall die richtige Antwort 0 ist. Falls vom Modell zuverlässig das falsche Ergebnis vorhergesagt wird (z. B. Vorhersage von 0,9), sind die Kosten hoch. Bei x=1 sind die Kosten so hoch, dass wir die x-Achse bei 0,999 abschneiden, damit der Graph gut lesbar bleibt.
Was spricht gegen die Nutzung der mittleren quadratischen Abweichung (Mean Squared Error, MSE)?
Die mittlere quadratische Abweichung und der logarithmische Verlust sind ähnliche Metriken. Es gibt einige komplexe Gründe, warum „Logarithmischer Verlust“ bei der logistischen Regression bevorzugt wird, aber auch einige einfachere Gründe. Beispielsweise werden falsche Antworten bei Logarithmischer Verlust deutlich strenger als bei der mittleren quadratischen Abweichung bestraft. Im folgenden Diagramm beispielsweise, in dem die richtige Antwort 0 ist, sind die Kosten bei Vorhersagen oberhalb von 0,8 bei logarithmischem Verlust höher als bei der mittleren quadratischen Abweichung.
Wenn die Kosten so hoch ausfallen, kann das Modell schneller lernen, da der Gradient der Linie steiler ist. Ebenso hilft der logarithmische Verlust Modellen dabei, deren Zuverlässigkeit für die Gabe der richtigen Antwort zu steigern. Beachten Sie im vorherigen Diagramm, dass die Kosten der mittleren quadratischen Abweichung für Werte kleiner als 0,2 niedrig sind und der Gradient fast flach ist. Bei Modellen, die nahezu korrekt sind, wird das Training durch diese Beziehung verlangsamt. Bei „Logarithmischer Verlust“ ist der Gradient für diese Werte steiler. Dies trägt dazu bei, dass das Modell schneller lernen kann.
Einschränkungen von Kostenfunktionen
Die Verwendung einer einzelnen Kostenfunktion für die menschliche Bewertung des Modells ist immer mit Einschränkungen versehen, weil hierbei nicht angegeben wird, welche Art von Fehlern Ihr Modell macht. Zur Verdeutlichung verwenden wir unser Szenario für die Lawinenvorhersage. Ein hoher Wert für den logarithmischen Verlust kann bedeuten, dass vom Modell wiederholt Lawinenabgänge vorhergesagt werden, die dann nicht eintreten. Oder es könnte bedeuten, dass es wiederholt versäumt, Lawinen vorherzusagen, die auftreten.
Zum besseren Verständnis unserer Modelle kann es einfacher sein, anhand von mehr als einer Zahl zu bewerten, ob diese gut funktionieren. Wir behandeln dieses umfassendere Thema in anderen Lernmaterialien, auch wenn es in den folgenden Übungen ggf. kurz erwähnt wird.