Bewerten eines Modells

Artikel
11/13/2019

Wichtig

Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.

Siehe Migrieren zu Azure Machine Learning
Weitere Informationen zu Azure Machine Learning.

Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.

Wertet die Ergebnisse eines Klassifizierungs- oder Regressionsmodells mit Standardmetriken aus.

Kategorie: Machine Learning / Auswerten

Hinweis

Giltnur für: Machine Learning Studio (klassisch)

Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.

Modulübersicht

In diesem Artikel wird beschrieben, wie Sie das Bewertungsmodellmodul in Machine Learning Studio (klassisch) verwenden, um die Genauigkeit eines trainierten Modells zu messen. Sie stellen ein Dataset zur Verfügung, das die anhand eines Modells generierten Ergebnisse enthält. Anschließend berechnet das Modul Evaluate Model eine Reihe branchenüblicher Auswertungsmetriken.

Die Metriken, die vom Modul Evaluate Model zurückgegeben werden, hängen vom Typ des Modells ab, das Sie auswerten möchten:

Klassifizierungsmodelle
Regressionsmodelle
Clusteringmodelle

Verwenden Sie für Empfehlungsmodelle das Modul "Evaluate Recommender ".

Tipp

Wenn Sie neu bei der Modellauswertung sind, empfehlen wir diese Beispiele im Azure AI-Katalog, die ein Modell erstellen und dann erläutern, wie die zugehörigen Metriken verwendet werden:

Wir empfehlen auch die Videoreihe von Dr. Stephen Elston, als Teil des Maschinellen Lernens von EdX.

Verwenden von Evaluate Model

Es gibt drei Möglichkeiten zum Verwenden des Bewertungsmodellmoduls :

Generieren Sie Ergebnisse zu Ihren Trainingsdaten, und werten Sie das Modell anhand dieser Ergebnisse aus.
Generieren Sie Ergebnisse für das Modell, vergleichen Sie diese aber mit Ergebnissen für ein reserviertes Testdataset.
Vergleichen Sie die Ergebnisse für zwei verschiedene, aber zusammengehörige Modelle unter Verwendung desselben Datasets.

Verwenden der Trainingsdaten

Zur Auswertung eines Modells müssen Sie eine Verbindung mit einem Dataset herstellen, das mehrere Eingabespalten und Ergebnisse enthält. Wenn keine anderen Daten verfügbar sind, können Sie Ihr ursprüngliches Dataset verwenden.

Verbinden die Datsetausgabe "Scored" des Bewertungsmodells an die Eingabe des Bewertungsmodells.
Klicken Sie auf das Modul Evaluate Model und dann auf Run selected (Ausgewählte ausführen), um die Auswertungsergebnisse zu generieren.

Verwenden von Testdaten

Ein typisches Szenario beim maschinellen Lernen ist die Aufteilung Ihres ursprünglichen Datasets in Trainings- und Testdatasets unter Verwendung des Moduls Split (Aufteilen) oder des Moduls Partition and Sample (Partitionieren und Stichproben nehmen).

Verbinden Sie die Ausgabe Scored dataset des Moduls Score Model mit der Eingabe des Moduls Evaluate Model.
Verbinden Sie die Ausgabe des Moduls „Split“, das die Testdaten enthält, mit der rechten Eingabe von Evaluate Model.
Klicken Sie auf das Modul Evaluate Model und dann auf Run selected (Ausgewählte ausführen), um die Auswertungsergebnisse zu generieren.

Vergleichen von Ergebnissen zweier Modelle

Sie können auch eine zweite Menge von Ergebnissen mit Evaluate Model verbinden. Die Ergebnisse können eine gemeinsame Bewertungsmenge mit bekannten Ergebnissen oder eine Menge von Ergebnissen aus einem anderen Modell für dieselben Daten sein.

Dieses Feature ist nützlich, da Sie die Ergebnisse zweier verschiedener Modelle auf der Grundlage derselben Daten einfach vergleichen können. Sie können auch Ergebnisse zweier verschiedener Ausführungen über dieselben Daten mit unterschiedlichen Parametern vergleichen.

Verbinden die Datsetausgabe "Scored" des Bewertungsmodells an die Eingabe des Bewertungsmodells.
Verbinden Sie die Ausgabe des Moduls „Score Model“ für das zweite Modell mit der rechten Eingabe des Moduls „Evaluate Model“.
Klicken Sie mit der rechten Maustaste auf Evaluate Model und dann auf Run selected (Ausgewählte ausführen), um die Auswertungsergebnisse zu generieren.

Ergebnisse

Klicken Sie nach der Ausführung von Evaluate Model mit der rechten Maustaste auf das Modul, und wählen Sie Evaluation results (Auswertungsergebnisse) aus, um die Ergebnisse anzuzeigen. Ihre Möglichkeiten:

Speichern der Ergebnisse als Dataset, damit Sie sie mit anderen Tools einfacher analysieren können
Generieren einer Visualisierung in der Studio-Schnittstelle (klassische)

Wenn Sie Datasets mit beiden Eingaben von Evaluate Model verbinden, enthalten die Ergebnisse Metriken für beide Datasets bzw. beide Modelle. Das modell oder daten, das an den linken Port angefügt ist, wird zuerst im Bericht angezeigt, gefolgt von den Metriken für das Dataset oder Modell, das an den rechten Port angefügt ist.

So stellt beispielsweise die folgende Abbildung einen Vergleich der Ergebnisse zweier Clusteringmodelle dar, die anhand derselben Daten, aber mit unterschiedlichen Parametern erstellt wurden.

AML_Comparing2Models

Da es sich um ein Clusteringmodell handelt, sind die Auswertungsergebnisse anders als wenn Sie Ergebnisse zweier Regressionsmodelle vergleichen oder zwei Klassifizierungsmodelle miteinander vergleichen. Die Gesamtpräsentation ist jedoch identisch.

Metriken

Dieser Abschnitt beschreibt die Metriken, die für die bestimmten Arten von Modellen zurückgegeben werden, die für den Einsatz mit Evaluate Model unterstützt werden:

Klassifizierungsmodelle
Regressionsmodelle
Clusteringmodelle

Metriken für Klassifizierungsmodelle

Die folgenden Metriken werden bei der Auswertung von Klassifizierungsmodellen erfasst. Wenn Sie Modelle vergleichen, werden sie anhand der Metrik eingestuft, die Sie für die Auswertung auswählen.

Accuracy (Treffergenauigkeit) misst die Güte eines Klassifizierungsmodells als das Verhältnis der wahren Ergebnisse zur Gesamtheit der Fälle.
Precision (Genauigkeit) ist der Anteil wahrer Ergebnisse an allen positiven Ergebnissen.
Recall (Trefferquote) ist der Anteil aller richtigen Ergebnisse, die vom Modell zurückgegeben werden.
F-Score (F-Maß) wird als gewichteter Durchschnitt von Genauigkeit und Trefferquote von 0 bis 1 berechnet, wobei 1 der ideale Wert für F-Maß ist.
AUC (Fläche unter der Kurve) misst den Bereich unter der Kurve, der mit wahren positiven Werten auf der y-Achse und falschen positiven Werten auf der x-Achse gezeichnet wurde. Diese Metrik ist nützlich, da sie einen einzelnen Wert liefert, mit dem Sie Modelle verschiedener Typen vergleichen können.
Average log loss (logarithmische Durchschnittsdämpfung) ist ein Einzelwert, der verwendet wird, um die Strafterme für falsche Ergebnisse auszudrücken. Er wird als Differenz zwischen zwei Wahrscheinlichkeitsverteilungen berechnet – der tatsächlichen und der im Modell.
Training log loss (logarithmische Trainingsdämpfung) ist ein einzelner Wert, der den Vorteil des Klassifizierers gegenüber einer Zufallsvorhersage wiedergibt. Die Trainingsdämpfung misst die Unsicherheit Ihres Modells, indem die ausgegebenen Wahrscheinlichkeiten mit den bekannten Werten (Ground Truth) in den Bezeichnungen verglichen werden. Die Trainingsdämpfung sollte für das Modell als Ganzes minimiert werden.

Metriken für Regressionsmodelle

Die für Regressionsmodelle zurückgegebenen Metriken sind im Allgemeinen so gestaltet, dass sie die Fehlerquote schätzen. Ein Modell passt gut zu den Daten, wenn der Unterschied zwischen beobachteten und vorhergesagten Werten gering ist. Wenn Sie sich jedoch das Muster der Residuen (die Differenz zwischen einem beliebigen vorhergesagten Punkt und seinem entsprechenden Istwert) ansehen, können Sie viel über eine mögliche Verzerrung im Modell erfahren.

Die folgenden Metriken werden für die Auswertung von Regressionsmodellen herangezogen. Wenn Sie Modelle vergleichen, werden sie nach der Metrik eingestuft, die Sie für die Auswertung auswählen.

Negative Protokollwahrscheinlichkeit misst die Verlustfunktion, eine niedrigere Bewertung ist besser. Beachten Sie, dass diese Metrik nur für bayesische lineare Regression und Decision Forest Regression berechnet wird; für andere Algorithmen bedeutet Infinity der Wert nichts.
Mean absolute error (MAE) (mittlerer absoluter Fehler) misst, wie nah die Vorhersagen an den tatsächlichen Ergebnissen sind, weshalb ein niedrigerer Wert besser ist.
Root mean squared error (RMSE) (mittlere quadratische Abweichung ) erzeugt einen Einzelwert, der den Fehler im Modell zusammenfasst. Durch die Quadrierung der Differenz ignoriert die Metrik den Unterschied zwischen Über- und Unterprognose.
Relative absolute error (RAE) (relativer absoluter Fehler) ist die relative absolute Differenz zwischen erwartetem und tatsächlichem Wert; relativ, weil die mittlere Differenz durch das arithmetische Mittel dividiert wird.
Relative squared error (RSE) (relativer quadratischer Fehler) normalisiert ebenfalls den gesamten quadrierten Fehler der vorhergesagten Werte durch Division durch den gesamten quadrierten Fehler der Istwerte.
Mean Zero One Error (MZOE) (mittlerer absoluter Fehler) gibt an, ob die Vorhersage richtig war oder nicht. Mit anderen Worten: ZeroOneLoss(x,y) = 1 bei x!=y, andernfalls 0.
Coefficient of determination (Bestimmtheitsmaß), oft auch als R² bezeichnet, stellt die Vorhersagekraft des Modells als Wert von 0 bis 1 dar. 0 bedeutet, dass das Modell zufällig ist (also nichts erklärt). 1 bedeutet, dass es eine perfekte Anpassung gibt. Bei der Interpretation der R²-Werte ist jedoch Vorsicht geboten, da niedrige Werte völlig normal und hohe Werte verdächtig sein können.

Metriken für Clusteringmodelle

Da sich Clusteringmodelle in vielerlei Hinsicht deutlich von Klassifizierungs- und Regressionsmodellen unterscheiden, gibt Evaluate Model (Modell bewerten) auch eine andere Menge an Statistiken für Clusteringmodelle zurück.

Die für ein Clusteringmodell zurückgegebene Statistik beschreibt, wie viele Datenpunkte jedem Cluster zugeordnet wurden, wie groß die Trennung zwischen den Clustern ist und wie eng die Datenpunkte innerhalb jedes Clusters gebündelt sind.

Die Statistiken für das Clusteringmodell werden über das gesamte Dataset gemittelt, wobei clusterbezogene Statistiken in zusätzlichen Zeilen enthalten sind.

Die folgenden Ergebnisse zeigen z. B. einen Teil der Ergebnisse aus einem Beispielexperiment, das die Daten im Dataset "PIMA Indian Diabetes Binary Classification" gruppiert, das in Machine Learning Studio (klassisch) verfügbar ist.

Ergebnisbeschreibung	Durchschnittliche Entfernung zum Clustercenter	Durchschnittliche Entfernung zum anderen Zentrum	Anzahl von Punkten	Maximaler Abstand zum Clustercenter
Kombinierte Auswertung	55.915068	169.897505	538	303.545166
Auswertung für Cluster Nr.0	0	1	570	0
Auswertung für Cluster Nr.1	0	1	178	0
Auswertung für Cluster Nr.2	0	1	178	0

Aus diesen Ergebnissen erhalten Sie die folgenden Informationen:

Das Sweep Clustering-Modul erstellt mehrere Clustermodelle , die in der Reihenfolge der Genauigkeit aufgeführt sind. Einfachheit halber haben wir hier nur das beste Modell gezeigt. Modelle werden mit allen möglichen Metriken gemessen, aber die Modelle werden mithilfe der von Ihnen angegebenen Metrik bewertet. Wenn Sie die Metrik geändert haben, wird möglicherweise ein anderes Modell höher eingestuft.
Die Bewertung "Kombinierte Auswertung " oben im einzelnen Abschnitt der Ergebnisse listet die durchschnittliche Bewertung für die in diesem bestimmten Modell erstellten Cluster auf.

Dieses top bewertete Modell hat drei Cluster erstellt; Andere Modelle können zwei Cluster oder vier Cluster erstellen. Daher hilft Ihnen diese kombinierte Bewertung, Modelle mit unterschiedlicher Anzahl von Clustern zu vergleichen.
Die Werte in der Spalte Average Distance to Cluster Center (Durchschnittlicher Abstand zum Clusterzentrum) stellen die Nähe aller Punkte in einem Cluster zum Schwerpunkt dieses Clusters dar.
Die Werte in der Spalte Average Distance to Other Center (Durchschnittlicher Abstand zum anderen Zentrum) geben an, wie nahe jeder Punkt im Cluster im Durchschnitt an den Schwerpunkten aller anderen Cluster liegt.

Sie können eine beliebige von vier Metriken auswählen, um diesen Abstand zu messen, aber alle Messungen müssen dieselbe Metrik verwenden.
Die Spalte Number of Points (Anzahl der Punkte) zeigt, wie viele Datenpunkte jedem Cluster zugewiesen wurden, sowie die Gesamtanzahl der Datenpunkte in jedem Cluster.

Wenn die Anzahl der den Clustern zugeordneten Datenpunkte geringer ist als die Gesamtanzahl der verfügbaren Datenpunkte, bedeutet dies, dass die Datenpunkte keinem Cluster zugeordnet werden konnten.
Die Ergebnisse in der Spalte " Maximaler Abstand zum Clustercenter" stellen die Summe der Entfernungen zwischen jedem Punkt und dem Mittelpunkt des Clusters dieses Punkts dar.

Wenn dieser Wert hoch ist, kann dies bedeuten, dass der Cluster weit verstreut ist. Sie sollten diese Statistik zusammen mit dem Mittelabstand zum Clustercenter überprüfen, um die Verteilung des Clusters zu bestimmen.

Beispiele

Beispiele zum Generieren, Visualisieren und Interpretieren von Auswertungsmetriken finden Sie in diesen Beispielexperimenten im Azure AI-Katalog. Diese Experimente veranschaulichen, wie Sie mehrere Modelle erstellen und mithilfe von Evaluate Model bestimmen, welches Modell das beste ist.

Vergleichen Sie binäre Klassifizierer: Erläutert, wie Sie die Leistung verschiedener Klassifizierer vergleichen, die mithilfe derselben Daten erstellt wurden.
Vergleichen Sie Klassifizierer mit mehreren Klassen: Veranschaulicht, wie Sie die Genauigkeit verschiedener Klassifizierungsmodelle vergleichen, die auf dem Datensatz für die Brieferkennung basieren.
Vergleichen Sie Regressoren: Führt Sie durch den Prozess der Auswertung verschiedener Regressionsmodelle.
Bedarfsschätzung: Erfahren Sie, wie Sie Auswertungsmetriken aus mehreren Modellen kombinieren.
Vorhersage der Kundenbeziehung: Veranschaulicht, wie mehrere verwandte Modelle ausgewertet werden.

Erwartete Eingaben

Name	type	BESCHREIBUNG
Bewertetes Dataset	Datentabelle	Bewertetes Dataset
Scored dataset to compare	Datentabelle	Bewertetes Dataset für Vergleich (optional)

Ausgaben

Name	type	BESCHREIBUNG
Auswertung der Ergebnisse	Datentabelle	Die Ergebnisse der Datenauswertung

Ausnahmen

Ausnahme	Beschreibung
Fehler 0003	Eine Ausnahme tritt auf, wenn mindestens eine Eingabe NULL oder leer ist.
Fehler 0013	Die Ausnahme tritt auf, wenn das an das Modul übergebene Lernmodul einen ungültigen Typ hat.
Fehler 0020	Eine Ausnahme tritt auf, wenn die Anzahl der Spalten in einigen der an das Modul übergebenen Datasets zu klein ist.
Fehler 0021	Eine Ausnahme tritt auf, wenn die Anzahl der Zeilen in einigen der an das Modul übergebenen Datasets zu klein ist.
Fehler 0024	Eine Ausnahme tritt auf, wenn das Dataset keine Bezeichnungsspalte enthält.
Fehler 0025	Eine Ausnahme tritt auf, wenn das Dataset keine Bewertungsspalte enthält.

Siehe auch

Cross-Validate Model
Evaluate Recommender
Evaluieren
Score Model (Modell bewerten)