Delen via


Metrische evaluatiegegevens voor indelingswerkstroommodellen

Uw gegevensset is onderverdeeld in twee delen: een set voor training en een set voor testen. De trainingsset wordt gebruikt om het model te trainen, terwijl de testset wordt gebruikt als test voor het model na de training om de prestaties en evaluatie van het model te berekenen. De testset wordt niet geïntroduceerd in het model via het trainingsproces, om ervoor te zorgen dat het model wordt getest op nieuwe gegevens.

Modelevaluatie wordt automatisch geactiveerd nadat de training is voltooid. Het evaluatieproces begint met het getrainde model om door de gebruiker gedefinieerde intenties voor uitingen in de testset te voorspellen en vergelijkt deze met de opgegeven tags (waarmee een basislijn van waarheid wordt vastgesteld). De resultaten worden geretourneerd, zodat u de prestaties van het model kunt bekijken. Voor de evaluatie maakt de indelingswerkstroom gebruik van de volgende metrische gegevens:

  • Precisie: meet hoe nauwkeurig/nauwkeurig uw model is. Dit is de verhouding tussen de correct geïdentificeerde positieven (terecht-positieven) en alle geïdentificeerde positieven. De metrische precisie laat zien hoeveel van de voorspelde klassen correct zijn gelabeld.

    Precision = #True_Positive / (#True_Positive + #False_Positive)

  • Relevante informatie: Meet het vermogen van het model om werkelijke positieve klassen te voorspellen. Het is de verhouding tussen de voorspelde echte positieven en wat daadwerkelijk is getagd. De metrische gegevens over intrekken laten zien hoeveel van de voorspelde klassen juist zijn.

    Recall = #True_Positive / (#True_Positive + #False_Negatives)

  • F1-score: de F1-score is een functie van Precisie en Relevante overeenkomsten. Dit is nodig wanneer u een balans zoekt tussen Precisie en Intrekken.

    F1 Score = 2 * Precision * Recall / (Precision + Recall)

Precisie, relevante overeenkomsten en F1-score worden berekend voor:

  • Elke intentie afzonderlijk (evaluatie op intentieniveau)
  • Voor het model gezamenlijk (evaluatie op modelniveau).

De definities van precisie, relevante overeenkomsten en evaluatie zijn hetzelfde voor evaluaties op intentieniveau en modelniveau. Het aantal terecht-positieven, fout-positieven en fout-negatieven kan echter verschillen. Bekijk bijvoorbeeld de volgende tekst.

Voorbeeld

  • Maak een antwoord met hartelijk dank
  • Mijn vriend bellen
  • Hello
  • Goedemorgen

Dit zijn de intenties die worden gebruikt: CLUEmail en Greeting

Het model kan de volgende voorspellingen doen:

Uiting Voorspelde intentie Werkelijke intentie
Maak een antwoord met hartelijk dank CLUEmail CLUEmail
Mijn vriend bellen Begroeting CLUEmail
Hello CLUEmail Begroeting
Goedemorgen Begroeting Begroeting

Evaluatie van intentieniveau voor CLUEmail-intentie

Sleutel Count Uitleg
Terecht positief 1 Uiting 1 is correct voorspeld als CLUEmail.
Fout-positief 1 Uiting 3 is per ongeluk voorspeld als CLUEmail.
Fout-negatief 1 Uiting 2 is per ongeluk voorspeld als Begroeting.

Precisie = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

Herinneren = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

F1-score = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Evaluatie van intentieniveau voor begroetingsintentie

Sleutel Count Uitleg
Terecht positief 1 Utterance 4 is correct voorspeld als Begroeting.
Fout-positief 1 Uiting 2 is per ongeluk voorspeld als Begroeting.
Fout-negatief 1 Uiting 3 is per ongeluk voorspeld als CLUEmail.

Precisie = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

Herinneren = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

F1-score = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Evaluatie op modelniveau voor het collectieve model

Sleutel Count Uitleg
Terecht positief 2 Som van TP voor alle intenties
Fout-positief 2 Som van FP voor alle intenties
Fout-negatief 2 Som van FN voor alle intenties

Precisie = #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 2) = 0.5

Herinneren = #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 2) = 0.5

F1-score = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Verwarringsmatrix

Een verwarringsmatrix is een N x N-matrix die wordt gebruikt voor de evaluatie van modelprestaties, waarbij N het aantal intenties is. De matrix vergelijkt de werkelijke tags met de tags die door het model zijn voorspeld. Dit geeft een holistische weergave van hoe goed het model presteert en wat voor soort fouten het maakt.

U kunt de verwarringsmatrix gebruiken om intenties te identificeren die te dicht bij elkaar liggen en vaak onjuist zijn (dubbelzinnigheid). In dit geval kunt u deze intenties samenvoegen. Als dat niet mogelijk is, kunt u overwegen om meer getagde voorbeelden van beide intenties toe te voegen om het model te helpen er onderscheid tussen te maken.

U kunt de metrische evaluatiegegevens op modelniveau berekenen vanuit de verwarringsmatrix:

  • Het echte positieve van het model is de som van de werkelijke positieven voor alle intenties.
  • Het fout-positieve van het model is de som van de fout-positieven voor alle intenties.
  • Het fout-negatieve van het model is de som van de fout-negatieven voor alle intenties.

Volgende stappen

Een model trainen in Language Studio