Utvärderingsmått för arbetsflödesmodeller för orkestrering

Artikel
12/19/2023

Din datauppsättning är uppdelad i två delar: en uppsättning för träning och en uppsättning för testning. Träningsuppsättningen används för att träna modellen, medan testuppsättningen används som ett modelltest efter träning för att beräkna modellens prestanda och utvärdering. Testuppsättningen introduceras inte i modellen genom träningsprocessen för att se till att modellen testas på nya data.

Modellutvärderingen utlöses automatiskt när träningen har slutförts. Utvärderingsprocessen börjar med att använda den tränade modellen för att förutsäga användardefinierade avsikter för yttranden i testuppsättningen och jämför dem med de angivna taggarna (som fastställer en baslinje för sanning). Resultaten returneras så att du kan granska modellens prestanda. För utvärdering använder orkestreringsarbetsflödet följande mått:

Precision: Mäter hur exakt/exakt din modell är. Det är förhållandet mellan de korrekt identifierade positiva (sanna positiva) och alla identifierade positiva identifieringar. Precisionsmåttet visar hur många av de förutsagda klasserna som är korrekt märkta.

Precision = #True_Positive / (#True_Positive + #False_Positive)
Träffsäkerhet: Mäter modellens förmåga att förutsäga faktiska positiva klasser. Det är förhållandet mellan de förutsagda sanna positiva och vad som faktiskt taggades. Träffsäkerhetsmåttet visar hur många av de förutsagda klasserna som är korrekta.

Recall = #True_Positive / (#True_Positive + #False_Negatives)
F1-poäng: F1-poängen är en funktion med precision och träffsäkerhet. Det behövs när du söker en balans mellan Precision och Träffsäkerhet.

F1 Score = 2 * Precision * Recall / (Precision + Recall)

Precision, träffsäkerhet och F1-poäng beräknas för:

Varje avsikt separat (utvärdering på avsiktsnivå)
För modellen kollektivt (utvärdering på modellnivå).

Definitionerna av precision, träffsäkerhet och utvärdering är desamma för utvärderingar på avsiktsnivå och modellnivå. Dock kan antalet sanna positiva identifieringar, falska positiva och falska negativa identifieringar variera. Tänk dig till exempel följande text.

Exempel

Ge ett svar med tack så mycket
Ring min vän
Hello
God morgon

Dessa är de avsikter som används: CLUEmail och Greeting

Modellen kan göra följande förutsägelser:

Yttrande	Förutsagd avsikt	Faktisk avsikt
Ge ett svar med tack så mycket	CLUEmail	CLUEmail
Ring min vän	Hälsning	CLUEmail
Hello	CLUEmail	Hälsning
Goodmorning	Hälsning	Hälsning

Utvärdering av avsiktsnivå för CLUEmail-avsikt

Nyckel	Antal	Förklaring
Sann positiv händelse	1	Yttrande 1 förutsades korrekt som CLUEmail.
Falsk positiv händelse	1	Yttrande 3 förutsades felaktigt som CLUEmail.
Falsk negativ händelse	1	Yttrande 2 förutsades felaktigt som hälsning.

Precision = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

Minns = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

F1-poäng = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Utvärdering av avsiktsnivå för avsikten Greeting

Nyckel	Antal	Förklaring
Sann positiv händelse	1	Yttrande 4 förutsades korrekt som Hälsning.
Falsk positiv händelse	1	Yttrande 2 förutsades felaktigt som hälsning.
Falsk negativ händelse	1	Yttrande 3 förutsades felaktigt som CLUEmail.

Precision = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

Minns = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

F1-poäng = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Utvärdering på modellnivå för den kollektiva modellen

Nyckel	Antal	Förklaring
Sann positiv händelse	2	Summan av TP för alla avsikter
Falsk positiv händelse	2	Summan av FP för alla avsikter
Falsk negativ händelse	2	Summan av FN för alla avsikter

Precision = #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 2) = 0.5

Minns = #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 2) = 0.5

F1-poäng = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Förvirringsmatris

En förvirringsmatris är en N x N-matris som används för utvärdering av modellprestanda, där N är antalet avsikter. Matrisen jämför de faktiska taggarna med de taggar som förutsägs av modellen. Detta ger en holistisk bild av hur bra modellen presterar och vilka typer av fel den gör.

Du kan använda förvirringsmatrisen för att identifiera avsikter som är för nära varandra och ofta misstas (tvetydighet). I det här fallet bör du överväga att slå samman dessa avsikter. Om det inte är möjligt kan du överväga att lägga till fler taggade exempel på båda avsikterna för att hjälpa modellen att skilja mellan dem.

Du kan beräkna utvärderingsmåtten på modellnivå från förvirringsmatrisen:

Modellens sanna positiva resultat är summan av sanna positiva identifieringar för alla avsikter.
Modellens falska positiva resultat är summan av falska positiva identifieringar för alla avsikter.
Modellens falska negativa är summan av falska negativa för alla avsikter.

Nästa steg

Träna en modell i Language Studio

Dela via

Utvärderingsmått för arbetsflödesmodeller för orkestrering

Exempel

Utvärdering av avsiktsnivå för CLUEmail-avsikt

Utvärdering av avsiktsnivå för avsikten Greeting

Utvärdering på modellnivå för den kollektiva modellen

Förvirringsmatris

Nästa steg

Feedback

Feedback

Ytterligare resurser