Metriky vyhodnocení pro modely pracovních postupů orchestrace

Článek
12/19/2023

Datová sada je rozdělená na dvě části: sadu pro trénování a sadu pro testování. Trénovací sada se používá k trénování modelu, zatímco testovací sada se používá jako test modelu po trénování k výpočtu výkonu a vyhodnocení modelu. Testovací sada se do modelu nezavádí prostřednictvím trénovacího procesu, aby se zajistilo, že se model testuje na nových datech.

Vyhodnocení modelu se aktivuje automaticky po úspěšném dokončení trénování. Proces vyhodnocení začíná použitím natrénovaného modelu k predikci záměrů promluv definovaných uživatelem v testovací sadě a jejich porovnáním s poskytnutými značkami (které stanoví základní hodnoty pravdivosti). Výsledky se vrátí, abyste mohli zkontrolovat výkon modelu. Pracovní postup orchestrace používá k vyhodnocení následující metriky:

Přesnost: Měří přesnost a přesnost modelu. Jedná se o poměr mezi správně identifikovanými pozitivními výsledky (pravdivě pozitivními výsledky) a všemi identifikovanými pozitivními výsledky. Metrika přesnosti ukazuje, kolik predikovaných tříd je správně označeno.

Precision = #True_Positive / (#True_Positive + #False_Positive)
Vzpomeňte si: Měří schopnost modelu předpovědět skutečné pozitivní třídy. Je to poměr mezi predikovanými pravdivě pozitivními výsledky a tím, co bylo skutečně označeno. Metrika úplnosti odhalí, kolik predikovaných tříd je správných.

Recall = #True_Positive / (#True_Positive + #False_Negatives)
Skóre F1: Skóre F1 je funkcí přesnosti a úplnosti. Je potřeba, když hledáte rovnováhu mezi přesností a úplností.

F1 Score = 2 * Precision * Recall / (Precision + Recall)

Přesnost, úplnost a skóre F1 se počítají pro:

Každý záměr zvlášť (vyhodnocení na úrovni záměru)
Pro model souhrnně (vyhodnocení na úrovni modelu).

Definice přesnosti, úplnosti a vyhodnocení jsou stejné pro vyhodnocení na úrovni záměru i modelu. Počty pravdivě pozitivních, falešně pozitivních a falešně negativních výsledků se ale můžou lišit. Podívejte se například na následující text.

Příklad

Odpovědět s poděkováním
Zavolejte mému příteli
Dobrý den
Dobré ráno

Použité záměry: CLUEmail a Greeting

Model může provádět následující předpovědi:

Výrok	Predikovaný záměr	Skutečný záměr
Odpovědět s poděkováním	CLUEmail	CLUEmail
Zavolejte mému příteli	Pozdrav	CLUEmail
Dobrý den	CLUEmail	Pozdrav
Goodmorning	Pozdrav	Pozdrav

Vyhodnocení úrovně záměru CLUEmail

Klíč	Počet	Vysvětlení
Pravdivě pozitivní	1	Výrok 1 byl správně predikován jako CLUEmail.
Falešně pozitivní	1	Výrok 3 byl omylem předpovězen jako CLUEmail.
Falešně negativní	1	Výrok 2 byl omylem předpovězen jako Pozdrav.

Přesnost = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

Připomenout = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

Skóre F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Vyhodnocení úrovně záměru pro záměr Greeting

Klíč	Počet	Vysvětlení
Pravdivě pozitivní	1	Výrok 4 byl správně predikován jako Pozdrav.
Falešně pozitivní	1	Výrok 2 byl omylem předpovězen jako Pozdrav.
Falešně negativní	1	Výrok 3 byl omylem předpovězen jako CLUEmail.

Přesnost = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

Připomenout = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

Skóre F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Vyhodnocení na úrovni modelu pro kolektivní model

Klíč	Počet	Vysvětlení
Pravdivě pozitivní	2	Součet TP pro všechny záměry
Falešně pozitivní	2	Součet FP pro všechny záměry
Falešně negativní	2	Součet FN pro všechny záměry

Přesnost = #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 2) = 0.5

Připomenout = #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 2) = 0.5

Skóre F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Konfuzní matice

Konfuzní matice je matice N x N používaná pro vyhodnocení výkonu modelu, kde N je počet záměrů. Matice porovnává skutečné značky se značkami predikovanými modelem. Získáte tak ucelený přehled o tom, jak dobře model funguje a jaké druhy chyb dělá.

Pomocí konfuzní matice můžete identifikovat záměry, které jsou příliš blízko sebe a často se mýlí (nejednoznačnost). V tomto případě zvažte sloučení těchto záměrů dohromady. Pokud to není možné, zvažte přidání dalších označených příkladů obou záměrů, které modelu pomůžou je odlišit.

Metriky vyhodnocení na úrovni modelu můžete vypočítat z konfuzní matice:

Pravdivě pozitivní výsledek modelu je součet pravdivě pozitivních hodnot pro všechny záměry.
Falešně pozitivní výsledek modelu je součet falešně pozitivních výsledků pro všechny záměry.
Falešně negativní hodnota modelu je součet falešně negativních výsledků pro všechny záměry.

Další kroky

Trénování modelu v nástroji Language Studio

Sdílet prostřednictvím

Metriky vyhodnocení pro modely pracovních postupů orchestrace

Příklad

Vyhodnocení úrovně záměru CLUEmail

Vyhodnocení úrovně záměru pro záměr Greeting

Vyhodnocení na úrovni modelu pro kolektivní model

Konfuzní matice

Další kroky

Váš názor

Váš názor

Další materiály