Metriky vyhodnocení pro modely pracovních postupů orchestrace
Datová sada je rozdělená na dvě části: sadu pro trénování a sadu pro testování. Trénovací sada se používá k trénování modelu, zatímco testovací sada se používá jako test modelu po trénování k výpočtu výkonu a vyhodnocení modelu. Testovací sada se do modelu nezavádí prostřednictvím trénovacího procesu, aby se zajistilo, že se model testuje na nových datech.
Vyhodnocení modelu se aktivuje automaticky po úspěšném dokončení trénování. Proces vyhodnocení začíná použitím natrénovaného modelu k predikci záměrů promluv definovaných uživatelem v testovací sadě a jejich porovnáním s poskytnutými značkami (které stanoví základní hodnoty pravdivosti). Výsledky se vrátí, abyste mohli zkontrolovat výkon modelu. Pracovní postup orchestrace používá k vyhodnocení následující metriky:
Přesnost: Měří přesnost a přesnost modelu. Jedná se o poměr mezi správně identifikovanými pozitivními výsledky (pravdivě pozitivními výsledky) a všemi identifikovanými pozitivními výsledky. Metrika přesnosti ukazuje, kolik predikovaných tříd je správně označeno.
Precision = #True_Positive / (#True_Positive + #False_Positive)
Vzpomeňte si: Měří schopnost modelu předpovědět skutečné pozitivní třídy. Je to poměr mezi predikovanými pravdivě pozitivními výsledky a tím, co bylo skutečně označeno. Metrika úplnosti odhalí, kolik predikovaných tříd je správných.
Recall = #True_Positive / (#True_Positive + #False_Negatives)
Skóre F1: Skóre F1 je funkcí přesnosti a úplnosti. Je potřeba, když hledáte rovnováhu mezi přesností a úplností.
F1 Score = 2 * Precision * Recall / (Precision + Recall)
Přesnost, úplnost a skóre F1 se počítají pro:
- Každý záměr zvlášť (vyhodnocení na úrovni záměru)
- Pro model souhrnně (vyhodnocení na úrovni modelu).
Definice přesnosti, úplnosti a vyhodnocení jsou stejné pro vyhodnocení na úrovni záměru i modelu. Počty pravdivě pozitivních, falešně pozitivních a falešně negativních výsledků se ale můžou lišit. Podívejte se například na následující text.
Příklad
- Odpovědět s poděkováním
- Zavolejte mému příteli
- Dobrý den
- Dobré ráno
Použité záměry: CLUEmail a Greeting
Model může provádět následující předpovědi:
Výrok | Predikovaný záměr | Skutečný záměr |
---|---|---|
Odpovědět s poděkováním | CLUEmail | CLUEmail |
Zavolejte mému příteli | Pozdrav | CLUEmail |
Dobrý den | CLUEmail | Pozdrav |
Goodmorning | Pozdrav | Pozdrav |
Vyhodnocení úrovně záměru CLUEmail
Klíč | Počet | Vysvětlení |
---|---|---|
Pravdivě pozitivní | 1 | Výrok 1 byl správně predikován jako CLUEmail. |
Falešně pozitivní | 1 | Výrok 3 byl omylem předpovězen jako CLUEmail. |
Falešně negativní | 1 | Výrok 2 byl omylem předpovězen jako Pozdrav. |
Přesnost = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5
Připomenout = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5
Skóre F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5
Vyhodnocení úrovně záměru pro záměr Greeting
Klíč | Počet | Vysvětlení |
---|---|---|
Pravdivě pozitivní | 1 | Výrok 4 byl správně predikován jako Pozdrav. |
Falešně pozitivní | 1 | Výrok 2 byl omylem předpovězen jako Pozdrav. |
Falešně negativní | 1 | Výrok 3 byl omylem předpovězen jako CLUEmail. |
Přesnost = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5
Připomenout = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5
Skóre F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5
Vyhodnocení na úrovni modelu pro kolektivní model
Klíč | Počet | Vysvětlení |
---|---|---|
Pravdivě pozitivní | 2 | Součet TP pro všechny záměry |
Falešně pozitivní | 2 | Součet FP pro všechny záměry |
Falešně negativní | 2 | Součet FN pro všechny záměry |
Přesnost = #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 2) = 0.5
Připomenout = #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 2) = 0.5
Skóre F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5
Konfuzní matice
Konfuzní matice je matice N x N používaná pro vyhodnocení výkonu modelu, kde N je počet záměrů. Matice porovnává skutečné značky se značkami predikovanými modelem. Získáte tak ucelený přehled o tom, jak dobře model funguje a jaké druhy chyb dělá.
Pomocí konfuzní matice můžete identifikovat záměry, které jsou příliš blízko sebe a často se mýlí (nejednoznačnost). V tomto případě zvažte sloučení těchto záměrů dohromady. Pokud to není možné, zvažte přidání dalších označených příkladů obou záměrů, které modelu pomůžou je odlišit.
Metriky vyhodnocení na úrovni modelu můžete vypočítat z konfuzní matice:
- Pravdivě pozitivní výsledek modelu je součet pravdivě pozitivních hodnot pro všechny záměry.
- Falešně pozitivní výsledek modelu je součet falešně pozitivních výsledků pro všechny záměry.
- Falešně negativní hodnota modelu je součet falešně negativních výsledků pro všechny záměry.
Další kroky
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro