Metriky vyhodnocení pro modely rozpoznávání vlastních pojmenovaných entit

Datová sada je rozdělená na dvě části: sadu pro trénování a sadu pro testování. Trénovací sada se používá k trénování modelu, zatímco testovací sada se používá jako test modelu po trénování k výpočtu výkonu a vyhodnocení modelu. Testovací sada není zavedena do modelu prostřednictvím procesu trénování, aby se zajistilo, že model je testován na nových datech.

Vyhodnocení modelu se aktivuje automaticky po úspěšném dokončení trénování. Proces vyhodnocení začíná použitím natrénovaného modelu k predikci uživatelem definovaných entit pro dokumenty v testovací sadě a porovná je s poskytnutými datovými značkami (které stanoví směrný plán pravdy). Výsledky se vrátí, abyste mohli zkontrolovat výkon modelu. Pro vyhodnocení používá vlastní NER následující metriky:

Přesnost: Měří, jak přesný a spolehlivý váš model je. Jedná se o poměr mezi správně identifikovanými pozitivními výsledky (pravdivě pozitivními výsledky) a všemi identifikovanými pozitivními výsledky. Metrika přesnosti ukazuje, kolik predikovaných entit je správně označeno.

Precision = #True_Positive / (#True_Positive + #False_Positive)
Citlivost: Měří schopnost modelu předpovědět skutečné kladné třídy. Je to poměr mezi predikovanými pravými pozitivy a tím, co bylo označeno. Metrika úplnosti ukazuje, kolik predikovaných entit je správné.

Recall = #True_Positive / (#True_Positive + #False_Negatives)
F1 skóre: Skóre F1 je funkce použitá při hledání rovnováhy mezi Precision a Recall.

F1 Score = 2 * Precision * Recall / (Precision + Recall)

Poznámka:

Skóre přesnosti, úplnosti a F1 se počítá pro každou entitu samostatně (vyhodnocení na úrovni entity ) a pro model souhrnně (vyhodnocení na úrovni modelu ).

Metriky vyhodnocení na úrovni modelu a na úrovni entity

Přesnost, úplnost a F1 skóre se počítají pro každou entitu samostatně (vyhodnocení na úrovni entity) a pro model souhrnně (vyhodnocení na úrovni modelu).

Definice přesnosti, úplnosti a vyhodnocení jsou stejné pro vyhodnocení na úrovni entity i na úrovni modelu. Počty pravdivě pozitivních výsledků, falešně pozitivních výsledků a falešně negativních výsledků se ale můžou lišit. Představte si například následující text.

Příklad

První stranou této smlouvy je John Smith, rezident 5678 Hlavní Rd., Město Fredericka, stát Nebraska. A druhou stranou je Forrest Ray, obyvatel na adrese 123-345 Integer Rd., město Corona, stát Nové Mexiko. Je zde také Fannie Thomas, rezidentka bydlící na adrese 7890 River Road, ve městě Colorado Springs, ve státě Colorado.

Model extrahování entit z tohoto textu může mít následující předpovědi:

Entita	Předpovězeno jako	Skutečný typ
John Smith	Osoba	Osoba
Frederik	Osoba	Město
Forrest	Město	Osoba
Fannie Thomas	Osoba	Osoba
Colorado Springs	Město	Město

Vyhodnocení na úrovni entity pro entitu osoby

Model by měl pro entitu osoby následující vyhodnocení na úrovni entity:

Klíč	Počet	Vysvětlení
Skutečně pozitivní	2	John Smith a Fannie Thomas byli správně identifikováni jako osoby.
Falešně pozitivní výsledek	1	Frederick byl nesprávně rozpoznán jako člověk, zatímco by měl být město.
Falešně negativní	1	Forrest byl nesprávně předpovězen jako město, přitom by měl být osoba.

Přesnost: #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 1) = 0.67
Vzpomeňte si: #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 1) = 0.67
F1 Skóre: 2 * Precision * Recall / (Precision + Recall) = (2 * 0.67 * 0.67) / (0.67 + 0.67) = 0.67

Vyhodnocení na úrovni entit pro entitu města

Model by měl pro entitu města následující vyhodnocení na úrovni entity:

Klíč	Počet	Vysvětlení
Skutečně pozitivní	1	Colorado Springs bylo správně předpovězeno jako město.
Falešně pozitivní výsledek	1	Forrest byl nesprávně předpovězen jako město, přitom by měl být osoba.
Falešně negativní	1	Frederick byl nesprávně rozpoznán jako člověk, zatímco by měl být město.

Přesnost = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5
Odvolat = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5
F1 Score = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Vyhodnocení na úrovni modelu pro kolektivní model

Model by měl následující vyhodnocení v celém rozsahu:

Klíč	Počet	Vysvětlení
Skutečně pozitivní	3	John Smith a Fannie Thomas byli správně identifikováni jako osoby. Colorado Springs bylo správně předpovězeno jako město. Toto číslo je součet pravdivě pozitivních hodnot pro všechny entity.
Falešně pozitivní výsledek	2	Forrest byl nesprávně předpovězen jako město, přitom by měl být osoba. Frederick byl nesprávně rozpoznán jako člověk, zatímco by měl být město. Toto číslo je součet falešně pozitivních výsledků pro všechny entity.
Falešně negativní	2	Forrest byl nesprávně předpovězen jako město, přitom by měl být osoba. Frederick byl nesprávně rozpoznán jako člověk, zatímco by měl být město. Toto číslo je součet falešně negativních výsledků pro všechny entity.

Přesnost = #True_Positive / (#True_Positive + #False_Positive) = 3 / (3 + 2) = 0.6
Odvolat = #True_Positive / (#True_Positive + #False_Negatives) = 3 / (3 + 2) = 0.6
F1 Score = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.6 * 0.6) / (0.6 + 0.6) = 0.6

Interpretace metrik vyhodnocení na úrovni entit

Co tedy vlastně znamená mít pro určitou entitu vysokou přesnost nebo vysokou úplnost?

Odvolat	Přesnost	Interpretace
Vysoká	Vysoká	Model identifikoval entitu.
Malý zájem	Vysoká	Model nemůže tuto entitu vždy extrahovat, ale když se jí to podaří, je to s vysokou jistotou.
Vysoká	Malý zájem	Model extrahuje tuto entitu dobře; je však s nízkou spolehlivostí, protože je někdy klasifikována jako jiný typ.
Malý zájem	Malý zájem	Model tento typ entity neidentifikuje, protože se obvykle neextrahuje. Pokud je, není to s vysokou jistotou.

Pokyny

Po vytrénování modelu se zobrazí některé pokyny a doporučení, jak model vylepšit. Doporučuje se model, který pokrývá všechny body v části s pokyny.

Trénovací sada obsahuje dostatek dat: Pokud má typ entity méně než 15 příkladů označených v trénovacích datech, přesnost modelu klesne. K tomuto výsledku dochází, protože nemá dostatečnou expozici těmto případům. V tomto případě zvažte přidání dalších označených dat do trénovací sady. Další pokyny najdete na kartě distribuce dat.
Všechny typy entit jsou přítomné v testovací sadě: Pokud testovací data nemají popisované instance pro typ entity, může být výkon testu modelu méně komplexní kvůli neotestovaným scénářům. Další pokyny najdete na kartě distribuce dat testovací sady.
Typy entit jsou automaticky vyváženy v trénovacích a testovacích souborech: Pokud zaujatost ve vzorkování způsobí nepřesnou reprezentaci frekvence typů entit, může to vést k nižší přesnosti, protože model očekává, že se tyto typy vyskytují příliš často nebo málo. Další pokyny najdete na kartě distribuce dat.
Typy entit jsou rovnoměrně rozdělené mezi trénovací a testovací sady: Pokud se kombinace typů entit neshoduje mezi trénovacími a testovacími sadami, může vést k nižší přesnosti testování kvůli tomu, že se model trénuje odlišně od toho, jak se testuje. Další pokyny najdete na kartě distribuce dat.
Nejasný rozdíl mezi typy entit v trénovací sadě: Pokud jsou trénovací data podobná pro více typů entit, může to vést k nižší přesnosti, protože typy entit můžou být často nesprávně klasifikované jako navzájem. Zkontrolujte následující typy entit a zvažte jejich sloučení, pokud jsou podobné. V opačném případě přidejte další příklady, abyste je lépe odlišili od sebe. Můžete zkontrolovat kartu matice záměny pro další pokyny.

Matice zmatku

Konfuzní matice je N x N matice používaná pro vyhodnocení výkonu modelu, kde N je počet entit. Matice porovnává očekávané popisky s těmi, které model predikoval. Tato matice poskytuje ucelený pohled na to, jak dobře model funguje a jaké druhy chyb provádí.

Konfuzní matici můžete použít k identifikaci entit, které jsou příliš blízko sebe a často se mýlí (nejednoznačnost). V tomto případě zvažte sloučení těchto typů entit dohromady. Pokud to není možné, zvažte přidání dalších označených příkladů obou entit, které modelu pomáhají rozlišovat mezi nimi.

Zvýrazněná diagonála na následujícím obrázku představuje správně predikované entity, kde je predikovaný štítek stejný jako skutečný štítek.

Metriky vyhodnocení na úrovni entit a na úrovni modelu můžete vypočítat z konfuzní matice:

Hodnoty v diagonále jsou skutečné kladné hodnoty každé entity.
Součet hodnot v řádcích entity (s výjimkou diagonály) je falešně pozitivní výsledek modelu.
Součet hodnot ve sloupcích entity (s výjimkou diagonály) je falešně negativní hodnota modelu.

Podobně,

Pravý pozitivní výsledek modelu je součet pravých pozitiv pro všechny entity.
Falešně pozitivní výsledek modelu je součet falešně pozitivních výsledků pro všechny entity.
Falešně negativní hodnota modelu je součet falešně negativních výsledků pro všechny entity.

Další kroky

Trénovat model

Váš názor

Byla tato stránka užitečná?

Last updated on 2025-11-18