Share via


Utvärderingsmått för anpassade namngivna entitetsigenkänningsmodeller

Din datauppsättning är uppdelad i två delar: en uppsättning för träning och en uppsättning för testning. Träningsuppsättningen används för att träna modellen, medan testuppsättningen används som ett modelltest efter träning för att beräkna modellens prestanda och utvärdering. Testuppsättningen introduceras inte i modellen genom träningsprocessen för att se till att modellen testas på nya data.

Modellutvärderingen utlöses automatiskt när träningen har slutförts. Utvärderingsprocessen börjar med att använda den tränade modellen för att förutsäga användardefinierade entiteter för dokument i testuppsättningen och jämför dem med de angivna datataggar (som fastställer en baslinje för sanning). Resultaten returneras så att du kan granska modellens prestanda. För utvärdering använder anpassad NER följande mått:

  • Precision: Mäter hur exakt/exakt din modell är. Det är förhållandet mellan de korrekt identifierade positiva identifieringarna (sanna positiva identifieringar) och alla identifierade positiva identifieringar. Precisionsmåttet visar hur många av de förutsagda entiteterna som är korrekt märkta.

    Precision = #True_Positive / (#True_Positive + #False_Positive)

  • Träffsäkerhet: Mäter modellens förmåga att förutsäga faktiska positiva klasser. Det är förhållandet mellan de förutsagda sanna positiva och vad som faktiskt taggades. Träffsäkerhetsmåttet visar hur många av de förutsagda entiteterna som är korrekta.

    Recall = #True_Positive / (#True_Positive + #False_Negatives)

  • F1-poäng: F1-poängen är en funktion med precision och träffsäkerhet. Det behövs när du söker en balans mellan Precision och Träffsäkerhet.

    F1 Score = 2 * Precision * Recall / (Precision + Recall)

Anteckning

Precisions-, träffsäkerhets- och F1-poäng beräknas för varje entitet separat (utvärdering på entitetsnivå ) och för modellen tillsammans (utvärdering på modellnivå ).

Utvärderingsmått på modellnivå och entitetsnivå

Precisions-, träffsäkerhets- och F1-poäng beräknas för varje entitet separat (utvärdering på entitetsnivå) och för modellen tillsammans (utvärdering på modellnivå).

Definitionerna för precision, träffsäkerhet och utvärdering är desamma för utvärderingar på både entitetsnivå och modellnivå. Antalet sanna positiva identifieringar, falska positiva identifieringar och falska negativa identifieringar kan dock variera. Tänk dig till exempel följande text.

Exempel

Den första parten i detta kontrakt är John Smith, bosatt i 5678 Main Rd., City of Frederick, delstaten Nebraska. Och den andra parten är Forrest Ray, bosatt i 123-345 Integer Rd., City of Corona, delstaten New Mexico. Det finns också Fannie Thomas bosatt i 7890 River Road, staden Colorado Springs, State of Colorado.

Modellen som extraherar entiteter från den här texten kan ha följande förutsägelser:

Entitet Förutsagd som Faktisk typ
John Smith Person Person
Frederick Person City
Forrest City Person
Fannie Thomas Person Person
Colorado Fjädrar City City

Utvärdering på entitetsnivå för personentiteten

Modellen skulle ha följande utvärdering på entitetsnivå för personentiteten :

Nyckel Antal Förklaring
Sann positiv händelse 2 John Smith och Fannie Thomas förutspåddes korrekt som person.
Falsk positiv händelse 1 Frederick förutspåddes felaktigt som person medan det borde ha varit stad.
Falsk negativ händelse 1 Forrest förutspåddes felaktigt som stad medan den borde ha varit person.
  • Precision: #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 1) = 0.67
  • Återkalla: #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 1) = 0.67
  • F1-poäng: 2 * Precision * Recall / (Precision + Recall) = (2 * 0.67 * 0.67) / (0.67 + 0.67) = 0.67

Utvärdering på entitetsnivå för ortentiteten

Modellen skulle ha följande utvärdering på entitetsnivå för entiteten city :

Nyckel Antal Förklaring
Sann positiv händelse 1 Colorado Springs förutspåddes korrekt som stad.
Falsk positiv händelse 1 Forrest förutspåddes felaktigt som stad medan den borde ha varit person.
Falsk negativ händelse 1 Frederick förutspåddes felaktigt som person medan det borde ha varit stad.
  • Precision = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5
  • Minns = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5
  • F1-poäng = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Utvärdering på modellnivå för den kollektiva modellen

Modellen skulle ha följande utvärdering för modellen i sin helhet:

Nyckel Antal Förklaring
Sann positiv händelse 3 John Smith och Fannie Thomas förutspåddes korrekt som person. Colorado Springs förutspåddes korrekt som stad. Det här är summan av sanna positiva identifieringar för alla entiteter.
Falsk positiv händelse 2 Forrest förutspåddes felaktigt som stad medan den borde ha varit person. Frederick förutspåddes felaktigt som person medan det borde ha varit stad. Det här är summan av falska positiva identifieringar för alla entiteter.
Falsk negativ händelse 2 Forrest förutspåddes felaktigt som stad medan den borde ha varit person. Frederick förutspåddes felaktigt som person medan det borde ha varit stad. Det här är summan av falska negativa identifieringar för alla entiteter.
  • Precision = #True_Positive / (#True_Positive + #False_Positive) = 3 / (3 + 2) = 0.6
  • Minns = #True_Positive / (#True_Positive + #False_Negatives) = 3 / (3 + 2) = 0.6
  • F1-poäng = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.6 * 0.6) / (0.6 + 0.6) = 0.6

Tolka utvärderingsmått på entitetsnivå

Så vad innebär det egentligen att ha hög precision eller hög träffsäkerhet för en viss entitet?

Recall Precision Tolkning
Högt Högt Den här entiteten hanteras väl av modellen.
Lågt Högt Modellen kan inte alltid extrahera den här entiteten, men när den gör det är den med hög konfidens.
Högt Lågt Modellen extraherar den här entiteten väl, men den är med låg konfidens eftersom den ibland extraheras som en annan typ.
Låg Låg Den här entitetstypen hanteras dåligt av modellen, eftersom den vanligtvis inte extraheras. När det är det är det inte med hög tillförsikt.

Vägledning

När du har tränat din modell får du vägledning och rekommendationer om hur du kan förbättra modellen. Vi rekommenderar att du har en modell som täcker alla punkter i vägledningsavsnittet.

  • Träningsuppsättningen har tillräckligt med data: När en entitetstyp har färre än 15 märkta instanser i träningsdata kan det leda till lägre noggrannhet på grund av att modellen inte tränas tillräckligt i dessa fall. I det här fallet bör du överväga att lägga till mer märkta data i träningsuppsättningen. Mer information finns på fliken för datadistribution .

  • Alla entitetstyper finns i testuppsättningen: När testdata saknar märkta instanser för en entitetstyp kan modellens testprestanda bli mindre omfattande på grund av otestade scenarier. Du kan kontrollera datadistributionsfliken för testuppsättningen om du vill ha mer vägledning.

  • Entitetstyper balanseras inom tränings- och testuppsättningar: När samplingsfördomar orsakar en felaktig representation av en entitetstyps frekvens kan det leda till lägre noggrannhet på grund av att modellen förväntar sig att entitetstypen ska ske för ofta eller för lite. Mer information finns på fliken för datadistribution .

  • Entitetstyper fördelas jämnt mellan tränings- och testuppsättningar: När blandningen av entitetstyper inte matchar mellan tränings- och testuppsättningar kan det leda till lägre testnoggrannhet på grund av att modellen tränas annorlunda än den som testas. Mer information finns på fliken för datadistribution .

  • Oklar skillnad mellan entitetstyper i träningsuppsättning: När träningsdata liknar varandra för flera entitetstyper kan det leda till lägre noggrannhet eftersom entitetstyperna ofta felklassificeras som varandra. Granska följande entitetstyper och överväg att slå samman dem om de är liknande. Annars lägger du till fler exempel för att bättre skilja dem från varandra. Du kan kontrollera fliken för felmatris för mer vägledning.

Förvirringsmatris

En förvirringsmatris är en N x N-matris som används för utvärdering av modellprestanda, där N är antalet entiteter. Matrisen jämför de förväntade etiketterna med de som förutsägs av modellen. Detta ger en holistisk bild av hur bra modellen presterar och vilka typer av fel den gör.

Du kan använda förvirringsmatrisen för att identifiera entiteter som är för nära varandra och ofta misstas (tvetydighet). I det här fallet bör du överväga att slå samman dessa entitetstyper. Om det inte är möjligt kan du överväga att lägga till fler taggade exempel på båda entiteterna för att hjälpa modellen att skilja mellan dem.

Den markerade diagonalen i bilden nedan är de korrekt förutsagda entiteterna, där den förutsagda taggen är samma som den faktiska taggen.

En skärmbild som visar ett exempel på en förvirringsmatris.

Du kan beräkna utvärderingsmåtten på entitetsnivå och modellnivå från felmatrisen:

  • Värdena på diagonalen är sanna positiva värden för varje entitet.
  • Summan av värdena i entitetsraderna (exklusive diagonalen) är modellens falska positiva identifiering .
  • Summan av värdena i entitetskolumnerna (exklusive diagonalen) är modellens falska negativa .

På samma sätt:

  • Den sanna positiva för modellen är summan av sanna positiva identifieringar för alla entiteter.
  • Modellens falska positiva resultat är summan av falska positiva identifieringar för alla entiteter.
  • Modellens falska negativa är summan av falska negativa identifieringar för alla entiteter.

Nästa steg