Delen via


Wat is een BLEU-score?

BLEU (Tweetalige Evaluatie Understudy) is een meting van het verschil tussen een automatische vertaling en door mensen gemaakte referentievertalingen van dezelfde bronzin.

Scoreproces

Het ALGORITHM vergelijkt opeenvolgende zinnen van de automatische vertaling met de opeenvolgende zinnen die in de verwijzingsomzetting worden gevonden en telt het aantal overeenkomsten op een gewogen manier. Deze overeenkomsten zijn positie-onafhankelijk. Een hogere overeenkomstgraad geeft een hogere mate van gelijkenis aan met de verwijzingsomzetting en een hogere score. Er wordt geen rekening gehouden met begrijpelijkheid en grammaticale juistheid.

Hoe WERKT BLEU?

De kracht van de BLEU-score is dat het goed correleert met menselijk oordeel. BLEU gemiddelden individuele beoordelingsfouten over een testlichaam, in plaats van het exacte menselijke oordeel voor elke zin te bedenken.

Er is hier een uitgebreidere bespreking van DE SCORES van DE BLEU.

DE RESULTATEN VAN DE GEGEVENS ZIJN sterk afhankelijk van de breedte van uw domein; consistentie van test-, trainings- en afstemmingsgegevens; en hoeveel gegevens u beschikbaar hebt voor training. Als uw modellen worden getraind binnen een smal domein en uw trainingsgegevens consistent zijn met uw testgegevens, kunt u een hoge BLEU-score verwachten.

Notitie

Een vergelijking tussen BLEU-scores is slechts rechtvaardig wanneer DE RESULTATEN van DE BLAUW WORDEN vergeleken met dezelfde testset, hetzelfde taalpaar en dezelfde MT-engine. Een BLEU-score uit een andere testset moet anders zijn.

Volgende stappen