Wat is een BLEU-score?

BLEU (Tweetalige Evaluatie Understudy) is een meting van het verschil tussen een automatische vertaling en door de mens gemaakte referentievertalingen van dezelfde bronzin.

Scoreproces

Het BLEU-algoritme vergelijkt opeenvolgende zinnen van de automatische vertaling met de opeenvolgende zinnen die in de verwijzingsvertaling worden gevonden en telt het aantal overeenkomsten op een gewogen manier. Deze overeenkomsten zijn positie-onafhankelijk. Een hogere overeenkomstgraad duidt op een hogere mate van overeenkomst met de verwijzingsvertaling en een hogere score. Er wordt geen rekening gehouden met begrijpelijkheid en grammaticale juistheid.

Hoe werkt BLEU?

De kracht van de BLEU-score is dat deze goed correleert met menselijk oordeel. BLEU berekent het gemiddelde van individuele beoordelingsfouten in een test, in plaats van het exacte menselijke oordeel voor elke zin te bepalen.

Hier vindt u een uitgebreidere bespreking van BLEU-scores.

BLEU-resultaten zijn sterk afhankelijk van de breedte van uw domein; consistentie van test-, training- en afstemmingsgegevens; en hoeveel gegevens beschikbaar zijn voor training. Als uw modellen zijn getraind in een beperkt domein en uw trainingsgegevens consistent zijn met uw testgegevens, kunt u een hoge BLEU-score verwachten.

Notitie

Een vergelijking tussen BLEU-scores is alleen te rechtvaardigen wanneer BLEU-resultaten worden vergeleken met dezelfde testset, hetzelfde taalpaar en dezelfde MT-engine. Een BLEU-score van een andere testset zal zeker anders zijn.

Volgende stappen