Co je skóre BLEU?

BLEU (Bilingual Evaluation Understudy) je měření rozdílu mezi automatickým překladem a lidmi vytvořenými referenčními překlady stejné zdrojové věty.

Proces bodování

Algoritmus BLEU porovnává po sobě jdoucí fráze automatického překladu s po sobě jdoucími frázemi, které najde v referenčním překladu, a počítá počet shod , a to váženým způsobem. Tyto shody jsou nezávislé na pozici. Vyšší stupeň shody označuje vyšší stupeň podobnosti s referenčním překladem a vyšší skóre. Srozumitelnost a gramatická správnost se neberou v úvahu.

Jak BLEU funguje?

Síla skóre BLEU spočívá v tom, že dobře koreluje s lidským úsudkem. BLEU průměruje chyby v jednotlivých větách nad testovacím korpusem, místo aby se pokusil navrhnout přesný lidský úsudek pro každou větu.

Podrobnější diskuse o skóre BLEU je zde.

Výsledky BLEU silně závisí na šíři vaší domény; konzistence údajů o testování, trénování a ladění; a kolik dat máte k dispozici pro trénování. Pokud se vaše modely vytrénovaly v úzké doméně a trénovací data jsou konzistentní s testovacími daty, můžete očekávat vysoké skóre BLEU.

Poznámka

Porovnání skóre BLEU je možné pouze v případě, že se výsledky BLEU porovnávají se stejnou testovací sadou, stejnou dvojicí jazyků a stejným motorem MT. Skóre BLEU z jiné testovací sady se musí lišit.

Další kroky