Sdílet prostřednictvím


Co je skóre BLEU?

BLEU (Bilingual Evaluation Understudy) je měření rozdílu mezi automatickým překladem a překlady odkazů vytvořenými lidmi stejné zdrojové věty.

Proces vyhodnocování

Algoritmus BLEU porovnává po sobě jdoucí fráze automatického překladu s po sobě jdoucími frázemi, které najde v referenčním překladu, a spočítá počet shod, váženým způsobem. Tyto shody jsou nezávislé na pozici. Vyšší stupeň shody označuje vyšší stupeň podobnosti s referenčním překladem a vyšším skóre. Srozumitelnost a gramatická správnost se neberou v úvahu.

Jak funguje BLEU?

Síla skóre BLEU je, že koreluje dobře s lidským úsudkem. BLEU zprůměruje chyby jednotlivých vět u testovacího korpusu, místo aby se pokusil navrhnout přesný lidský úsudek pro každou větu.

Tady je rozsáhlejší diskuze o skóre BLEU.

Výsledky BLEU závisí silně na šíři vaší domény; konzistence testů, trénování a ladění dat; a kolik dat máte k dispozici pro trénování. Pokud jsou vaše modely vytrénovány v úzké doméně a trénovací data jsou konzistentní s testovacími daty, můžete očekávat vysoké skóre BLEU.

Poznámka:

Porovnání skóre BLEU je možné pouze v případě, že se výsledky BLEU porovnávají se stejnou sadou testů, stejnou dvojicí jazyků a stejným motorem MT. Skóre BLEU z jiné testovací sady je vázáno na jiné.

Další kroky