Share via


Vad är en BLEU-poäng?

BLEU (Tvåspråkig utvärdering inhoppare) är ett mått på skillnaden mellan en automatisk översättning och referensöversättningar som skapats av människor av samma källord.

Bedömningsprocess

BLEU-algoritmen jämför på varandra följande fraser i den automatiska översättningen med de efterföljande fraser som hittas i referensöversättningen och räknar antalet matchningar på ett viktat sätt. Dessa matchningar är oberoende av position. En högre matchningsgrad indikerar en högre grad av likhet med referensöversättningen och högre poäng. Begriplighet och grammatisk korrekthet beaktas inte.

Hur fungerar BLEU?

BLEU-poängens styrka är att den korrelerar väl med mänskligt omdöme. BLEU räknar ut enskilda meningsbedömningsfel över en testkorus, snarare än att försöka utforma den exakta mänskliga domen för varje mening.

En mer omfattande diskussion om BLEU-poäng är här.

BLEU-resultat beror starkt på bredden på din domän; konsekvens för test-, tränings- och justeringsdata. och hur mycket data du har tillgängliga för träning. Om dina modeller har tränats på en smal domän och dina träningsdata är konsekventa med dina testdata kan du förvänta dig en hög BLEU-poäng.

Anteckning

En jämförelse mellan BLEU-poäng kan bara motiveras när BLEU-resultaten jämförs med samma testuppsättning, samma språkpar och samma MT-motor. En BLEU-poäng från en annan testuppsättning kommer säkert att vara annorlunda.

Nästa steg