Dela via


Vad är en BLEU-poäng?

BLEU (Tvåspråkig utvärderingsunderstudy) är ett mått på skillnaden mellan en automatisk översättning och referensöversättningar som skapats av människor av samma källdom.

Bedömningsprocess

BLEU-algoritmen jämför efterföljande fraser i den automatiska översättningen med de efterföljande fraser som hittas i referensöversättningen och räknar antalet matchningar på ett viktat sätt. Dessa matchningar är oberoende av position. En högre matchningsgrad indikerar en högre grad av likhet med referensöversättningen och högre poäng. Begriplighet och grammatisk korrekthet beaktas inte.

Hur fungerar BLEU?

BLEU-poängens styrka är att den korrelerar väl med mänskligt omdöme. BLEU räknar ut individuella meningsbedömningsfel över en test corpus, snarare än att försöka utforma den exakta mänskliga domen för varje mening.

En mer omfattande diskussion om BLEU-poäng är här.

BLEU-resultaten beror starkt på bredden på din domän; konsekvens i test-, tränings- och justeringsdata. och hur mycket data du har tillgängliga för träning. Om dina modeller tränas inom en smal domän och dina träningsdata överensstämmer med dina testdata kan du förvänta dig en hög BLEU-poäng.

Kommentar

En jämförelse mellan BLEU-poäng kan bara motiveras när BLEU-resultaten jämförs med samma testuppsättning, samma språkpar och samma MT-motor. En BLEU-poäng från en annan testuppsättning kommer säkert att vara annorlunda.

Nästa steg