BLEU スコアとは
BLEU (Bilingual Evaluation Understudy) は、同じ原文の自動翻訳と人間が作成した参考翻訳との違いの測定単位です。
スコアリング プロセス
BLEU アルゴリズムでは、自動翻訳の連続するフレーズと、参考翻訳に含まれる連続するフレーズとが比較され、一致数がカウントされ、重み付けされた形式で表示されます。 これらの一致は、位置とは独立しています。 一致度が高くなるほど、参考翻訳との類似度が高くなり、スコアも高くなります。 明瞭さと文法上の正確さは考慮されていません。
BLEU のしくみ
BLEU スコアの長所は、人間の判断との相関性が高いことです。 BLEU では、すべての文に対して正確な人間の判断を下そうと試みるのではなく、テスト コーパス全体で個々の文の誤判断を平均化します。
BLEU スコアの詳細なディスカッションについては、こちらを参照してください。
BLEU の結果は、ドメインの広さ、テスト、トレーニング、およびチューニング データの一貫性、トレーニングに使用できるデータの量によって大きく左右されます。 狭いドメイン内でモデルがトレーニングされ、トレーニング データとテスト データとの一貫性がある場合は、BLEU スコアが高くなることが予想されます。
Note
BLEU スコア間の比較は、BLEU 結果が同じテスト セット、同じ言語ペア、および同じ MT エンジンと比較された場合にのみ、正当と認められます。 異なるテスト セットの BLEU スコアは、別と見なす必要があります。