你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

什么是 BLEU 分数？

BLEU（双语评估候补）用于度量同一源语句的自动翻译与人工创建的参考翻译之间的差异。

评分过程

BLEU 算法将自动翻译的连续短语与它在参考翻译中找到的连续短语进行比较，并以加权方式对匹配项数进行计数。这些匹配项与位置无关。匹配度越高表示与参考翻译的相似度越高，分数也越高。不考虑可理解性和语法正确性。

BLEU 分数的优势在于，它与人类判断密切相关。 BLEU 对测试语料库中的单个句子判断错误进行平均，而不是试图为每个句子设计准确的人类判断。

此处更详细地讨论了 BLEU 分数。

BLEU 结果在很大程度上取决于域的范围；测试、训练和优化数据的一致性；以及可用于训练的数据量。如果模型是基于狭窄领域训练的，并且训练数据与测试数据一致，预计可以得到较高的 BLEU 分数。

注意

只有使用相同的测试集、相同的语言对和相同的 MT 引擎比较 BLEU 结果时，BLEU 分数之间的比较才有意义。使用的测试集不同，BLEU 分数也必定不同。