什麼是 BLEU 分數？

文章
07/20/2023

BLEU (雙語評估互補) 是指對於相同來源句子的自動翻譯與人工參考翻譯之間的差異所做的量測。

評分程序

BLEU 演算法會比較自動翻譯的連續片語與它在參考翻譯中找到的連續片語，並以加權方式計算相符項數目。這些相符項與位置無關。相符程度越高，與參考翻譯的相似度就越高，分數也就越高。可理解度和文法的正確性不會列入考量。

BLEU 的運作方式為何？

BLEU 分數的強度在於其與人類判斷有良好的相互關聯。 BLEU 針對測試主體算出個別句子判斷錯誤的平均值，而不是試圖找出每個句子確切的人為判斷。

如需 BLEU 分數的詳細討論，請參閱這裡。

BLEU 結果有很大一部分取決於您領域的廣度、測試、定型和調整資料的一致性，以及可用於定型的資料量。如果您的模型已在較窄的領域中定型，且您的定型資料與測試資料相一致，則可望會有較高的 BLEU 分數。

注意

以相同的測試集、相同的語言組和相同的 MT 引擎比較 BLEU 結果時，BLEU 分數的比較才有正當性。來自不同測試集的 BLEU 分數必定是不同的。

下一步

BLEU 分數評估

意見反映

即將推出：我們會在 2024 年淘汰 GitHub 問題，並以全新的意見反應系統取代並作為內容意見反應的渠道。如需更多資訊，請參閱：https://aka.ms/ContentUserFeedback。

提交及檢視以下的意見反映：

本產品本頁

檢視所有頁面的意見反映