Was ist eine BLEU-Bewertung?
BLEU (Bilingual Evaluation Understudy) ist eine Messung des Unterschieds zwischen einer automatischen Übersetzung und menschlichen Referenzübersetzungen desselben Ausgangssatzes.
Bewertungsprozess
Mit dem BLEU-Algorithmus werden aufeinander folgende Wortgruppen der automatischen Übersetzung mit den aufeinander folgenden Wortgruppen der Referenzübersetzung verglichen, und die Anzahl von Übereinstimmungen wird gezählt (mit Gewichtung). Diese Übereinstimmungen gelten unabhängig von der Position. Ein höherer Übereinstimmungsgrad weist auf eine höhere Ähnlichkeit mit der Referenzübersetzung hin und führt zu einem höheren Ergebnis. Die Verständlichkeit und die grammatische Korrektheit werden nicht berücksichtigt.
Wie funktioniert BLEU?
Die Stärke der BLEU-Bewertung liegt darin, dass sie gut mit menschlichem Urteil korreliert. BLEU achtet wird nicht auf einzelne Fehler bei der Satzbeurteilung, sondern betrachtet den gesamten zu testenden Korpus, anstatt zu versuchen, eine präzise menschliche Beurteilung für jeden Satz zu erzielen.
Eine ausführlichere Beschreibung von BLEU-Bewertungen finden Sie hier.
BLEU-Ergebnisse sind stark davon abhängig, welche Breite Ihr Fachgebiet aufweist, wie konsistent Ihre Test-, Trainings- und Optimierungsdaten sind und wie viele Daten für das Trainieren zur Verfügung stehen. Wenn Ihre Modelle innerhalb einer eng gefassten Domäne trainiert wird und Ihre Trainingsdaten mit Ihren Testdaten übereinstimmen, können Sie eine hohe BLEU-Bewertung erwarten.
Hinweis
Ein Vergleich zwischen BLEU-Bewertungen ist nur sinnvoll, wenn die BLEU-Ergebnisse mit demselben Testdatensatz, dem gleichen Sprachpaar und derselben MT-Engine verglichen werden. Eine BLEU-Bewertung für einen anderen Testdatensatz fällt mit Sicherheit anders aus.