Что такое оценка BLEU?
BLEU (Bilingual Evaluation Understudy) — это измерение различий между автоматическим переводом и эталонными переводами того же предложения, выполненными людьми.
Процесс оценки
Алгоритм BLEU сравнивает последовательные фразы автоматического перевода с последовательными фразами, которые он находит в эталонном переводе, и взвешенно подсчитывает количество совпадений. Эти совпадения не зависят от позиции. Высшая степень совпадения указывает на более высокую степень сходства с эталонным переводом и более высокий балл. Внятность и грамматика не учитываются.
Как работает BLEU
Преимущество алгоритма BLEU в том, что он хорошо коррелирует с оценками пользователей. Он усредняет число ошибок в отдельных предложениях для всего тестового набора, вместо того чтобы пытаться разработать точную оценку пользователя для каждого предложения.
Более подробные сведения об оценках BLEU см. в этой статье.
Результаты BLEU сильно зависят от обширности предметной области, согласованности тестовых данных, данных для обучения и настройки, а также от того, сколько данных у вас есть для обучения. Если модели обучены в узком домене, а данные обучения соответствуют тестовых данных, вы можете ожидать высокую оценку BLEU.
Примечание.
Сравнение оценок BLEU оправдано только в том случае, когда результаты BLEU сравниваются с тем же тестовым набором, той же языковой парой и тем же модулем машинного перевода. Оценка BLEU из другого тестового набора должна отличаться.