Udostępnij za pośrednictwem


Co to jest wskaźnik BLEU?

BLEU (Dwujęzyczna ocena understudy) to pomiar różnicy między automatycznym tłumaczeniem a tłumaczeniami referencyjnymi utworzonymi przez człowieka w tym samym zdaniu źródłowym.

Proces oceniania

Algorytm BLEU porównuje kolejne frazy automatycznego tłumaczenia z kolejnymi frazami, które znajduje w tłumaczeniu referencyjnym, i zlicza liczbę dopasowań w sposób ważony. Te dopasowania są niezależne od pozycji. Wyższy stopień dopasowania wskazuje wyższy stopień podobieństwa z tłumaczeniem odwołania i wyższym wynikiem. Zrozumiałość i poprawność gramatyczna nie są uwzględniane.

Jak działa BLEU?

Siła wyniku BLEU jest taka, że dobrze koreluje z ludzkim osądem. BLEU średnio pojedynczy wyrok błędy osądu nad korpusem testowym, a nie próbuje opracować dokładny osąd człowieka dla każdego zdania.

Tutaj znajduje się bardziej obszerna dyskusja na temat wyników BLEU.

Wyniki BLEU są silnie zależne od szerokości domeny; spójność danych testowych, treningowych i dostrajających; oraz ilość danych dostępnych do trenowania. Jeśli modele są trenowane w wąskiej domenie, a dane treningowe są zgodne z danymi testowymi, możesz oczekiwać wysokiej oceny BLEU.

Uwaga

Porównanie wyników BLEU jest uzasadnione tylko wtedy, gdy wyniki BLEU są porównywane z tym samym zestawem testów, tą samą parą języków i tym samym aparatem MT. Wynik BLEU z innego zestawu testów jest powiązany z innym zestawem testów.

Następne kroki