Uwaga
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
BLEU (Dwujęzyczna ocena understudy) to pomiar różnicy między automatycznym tłumaczeniem a tłumaczeniami referencyjnymi utworzonymi przez człowieka w tym samym zdaniu źródłowym.
Proces oceniania
Algorytm BLEU porównuje kolejne frazy automatycznego tłumaczenia z kolejnymi frazami, które znajduje w tłumaczeniu referencyjnym, i zlicza liczbę dopasowań w sposób ważony. Te dopasowania są niezależne od pozycji. Wyższy stopień dopasowania wskazuje wyższy stopień podobieństwa z tłumaczeniem odwołania i wyższym wynikiem. Zrozumiałość i poprawność gramatyczna nie są uwzględniane.
Jak działa BLEU?
Siła wyniku BLEU jest taka, że dobrze koreluje z ludzkim osądem. BLEU średnio pojedynczy wyrok błędy osądu nad korpusem testowym, a nie próbuje opracować dokładny osąd człowieka dla każdego zdania.
Tutaj znajduje się bardziej obszerna dyskusja na temat wyników BLEU.
Wyniki BLEU są silnie zależne od szerokości domeny; spójność danych testowych, treningowych i dostrajających; oraz ilość danych dostępnych do trenowania. Jeśli modele są trenowane w wąskiej domenie, a dane treningowe są zgodne z danymi testowymi, możesz oczekiwać wysokiej oceny BLEU.
Uwaga
Porównanie wyników BLEU jest uzasadnione tylko wtedy, gdy wyniki BLEU są porównywane z tym samym zestawem testów, tą samą parą języków i tym samym aparatem MT. Wynik BLEU z innego zestawu testów jest powiązany z innym zestawem testów.