Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
BLEU (Bilingual Evaluation Understudy) è una misura delle differenze tra una traduzione automatica e traduzioni umane di riferimento della stessa frase di origine.
Processo di assegnazione dei punteggi
L'algoritmo BLEU confronta espressioni consecutive della traduzione automatica con le espressioni consecutive che trova nella traduzione di riferimento e conta il numero di corrispondenze in modo ponderato. Queste corrispondenze sono indipendenti dalla posizione. Un grado di corrispondenza superiore indica un livello di somiglianza superiore con la traduzione di riferimento e di conseguenza un punteggio più elevato. La chiarezza e la correttezza grammaticale non vengono prese in considerazione.
Come funziona BLEU?
Il punto di forza del punteggio BLEU è la capacità di stabilire una correlazione con il giudizio umano. BLEU calcola la media degli errori di giudizio di singole frasi su una raccolta di test, invece di cercare di definire l'esatto giudizio umano per ogni frase.
Per una discussione più approfondita dei punteggi BLEU, vedereMicrosoft Translator Hub - Discussione del punteggio BLEU. I risultati di BLEU dipendono largamente dall'ampiezza del dominio, dalla coerenza dei dati di test, di training e di ottimizzazione e dalla quantità di dati disponibili per il training. Se il training dei modelli viene eseguito in un dominio ristretto e i dati del training sono coerenti con i dati di test, il punteggio BLEU dovrebbe essere elevato.
Annotazioni
Un confronto tra punteggi BLEU è giustificabile solo quando i risultati BLEU vengono confrontati con lo stesso set di test, la stessa coppia di lingue e lo stesso motore di traduzione automatica. Un punteggio BLEU di un set di test diverso sarà necessariamente diverso.