Che cos'è un punteggio BLEU?
BLEU (Bilingual Evaluation Understudy) è una misura delle differenze tra una traduzione automatica e traduzioni umane di riferimento della stessa frase di origine.
Processo di assegnazione dei punteggi
L'algoritmo BLEU confronta espressioni consecutive della traduzione automatica con le espressioni consecutive che trova nella traduzione di riferimento e conta il numero di corrispondenze in modo ponderato. Queste corrispondenze sono indipendenti dalla posizione. Un grado di corrispondenza superiore indica un livello di somiglianza superiore con la traduzione di riferimento e di conseguenza un punteggio più elevato. La chiarezza e la correttezza grammaticale non vengono prese in considerazione.
Come funziona BLEU?
Il punto di forza del punteggio BLEU è la capacità di stabilire una correlazione con il giudizio umano. BLEU calcola la media degli errori di giudizio di singole frasi su una raccolta di test, invece di cercare di definire l'esatto giudizio umano per ogni frase.
Una discussione più approfondita sui punteggi BLEU è disponibile qui.
I risultati di BLEU dipendono largamente dall'ampiezza del dominio, dalla coerenza dei dati di test, di training e di ottimizzazione e dalla quantità di dati disponibili per il training. Se il training dei modelli viene eseguito in un dominio ristretto e i dati del training sono coerenti con i dati di test, il punteggio BLEU dovrebbe essere elevato.
Nota
Un confronto tra punteggi BLEU è giustificabile solo quando i risultati BLEU vengono confrontati con lo stesso set di test, la stessa coppia di lingue e lo stesso motore di traduzione automatica. Un punteggio BLEU di un set di test diverso sarà necessariamente diverso.