Compartilhar via


O que é uma pontuação no BLEU?

BLEU (Bilingual Evaluation Understudy) é uma medida da diferença entre uma tradução automática e traduções de referência criadas por humanos da mesma sentença fonte.

Processo de pontuação

O algoritmo BLEU compara frases consecutivas da tradução automática com as frases consecutivas encontradas na tradução de referência e conta o número de correspondências, de maneira ponderada. Essas correspondências são independentes de posição. Um maior grau de correspondência indica um maior grau de similaridade com a tradução de referência e maior pontuação. A legibilidade e a exatidão gramatical não são consideradas.

Como funciona o BLEU?

O ponto forte da pontuação do BLEU é que ela se correlaciona bem com o julgamento humano. O BLEU calcula a média dos erros de julgamento das sentenças individuais no corpo de teste em vez de tentar produzir um julgamento humano preciso para cada sentença.

É uma discussão mais ampla de pontuações BLEU aqui.

Os resultados do BLEU dependem muito do escopo do campo, da consistência dos dados para testes, treinamento e ajuste, e de quantos dados você tem disponíveis para treinamento. Se seus modelos foram treinados em um domínio restrito e seus dados de treinamento são consistentes com seus dados de teste, você pode esperar uma alta pontuação no BLEU.

Observação

Uma comparação entre as pontuações BLEU só é justificável quando BLEU resultados são comparados com o mesmo conjunto de teste, o mesmo par de idioma e o mesmo mecanismo MT. Uma pontuação de BLEU de um conjunto de testes diferente é obrigada a ser diferente.

Próximas etapas