다음을 통해 공유


BLEU 점수란?

BLEU(Bilingual Evaluation Understudy)는 자동 번역 및 동일한 소스 문장에 대해 사람이 만든 참조 번역 간의 차이를 측정한 것입니다.

점수 매기기 프로세스

BLEU 알고리즘은 자동 번역의 연속 구문을 참조 번역에서 찾은 연속 구문과 비교하고, 가중치가 적용된 방식으로 일치 항목의 수를 계산합니다. 이러한 일치 항목은 위치 독립적입니다. 높은 일치 수준은 참조 번역과 높은 수준의 유사성 및 높은 점수를 나타냅니다. 명확성 및 문법적 정확성은 고려 대상이 아닙니다.

BLEU가 작동하는 방식은?

BLEU 점수의 강점은 인간의 판단과 상관 관계가 있다는 것입니다. BLEU는 모든 문장에 대해 정확한 인간의 판단을 고려하려고 하지 않고 테스트 모음에 대해 개별 문장의 평균적인 판단 오류를 파악합니다.

BLEU 점수에 대한 자세한 설명은 여기에 있습니다.

BLEU 결과는 도메인의 너비, 테스트 일관성, 학습 및 데이터 튜닝 및 학습에 사용할 수 있는 데이터의 양에 따라 크게 좌우됩니다. 모델을 좁은 도메인에서 학습시키고 학습 데이터가 테스트 데이터와 일치하는 경우 높은 BLEU 점수를 예상할 수 있습니다.

참고 항목

BLEU 결과를 동일한 테스트 집합, 동일한 언어 쌍 및 동일한 MT 엔진과 비교할 경우 BLEU 점수 간 비교만이 타당합니다. 다른 테스트 집합에서 BLEU 점수는 다르게 마련입니다.

다음 단계