병렬 문서의 문장 페어링 및 정렬
문서를 업로드한 후에는 병렬 문서에 있는 문장이 페어링되거나 정렬됩니다. Custom Translator는 페어링한 문장의 개수를 각 데이터 세트에서 정렬된 문장으로 보고합니다.
페어링 및 정렬 프로세스
Custom Translator는 한 번에 한 문장씩 문장의 번역을 학습합니다. 원본 텍스트에서 문장을 읽은 다음 대상 텍스트에서 이 문장의 번역을 읽습니다. 그런 다음 두 문장의 단어와 구문을 서로 정렬합니다. 이 프로세스를 통해 하나의 문장에 포함된 단어와 구문이 이 문장의 번역에 포함된 동등한 단어와 구문으로 매핑됩니다. 정렬 과정에서는 시스템이 서로가 서로의 번역인 문장을 훈련하도록 확인하는 작업이 이루어집니다.
사전 정렬된 문서
병렬 문서가 있는 경우 미리 맞춤된 텍스트 파일을 제공하여 문장 맞춤을 재정의할 수 있습니다. 두 문서에서 모든 문장을 텍스트 파일로 추출하고 한 줄에 한 문장씩 구성한 다음 .align
확장자로 업로드하면 됩니다. Custom Translator는 .align
확장자가 입력되면 문장 정렬을 건너뜁니다.
최상의 결과를 얻으려면 파일에서 한 줄에 한 문장이 들어가도록 하세요. 문장 안에 줄 바꿈 문자가 있으면 정렬이 제대로 이루어지지 않으니 주의하세요.
권장 최소 문장 수
학습이 성공하려면 다음 표에서 각 문서 형식에서 필요한 최소 문장 수가 나와 있습니다. 이러한 제한 사항은 병렬 문장에 번역 모델을 성공적으로 학습시킬 수 있는 충분한 고유 어휘가 포함되도록 하는 안전망입니다. 일반 지침은 인간 번역 품질의 도메인 내 병렬 문장이 많을수록 생성되는 모델의 품질이 높아진다는 것입니다.
Document type | 권장 최소 문장 수 | 최대 문장 수 |
---|---|---|
학습 | 10,000 | 상한 없음 |
튜닝 | 500 | 2,500 |
테스팅 | 500 | 2,500 |
Dictionary | 0 | 250,000 |
참고 항목