Share via


초보자를 위한 Custom Translator

Custom Translator를 사용하면 비즈니스, 산업 및 도메인별 용어와 스타일을 반영하는 번역 시스템을 빌드할 수 있습니다. 사용자 지정 시스템을 학습하고 배포하는 것은 쉽고 프로그래밍 기술이 필요하지 않습니다. 사용자 지정된 번역 시스템은 기존 애플리케이션, 워크플로 및 웹 사이트에 원활하게 통합되며, 매일 수십억 개의 번역을 지원하는 동일한 클라우드 기반 Microsoft Text Translation API 서비스를 통해 Azure에서 사용할 수 있습니다.

플랫폼을 통해 사용자는 영어 간 사용자 지정 번역 시스템을 빌드하고 게시할 수 있습니다. Custom Translator는 NMT에 사용할 수 있는 언어에 직접 매핑되는 60개가 넘는 언어를 지원합니다. 전체 목록은 번역기 언어 지원참조하세요.

사용자 지정 번역 모델이 나에게 적합한 선택인가요?

잘 학습된 사용자 지정 번역 모델은 이전에 번역된 도메인 내 문서를 사용하여 기본 번역을 학습하기 때문에 더 정확한 도메인별 번역을 제공합니다. Translator는 컨텍스트에서 이러한 용어와 구를 사용하여 컨텍스트 종속 문법에 따라 유창한 번역을 대상 언어로 생성합니다.

전체 사용자 지정 번역 모델을 학습시키려면 상당한 양의 데이터가 필요합니다. 이전에 학습된 문서의 문장이 10,000개 이상 없으면 전체 언어 번역 모델을 학습시킬 수 없습니다. 하지만 사전 전용 모델을 학습시키거나 Text Translation API에서 사용할 수 있는 고품질의 기본 제공 번역을 사용할 수도 있습니다.

Screenshot illustrating the difference between custom and general models.

사용자 지정 번역 모델 학습에 포함되는 작업은 무엇인가요?

사용자 지정 번역 모델을 빌드하려면 다음이 필요합니다.

  • 사용 사례 이해

  • 도메인 내 번역된 데이터 가져오기(사람이 번역한 것이 좋음)

  • 번역 품질 또는 대상 언어 번역을 평가하는 기능

사용 사례를 평가하려면 어떻게 할까요?

사용 사례와 성공에 대해 명확하게 파악하는 것이 숙련된 학습 데이터를 소싱하는 첫 번째 단계입니다. 다음은 몇 가지 고려 사항입니다.

  • 원하는 결과는 무엇이며 어떻게 측정하나요?

  • 비즈니스 도메인은 무엇인가요?

  • 용어와 스타일이 비슷한 도메인 내 문장이 있나요?

  • 사용 사례에 여러 도메인이 포함되나요? 그렇다면 하나의 번역 시스템 또는 여러 시스템을 빌드해야 하나요?

  • 미사용 및 전송 중 지역 데이터 보존에 영향을 주는 요구 사항이 있나요?

  • 대상 사용자가 하나 또는 여러 지역에 있나요?

내 데이터를 소싱하려면 어떻게 해야 하나요?

도메인 내 품질 데이터를 찾는 것이 사용자 분류에 따라 달라지는 어려운 작업인 경우가 많습니다. 사용할 수 있는 데이터를 평가할 때 직접 물어볼 수 있는 몇 가지 질문은 다음과 같습니다.

  • 기업에는 인간 번역을 사용하여 수년에 걸쳐 누적된 풍부한 번역 데이터가 있는 경우가 많습니다. 회사에 사용할 수 있는 이전 번역 데이터가 있나요?

  • 방대한 양의 단일 언어 데이터가 있나요? 단일 언어 데이터는 하나의 언어로만 된 데이터입니다. 그렇다면 이 데이터에 대한 번역을 얻을 수 있나요?

  • 온라인 포털을 크롤링하여 원본 문장을 수집하고 대상 문장을 합성할 수 있나요?

학습 자료에 사용할 수 있는 것은 무엇인가요?

원본 수행하는 작업 따라야 할 규칙
이중 언어 학습 문서 시스템에서 용어와 스타일을 학습합니다. 자유롭게 수행해야 합니다. 도메인 내 인간 번역이 기계 번역보다 낫습니다. 이동하면서 문서를 추가 및 제거하고, BLEU 점수를 높이려고 합니다.
튜닝 문서 인공신경망 기계 번역 매개 변수를 학습시킵니다. 엄격해야 합니다. 나중에 번역할 내용을 최적의 방식으로 나타내도록 작성합니다.
테스트 문서 BLEU 점수를 계산합니다. 엄격해야 합니다. 나중에 번역하려는 내용을 최적으로 대표하도록 테스트 문서를 작성합니다.
구 사전 항상 지정된 번역을 강제로 적용합니다. 제한적이어야 합니다. 구 사전은 대/소문자를 구분하며 나열된 단어 또는 구는 지정한 방식으로 번역됩니다. 대부분의 경우 구 사전을 사용하지 않고 시스템에서 학습하도록 하는 것이 좋습니다.
문장 사전 항상 지정된 번역을 강제로 적용합니다. 엄격해야 합니다. 문장 사전은 대/소문자를 구분하지 않으며 일반적인 도메인 내 짧은 문장에 적합합니다. 문장 사전 일치가 발생하려면 제출된 전체 문장이 원본 사전 항목과 일치해야 합니다. 문장의 부분만 일치하는 경우에는 항목이 일치하지 않습니다.

BLEU 점수란?

BLEU(Bilingual Evaluation Understudy)는 한 언어에서 다른 언어로 기계 번역된 텍스트의 정밀도 또는 정확도를 평가하기 위한 알고리즘입니다. Custom Translator는 번역 정확도를 전달하는 한 가지 방법으로 BLEU 메트릭을 사용합니다.

BLEU 점수는 0~100의 숫자입니다. 0의 점수는 번역에서 참조와 일치하는 항목이 전혀 없는 저품질 번역을 나타냅니다. 100의 점수는 참조와 번역이 완전히 동일함을 나타냅니다. 100점을 획득할 필요는 없습니다. 40~60의 BLEU 점수는 고품질 번역을 나타냅니다.

자세히 알아보기

튜닝 또는 테스트 데이터를 제출하지 않으면 어떻게 되나요?

튜닝 및 테스트 문장은 향후 번역할 내용을 최적으로 대표합니다. 튜닝 또는 테스트 데이터를 제출하지 않으면 Custom Translator에서 학습 문서로부터 튜닝 및 테스트 데이터로 사용할 문장을 자동으로 제외합니다.

시스템 생성 수동 선택
편리 향후 요구 사항에 맞게 미세 튜닝할 수 있습니다.
적합, 학습 데이터가 번역하려는 내용을 대표한다는 것을 알고 있는 경우입니다. 학습 데이터를 더 자유롭게 작성할 수 있습니다.
도메인을 확장하거나 축소할 때 쉽게 다시 실행할 수 있습니다. 더 많은 데이터와 더 나은 도메인 적용 범위를 허용합니다.
각 학습 실행을 변경합니다. 반복된 학습 실행에 대해 정적 상태를 유지합니다.

Custom Translator는 학습 자료를 어떻게 처리하나요?

학습을 준비하기 위해 문서는 일련의 처리 및 필터링 단계를 거칩니다. 이러한 단계는 아래에 설명되어 있습니다. 필터링 프로세스에 대한 지식은 표시되는 문장 수를 파악하고 Custom Translator를 사용하여 학습하기 위해 학습 문서를 준비하기 위해 수행할 수 있는 단계를 이해하는 데 도움이 될 수 있습니다.

  • 문장 맞춤

    문서가 XLIFF, XLSX, TMX 또는 ALIGN 형식이 아닌 경우 Custom Translator에서 원본 및 대상 문서의 문장을 서로 문장 단위로 정렬합니다. Translator는 문서 정렬을 수행하지 않으며, 다른 언어의 일치하는 문서를 찾기 위해 문서에 대한 명명 규칙을 따릅니다. 원본 텍스트 내에서 Custom Translator는 대상 언어로 해당 문장을 찾으려고 시도합니다. 포함된 HTML 태그와 같은 문서 태그를 사용하여 정렬을 지원합니다.

    원본 문서 및 대상 문서의 문장 수가 크게 다른 경우 원본 문서가 평행하지 않았거나 정렬되지 않았을 수 있습니다. 각각에서 문장 수 차이가 10%를 초과(>10%)하는 문서 쌍은 반드시 재차 확인하여 실제로 병행되었는지 확인합니다.

  • 튜닝 및 테스트 데이터 추출

    데이터 튜닝 및 테스트는 선택 사항입니다. 제공하지 않으면 시스템에서 튜닝 및 테스트에 사용할 학습 문서에서 적절한 비율을 제거합니다. 제거는 학습 프로세스의 일부로 동적으로 수행됩니다. 이 단계는 학습의 일부로 수행되므로 업로드된 문서는 영향을 받지 않습니다. 학습이 성공하면 모델 세부 정보 페이지에서 각 데이터 범주(학습, 튜닝, 테스트 및 사전)에 사용된 최종 문장 수가 표시됩니다.

  • 길이 필터

    • 원본 및 대상 중 한쪽에 한 단어만 있는 문장을 제거합니다.
    • 원본 및 대상 중 한쪽에 100개를 초과하는 단어가 있는 문장을 제거합니다. 중국어, 일본어, 한국어는 제외됩니다.
    • 3자 미만의 문장을 제거합니다. 중국어, 일본어, 한국어는 제외됩니다.
    • 중국어, 일본어, 한국어에서 2,000자를 초과하는 문장을 제거합니다.
    • 영숫자가 1% 미만인 문장을 제거합니다.
    • 50개가 넘는 단어가 포함된 사전 항목을 제거합니다.
  • 공백

    • 탭 및 CR/LF 시퀀스를 포함한 공백 문자 시퀀스를 단일 공백 문자로 바꿉니다.
    • 문장에서 선행 또는 후행 공백을 제거합니다.
  • 문장 종료 부호

    • 여러 문장 종료 부호 문자를 단일 인스턴스로 바꿉니다. 일본어 문자 정규화

    • 전자 문자와 숫자를 반자 문자로 변환합니다.

  • 이스케이프되지 않은 XML 태그

    이스케이프되지 않은 태그를 이스케이프된 태그로 변환합니다.

    태그 변환 후
    < &lt;
    > &gt;
    & &amp;
  • 잘못된 문자

    Custom Translator는 유니코드 문자 U+FFFD가 포함된 문장을 제거합니다. 문자 U+FFFD는 실패한 인코딩 변환을 나타냅니다.

데이터를 업로드하기 전에 수행해야 하는 단계는 무엇인가요?

  • 인코딩이 잘못된 문장을 제거합니다.
  • 유니코드 제어 문자를 제거합니다.
  • 가능한 경우 문장을 정렬합니다(원본-대상).
  • 원본 및 대상 언어와 일치하지 않는 원본 및 대상 문장을 제거합니다.
  • 원본 및 대상 문장에 혼합된 언어가 있는 경우 번역되지 않은 단어(예: 조직 및 제품의 이름)가 의도적인지 확인합니다.
  • 문법 및 입력 오류를 수정하여 이러한 오류를 모델에서 학습하지 않도록 합니다.
  • 학습 프로세스에서 여러 문장이 포함된 원본 및 대상 줄을 처리하지만, 하나의 원본 문장을 하나의 대상 문장에 매핑하는 것이 좋습니다.

결과를 평가하려면 어떻게 할까요?

모델이 성공적으로 학습되면 모델 세부 정보 페이지에서 모델의 BLEU 점수 및 기준 모델 BLEU 점수를 표시합니다. 모델의 BLEU 점수와 기준 BLEU 점수를 모두 생성하는 데 동일한 테스트 데이터 세트가 사용됩니다. 이 데이터는 사용 사례에 더 적합한 모델에 대해 정보에 입각한 결정을 내리는 데 도움이 됩니다.

다음 단계