빠른 시작: 사용자 지정 모델을 사용하여 빌드, 게시 및 번역

번역기는 모든 운영 체제에서 사용할 수 있는 REST API의 Azure AI 서비스 제품군의 일부인 클라우드 기반 인공신경망 기계 번역 서비스입니다. Translator는 전세계의 무수한 기업에서 사용되는 많은 Microsoft 제품 및 서비스가 언어 번역 및 기타 언어 관련 작업을 수행할 수 있게 지원합니다. 이 빠른 시작에서는 모든 지원 언어에서 애플리케이션을 위한 사용자 지정 솔루션을 구축하는 방법을 알아보세요.

필수 조건

Custom Translator 포털을 사용하려면 다음 리소스가 필요합니다.

  • Microsoft 계정

  • Azure 구독 - 체험 구독 만들기

  • Azure 구독이 있으면 Azure Portal에서 Translator 리소스를 만들어 키와 엔드포인트를 가져옵니다. 배포 후 리소스로 이동을 선택합니다.

    • 만든 리소스의 키와 엔드포인트는 애플리케이션을 Translator 서비스에 연결하는 데 필요합니다. 빠른 시작의 뒷부분에 나오는 코드에 키와 엔드포인트를 붙여넣습니다. Azure Portal 키 및 엔드포인트 페이지에서 다음 값을 찾을 수 있습니다.

      Screenshot: Azure portal keys and endpoint page.

자세한 내용은 Translator 리소스를 만드는 방법참조하세요.

Custom Translator 포털

위의 필수 구성 요소가 충족되면 Custom Translator 포털에 로그인하여 작업 영역을 만들고, 프로젝트를 빌드하고, 파일을 업로드하고, 모델을 학습시키고, 사용자 지정 솔루션을 게시합니다.

번역 및 사용자 지정 번역에 대한 개요를 읽고, 몇 가지 팁을 알아보고, Azure AI 기술 블로그에서 시작 비디오를 시청할 수 있습니다.

프로세스 요약

  1. 작업 영역을 만듭니다. 작업 영역이란 사용자 지정 번역 시스템을 구성하고 빌드하기 위한 작업 구축에 대 한 작업 공간입니다. 적업 영역은 여러 프로젝트, 모델 및 문서를 포함할 수 있습니다. Custom Translator에서 수행하는 모든 작업은 특정 작업 영역 내에서 수행됩니다.

  2. 프로젝트를 만듭니다. 프로젝트란 모델, 문서 및 테스트에 대한 래퍼입니다. 각 프로젝트에는 올바른 언어 쌍으로 해당 작업 영역에 업로드된 모든 문서가 포함됩니다. 예를 들어 영어-스페인어 프로젝트와 스페인어-영어 프로젝트가 모두 있는 경우 동일한 문서가 두 프로젝트에 모두 포함됩니다.

  3. 병렬 문서를 업로드합니다. 병렬 문서는 하나(대상)가 다른 하나(소스)의 번역인 문서 쌍입니다. 쌍의 한 문서에는 소스 언어의 문장이 포함되어 있고 다른 문서에는 대상 언어로 번역된 문장이 포함되어 있습니다. 어떤 언어가 "원본"으로 표시되고 어떤 언어가 "대상"으로 표시되는지는 중요하지 않습니다. 병렬 문서는 어느 방향으로든 번역 시스템을 학습시키는 데 사용할 수 있습니다.

  4. 모델을 학습시킵니다. 모델은 특정 언어 쌍에 대한 번역을 제공하는 시스템입니다. 성공적인 학습의 결과가 모델입니다. 모델을 학습시킬 때 학습, 튜닝 및 테스트의 세 가지 상호 배타적인 문서 종류가 필요합니다. 학습을 큐에 넣을 때 학습 데이터만 제공되는 경우 Custom Translator는 자동으로 조정 및 테스트 데이터를 조합합니다. 학습 문서에서 임의의 문장 하위 집합을 사용하고 학습 데이터 자체에서 이러한 문장을 제외합니다. 10,000개의 병렬 문장은 모델을 학습하기 위한 최소 요구 사항입니다.

  5. 모델을 테스트(사람이 평가)합니다. 테스트 집합은 BLEU 점수를 계산하는 데 사용됩니다. 이 점수는 번역 시스템의 품질을 나타냅니다.

  6. 학습된 모델을 게시(배포)합니다. 사용자 지정 모델은 런타임 번역 요청에 사용할 수 있습니다.

  7. 텍스트를 번역합니다. 클라우드 기반의 안전하고 확장성이 뛰어난 고성능 Microsoft 번역기 Text API V3를 사용하여 번역 요청을 만듭니다.

작업 영역 만들기

  1. Custom Translator에 로그인하면 사용자 액세스 토큰 및 새로 고침 토큰을 요청하기 위해 Microsoft ID 플랫폼 프로필을 읽을 수 있는 권한을 묻는 메시지가 표시됩니다. 인증을 위해 그리고 라이브 세션 중에 또는 모델을 학습시키는 동안 로그아웃되지 않도록 하려면 두 토큰이 모두 필요합니다.
    를 선택합니다.

    Screenshot illustrating how to create a workspace.

  2. 내 작업 영역을 선택합니다.

  3. 새 작업 영역 만들기를 선택합니다.

  4. 작업 영역 이름Contoso MT models를 입력하고 다음을 선택합니다.

  5. 드롭다운 목록에서 리소스 지역 선택에 대해 "전역"을 선택합니다.

  6. Translator Services 키를 복사/붙여넣습니다.

  7. 다음을 선택합니다.

  8. 완료를 선택합니다.

    참고 항목

    지역은 리소스를 만드는 동안 선택한 지역과 일치해야 합니다. KEY 1 또는 KEY 2를 사용할 수 있습니다.

    Screenshot illustrating the resource key.

    Screenshot illustrating workspace creation.

프로젝트 만들기

작업 영역이 성공적으로 생성되면 프로젝트 페이지로 이동됩니다.

학습 문서 유형만으로 사용자 지정 모델을 교육하기 위해 영어-독일어 프로젝트를 만듭니다.

  1. 프로젝트 만들기를 선택합니다.

  2. 프로젝트 이름영어-독일어를 입력합니다.

  3. 드롭다운 목록에서 영어(en)소스 언어로 선택합니다.

  4. 드롭다운 목록에서 독일어(de)대상 언어로 선택합니다.

  5. 드롭다운 목록에서 도메인에 대해 일반을 선택합니다.

  6. 프로젝트 만들기를 선택합니다.

    Screenshot illustrating how to create a project.

문서 업로드

사용자 지정 모델을 만들려면 학습, 튜닝, 테스트사전 문서 형식의 조합 또는 모두를 업로드해야 합니다.

이 빠른 시작에서는 사용자 지정을 위해 학습 문서를 업로드합니다.

참고 항목

이 빠른 시작에서는 샘플 학습, 구 및 문장 사전 데이터 세트인 고객 샘플 영어-독일어 데이터 세트를 사용할 수 있습니다. 그러나 프로덕션의 경우 자체 학습 데이터 세트를 업로드하는 것이 좋습니다.

  1. 영어-독일어 프로젝트 이름을 선택합니다.

  2. 왼쪽 탐색 메뉴에서 문서 관리를 선택합니다.

  3. 문서 집합 추가를 선택합니다.

  4. 학습 집합 상자를 선택하고 다음을 선택합니다.

  5. 병렬 문서를 선택한 상태로 유지하고 sample-English-German을 입력합니다.

  6. 소스(영어 - EN) 파일에서 파일 찾아보기를 선택하고 sample-English-German-Training-en.txt를 선택합니다.

  7. 대상(독일어 - EN) 파일에서 파일 찾아보기를 선택하고 sample-English-German-Training-de.txt를 선택합니다.

  8. 업로드를 선택합니다.

    참고 항목

    샘플 구 및 문장 사전 데이터 세트를 업로드할 수 있습니다. 이 단계는 직접 완료할 수 있도록 남아 있습니다.

    Screenshot illustrating how to upload documents.

모델 학습

이제 영어-독일어 모델을 학습할 준비가 되었습니다.

  1. 왼쪽 탐색 메뉴에서 모델 학습을 선택합니다.

  2. 모델 이름en-de with sample data를 입력합니다.

  3. 전체 학습을 선택한 상태로 유지합니다.

  4. 문서 선택에서 sample-English-German을 선택하고 선택한 문장 수와 관련된 학습 비용을 검토합니다.

  5. 지금 학습을 선택합니다.

  6. 학습을 선택하여 확인합니다.

    참고 항목

    알림은 진행 중인 모델 학습(예: 데이터 제출 상태)을 표시합니다. 모델 학습에는 선택한 문장의 수에 따라 몇 시간이 걸립니다.

    Screenshot illustrating how to create a model.

  7. 모델 학습에 성공하면 왼쪽 탐색 메뉴에서 모델 세부 정보를 선택합니다.

  8. 샘플 데이터가 포함된 en-de 모델 이름을 선택합니다. 학습 날짜/시간, 총 학습 시간, 학습, 튜닝, 테스트 및 사전에 사용되는 문장 수를 검토합니다. 시스템에서 테스트 및 튜닝 집합을 생성했는지 확인합니다. 번역을 요청하려면 Category ID을 사용합니다.

  9. 모델 BLEU 점수를 평가합니다. 테스트 집합 BLEU 점수는 사용자 지정 모델 점수이고 기준 BLEU는 사용자 지정에 사용되는 사전 학습된 기준 모델입니다. BLEU 점수가 높을수록 사용자 지정 모델을 사용하는 번역 품질이 높아질 수 있습니다.

    참고 항목

    공유 고객 샘플 데이터 세트를 사용하여 학습시키는 경우 BLEU 점수는 이미지와 다릅니다.

    Screenshot illustrating model details.

모델 테스트

학습이 성공적으로 완료되면 테스트 세트 번역된 문장을 검사합니다.

  1. 왼쪽 탐색 메뉴에서 테스트 모델을 선택합니다.
  2. "en-de with sample data"를 선택합니다.
  3. 새 모델(사용자 지정 모델) 및 기준 모델(사용자 지정에 사용되는 사전 학습된 기준)의 번역을 참조(테스트 집합의 대상 번역)에 대해 사람이 평가합니다.

모델 게시

모델을 게시하면 Translator API에서 사용할 수 있습니다. 프로젝트에는 하나 이상의 성공적으로 학습된 모델이 있을 수 있습니다. 프로젝트당 하나의 모델만 게시할 수 있습니다. 그러나 필요에 따라 하나 또는 여러 지역에 모델을 게시할 수 있습니다. 자세한 내용은 Translator 가격 책정을 참조하세요.

  1. 왼쪽 탐색 메뉴에서 모델 게시를 선택합니다.

  2. en-de with sample data를 선택하고 게시를 선택합니다.

  3. 원하는 지역을 확인합니다.

  4. 게시를 선택합니다. 상태는 배포에서 배포됨으로 전환되어야 합니다.

    Screenshot illustrating how to deploy a trained model.

텍스트 번역

  1. 개발자는 Microsoft Translator Text API V3로 번역을 요청할 때 Category ID를 사용해야 합니다. Translator Text API에 대한 자세한 내용은 API 참조 웹 페이지에서 확인할 수 있습니다.

  2. 비즈니스 사용자는 Windows용 무료 DocumentTranslator 앱을 다운로드하여 설치할 수 있습니다.

다음 단계