대화 언어 이해 모델 학습

발화에 대한 레이블 지정이 완료되면 모델 학습을 시작할 수 있습니다. 학습은 모델이 레이블이 지정된 발화에서 학습하는 프로세스입니다.

모델을 학습시키려면 학습 작업을 시작합니다. 성공적으로 완료된 작업만 모델을 만듭니다. 학습 작업은 7일 후에 만료되며, 이 시간이 지나면 더 이상 작업 세부 정보를 검색할 수 없습니다. 학습 작업이 성공적으로 완료되고 모델이 만들어졌으면 작업 만료의 영향을 받지 않습니다. 한 번에 하나의 학습 작업만 실행할 수 있으며, 동일한 프로젝트에서 다른 작업을 시작할 수 없습니다.

학습 시간은 간단한 프로젝트를 처리할 때 몇 초에서 발화의 최대 제한에 도달할 때까지 몇 시간이 될 수 있습니다.

학습이 성공적으로 완료되면 모델 평가가 자동으로 트리거됩니다. 평가 프로세스는 학습된 모델을 사용하여 테스트 세트의 발화에 대한 예측을 실행하는 것으로 시작하고, 예측된 결과를 제공된 레이블과 비교합니다(진리 기준 설정).

필수 조건

학습 데이터 균형 조정

학습 데이터와 관련하여 스키마를 균형 있게 유지하려고 노력해야 합니다. 한 의도의 대량을 포함하고 다른 의도 중 극소수만 포함하면 특정 의도에 크게 편향된 모델이 생성됩니다.

이 문제를 해결하려면 학습 집합을 다운샘플링하거나 추가해야 할 수 있습니다. 다운샘플링은 다음을 통해 수행할 수 있습니다.

  • 학습 데이터의 특정 비율을 임의로 제거합니다.
  • 보다 체계적인 방식으로 데이터 세트를 분석하고 과도하게 표현된 중복 항목을 제거합니다.

Language Studio의 데이터 레이블 지정 탭에서 발화 제안을 선택하여 학습 집합에 추가할 수도 있습니다. 대화 언어 이해는 유사한 발화를 생성하기 위해 Azure OpenAI에 호출을 보냅니다.

A screenshot showing utterance suggestion in Language Studio.

또한 학습 집합에서 의도하지 않은 "패턴"을 찾아야 합니다. 예를 들어 특정 의도에 대한 학습 집합이 모두 소문자이거나 특정 구로 시작하는 경우입니다. 이러한 경우 학습하는 모델은 일반화할 수 없는 대신 학습 집합에서 이러한 의도하지 않은 편향을 학습할 수 있습니다.

학습 집합에 대/소문자 및 문장 부호 다양성을 도입하는 것이 좋습니다. 모델이 변형을 처리해야 하는 경우 해당 다양성을 반영하는 학습 집합이 있어야 합니다. 예를 들어 적절한 대/소문자에서 일부 발화를 포함하고 일부 발화는 모두 소문자로 포함합니다.

데이터 분할

학습 프로세스를 시작하기 전에 프로젝트의 레이블이 지정된 발화는 학습 세트와 테스트 세트로 나뉩니다. 각각 다른 기능을 제공합니다. 학습 세트는 모델 학습에 사용되며, 모델이 레이블이 지정된 발화를 학습하는 세트입니다. 테스트 세트는 학습 중이 아니라 평가 중에만 도입되는 블라인드 세트입니다.

모델이 성공적으로 학습되면 모델을 사용하여 테스트 세트의 발화에서 예측을 수행할 수 있습니다. 이러한 예측은 평가 메트릭을 계산하는 데 사용됩니다. 모든 의도와 엔터티가 학습 세트와 테스트 세트 모두에서 적절하게 표현되도록 하는 것이 좋습니다.

대화 언어 이해는 데이터 분할을 위한 두 가지 방법을 지원합니다.

  • 학습 데이터에서 자동으로 테스트 세트 분할: 선택한 백분율에 따라 시스템에서 태그가 지정된 데이터를 학습 세트와 테스트 세트 간에 분할합니다. 권장되는 분할 백분율은 학습용으로 80%, 테스트용으로 20%입니다.

참고 항목

학습 데이터에서 자동으로 테스트 세트 분할 옵션을 선택하면 학습 세트에 할당된 데이터만 제공된 백분율에 따라 분할됩니다.

  • 학습 및 테스트 데이터의 수동 분할 사용: 이 방법을 사용하면 사용자가 특정 세트에 속해야 하는 특정 발화를 정의할 수 있습니다. 이 단계는 레이블 지정 중에 발화를 테스트 세트에 추가한 경우에만 사용할 수 있습니다.

학습 모드

CLU는 모델 학습에 대한 두 가지 모드를 지원합니다.

  • 표준 학습은 빠른 기계 학습 알고리즘을 사용하여 모델을 비교적 빠르게 학습시킵니다. 현재 영어로만 사용할 수 있으며, 영어(미국) 또는 영어(영국)를 기본 언어로 사용하지 않는 모든 프로젝트에는 사용할 수 없습니다. 이 학습 옵션은 무료입니다. 표준 학습을 사용하면 비용 없이 발화를 추가하고 빠르게 테스트할 수 있습니다. 표시된 평가 점수는 프로젝트를 변경하고 더 많은 발화를 추가할 위치를 안내합니다. 몇 번 반복하고 점진적으로 향상되었으면 고급 학습을 사용하여 다른 버전의 모델을 학습시키는 것이 좋습니다.

  • 고급 학습은 최신 기계 학습 기술을 통해 데이터를 사용하여 모델을 사용자 지정합니다. 이렇게 하면 모델에 대한 성능 점수가 향상되며 CLU의 다국어 기능도 사용할 수 있습니다. 고급 학습의 가격은 다르게 책정됩니다. 자세한 내용은 가격 책정 정보를 참조하세요.

평가 점수를 사용하여 결정을 안내합니다. 표준 학습 모드를 사용하는 경우와 달리 고급 학습에서는 특정 예제가 잘못 예측되는 경우가 있을 수 있습니다. 그러나 고급 학습을 사용하여 전체 평가 결과가 더 나은 경우 최종 모델을 사용하는 것이 좋습니다. 그렇지 않고 다국어 기능을 사용하지 않으려는 경우 표준 모드로 학습된 모델을 계속 사용할 수 있습니다.

참고 항목

각 알고리즘에서 점수를 다르게 보정하므로 학습 모드 간에 의도 신뢰도 점수의 동작 차이를 확인해야 합니다.

모델 학습

Language Studio 내에서 모델 학습을 시작하려면 다음을 수행합니다.

  1. 왼쪽 메뉴에서 모델 학습을 선택합니다.

  2. 상단 메뉴에서 학습 작업 시작을 선택합니다.

  3. 새 모델 학습을 선택하고 텍스트 상자에 새 모델 이름을 입력합니다. 그렇지 않고 기존 모델을 새 데이터에 대해 학습된 모델로 바꾸려면 기존 모델 덮어쓰기를 선택한 다음, 기존 모델을 선택합니다. 학습된 모델을 덮어쓰는 것은 되돌릴 수 없지만, 새 모델을 배포할 때까지 배포된 모델에는 영향을 주지 않습니다.

  4. 학습 모드를 선택합니다. 더 빠른 학습을 위해 표준 학습을 선택할 수 있지만 영어로만 사용할 수 있습니다. 또는 다른 언어 및 다국어 프로젝트에 지원되는 고급 학습을 선택할 수 있지만 학습 시간이 더 오래 걸립니다. 학습 모드에 대해 자세히 알아봅니다.

  5. 데이터 분할 방법을 선택합니다. 학습 데이터에서 자동으로 테스트 세트 분할을 선택할 수 있습니다. 그러면 시스템에서 지정된 백분율에 따라 발화를 학습 세트와 테스트 세트 간에 분할합니다. 또는 학습 및 테스트 데이터의 수동 분할을 사용할 수 있습니다. 이 옵션은 레이블을 발화에 지정할 때 발화를 테스트 세트에 추가한 경우에만 사용할 수 있습니다.

  6. 학습 단추를 선택합니다.

    A screenshot showing the training page in Language Studio.

  7. 목록에서 학습 작업 ID를 선택합니다. 이 작업에 대한 학습 진행률, 작업 상태 및 기타 세부 정보를 확인할 수 있는 창이 표시됩니다.

    참고 항목

    • 성공적으로 완료된 학습 작업만 모델을 생성합니다.
    • 학습은 발화 수에 따라 몇 분에서 몇 시간까지 걸릴 수 있습니다.
    • 한 번에 하나의 학습 작업만 실행할 수 있습니다. 실행 중인 작업이 완료될 때까지 동일한 프로젝트 내에서 다른 학습 작업을 시작할 수 없습니다.
    • 모델을 학습시키는 데 사용되는 기계 학습은 정기적으로 업데이트됩니다. 이전 구성 버전에서 학습하려면 학습 작업 시작 페이지에서 여기를 선택하여 변경을 선택하고 이전 버전을 선택합니다.

학습 작업 취소

Language Studio 내에서 학습 작업을 취소하려면

  1. 모델 학습 페이지에서 취소하려는 학습 작업을 선택하고, 위쪽 메뉴에서 취소를 선택합니다.

다음 단계