사용자 지정 텍스트 분류 모델을 학습하는 방법

학습은 모델이 레이블이 지정된 데이터에서 학습하는 프로세스입니다. 학습이 완료되면 모델의 성능을 확인하여 모델을 향상시켜야 하는지 결정할 수 있습니다.

모델을 학습시키려면 학습 작업을 시작합니다. 성공적으로 완료된 작업만 사용 가능한 모델을 만듭니다. 학습 작업은 7일 후에 만료됩니다. 이 기간이 지나면 작업 세부 정보를 검색할 수 없습니다. 학습 작업이 성공적으로 완료되고 모델이 만들어진 경우 작업 만료의 영향을 받지 않습니다. 한 번에 하나의 학습 작업만 실행할 수 있으며, 동일한 프로젝트에서 다른 작업을 시작할 수 없습니다.

학습 시간은 어디서든 데이터 세트 크기와 스키마 복잡성에 따라 몇 분(몇 개의 문서만 처리하는 경우)에서 최대 몇 시간까지 걸릴 수 있습니다.

필수 조건

모델을 학습시키려면 먼저 다음이 필요합니다.

자세한 내용은 프로젝트 개발 수명 주기를 참조하세요.

데이터 분할

학습 프로세스를 시작하기 전에 프로젝트의 레이블이 지정된 문서는 학습 세트와 테스트 세트로 나뉩니다. 각각 다른 기능을 제공합니다. 학습 세트는 모델 학습에 사용되며, 모델에서 각 문서에 할당된 클래스를 학습하는 세트입니다. 테스트 세트는 학습 중이 아니라 평가 중에만 도입되는 블라인드 세트입니다. 모델이 성공적으로 학습되면 테스트 세트의 문서에서 예측을 수행하는 데 사용됩니다. 이러한 예측에 따라 모델의 평가 메트릭이 계산됩니다. 모든 클래스가 학습 세트와 테스트 세트 모두에서 적절하게 표현되도록 하는 것이 좋습니다.

사용자 지정 텍스트 분류는 두 가지 데이터 분할 방법을 지원합니다.

  • 학습 데이터에서 자동으로 테스트 세트 분할: 선택한 백분율에 따라 시스템에서 레이블이 지정된 데이터를 학습 세트와 테스트 세트 간에 분할합니다. 시스템에서 학습 세트의 모든 클래스를 나타내려고 시도합니다. 권장되는 분할 백분율은 학습용으로 80%, 테스트용으로 20%입니다.

참고 항목

학습 데이터에서 자동으로 테스트 세트 분할 옵션을 선택하면 학습 세트에 할당된 데이터만 제공된 백분율에 따라 분할됩니다.

  • 학습 및 테스트 데이터에 대한 수동 분할 사용: 이 방법을 사용하면 사용자가 특정 레이블이 지정된 문서가 속해야 하는 세트를 정의할 수 있습니다. 이 단계는 데이터 레이블 지정 중에 문서를 테스트 세트에 추가한 경우에만 사용할 수 있습니다.

모델 학습

Language Studio 내에서 모델 학습을 시작하려면 다음을 수행합니다.

  1. 왼쪽 메뉴에서 학습 작업을 선택합니다.

  2. 상단 메뉴에서 학습 작업 시작을 선택합니다.

  3. 새 모델 학습을 선택하고, 텍스트 상자에서 모델 이름을 입력합니다. 또한 이 옵션을 선택하고 드롭다운 메뉴에서 덮어쓰려는 모델을 선택하면 기존 모델을 덮어쓸 수 있습니다. 학습된 모델을 덮어쓰는 것은 되돌릴 수 없지만, 새 모델을 배포할 때까지 배포된 모델에는 영향을 주지 않습니다.

    Create a new training job

  4. 데이터 분할 방법을 선택합니다. 학습 데이터에서 자동으로 테스트 세트 분할을 선택할 수 있습니다. 여기서 시스템은 지정된 백분율에 따라 레이블이 지정된 데이터를 학습 세트와 테스트 세트 간에 분할합니다. 또는 학습 및 테스트 데이터에 대한 수동 분할을 사용할 수 있습니다. 이 옵션은 데이터 레이블 지정 중에 문서를 테스트 세트에 추가한 경우에만 사용할 수 있습니다. 데이터 분할에 대한 자세한 내용은 모델 학습 방법을 참조하세요.

  5. 학습 단추를 선택합니다.

  6. 목록에서 학습 작업 ID를 선택하면 이 작업에 대한 학습 진행률, 작업 상태 및 기타 세부 정보를 확인할 수 있는 사이드 창이 표시됩니다.

    참고 항목

    • 성공적으로 완료된 학습 작업만 모델을 생성합니다.
    • 모델 학습 시간은 레이블이 지정된 데이터의 크기에 따라 몇 분에서 몇 시간이 걸릴 수 있습니다.
    • 한 번에 하나의 학습 작업만 실행할 수 있습니다. 실행 중인 작업이 완료될 때까지 동일한 프로젝트 내에서 다른 학습 작업을 시작할 수 없습니다.

학습 작업 취소

Language Studio에서 학습 작업을 취소하려면 학습 직업 페이지로 이동합니다. 취소하려는 학습 작업을 선택하고, 위쪽 메뉴에서 취소를 선택합니다.

다음 단계

학습이 완료되면 모델의 성능을 확인하여 필요한 경우 선택적으로 모델을 개선할 수 있습니다. 모델이 만족스러우면 배포하여 텍스트 분류에 사용할 수 있습니다.