모델 학습을 위해 텍스트 데이터에 레이블 지정

모델을 학습하기 전에 문서를 분류하려는 클래스로 문서에 레이블을 지정해야 합니다. 데이터 레이블 지정은 개발 수명 주기에서 중요한 단계입니다. 이 단계에서는 데이터를 분류하려는 클래스를 만들고 이러한 클래스를 사용하여 문서에 레이블을 지정할 수 있습니다. 이 데이터는 다음 단계에서 모델이 레이블이 지정된 데이터에서 학습할 수 있도록 모델을 학습할 때 사용됩니다. 이미 레이블이 지정된 데이터가 있는 경우 프로젝트로 직접 가져올 수 있지만 데이터가 허용되는 데이터 형식을 따르는지 확인해야 합니다.

사용자 지정 텍스트 분류 모델을 만들기 전에 먼저 레이블이 지정된 데이터가 있어야 합니다. 데이터에 아직 레이블이 지정되지 않은 경우 Language Studio에서 레이블을 지정할 수 있습니다. 레이블이 지정된 데이터는 모델에 텍스트를 해석하는 방법을 알려 주고 학습 및 평가에 사용됩니다.

필수 조건

데이터에 레이블을 지정하려면 먼저 다음이 필요합니다.

자세한 내용은 프로젝트 개발 수명 주기를 참조하세요.

데이터 레이블 지정 지침

데이터를 준비하고, 스키마를 설계하고, 프로젝트를 만든 후에는 데이터에 레이블을 지정해야 합니다. 모델에서 필요한 클래스와 연결되는 문서를 알 수 있도록 데이터에 레이블을 지정하는 것이 중요합니다. Language Studio에서 데이터에 레이블을 지정하거나 레이블이 지정된 데이터를 가져올 때 이러한 레이블은 이 프로젝트에 연결한 스토리지 컨테이너의 JSON 파일에 저장됩니다.

데이터에 레이블을 지정할 때 다음 사항에 유의합니다.

  • 일반적으로 레이블이 지정된 데이터가 많을수록 데이터에 정확하게 레이블이 지정된 경우 더 나은 결과를 얻을 수 있습니다.

  • 모델이 최상의 성능을 발휘하도록 보장할 수 있는 고정된 레이블 수는 없습니다. 스키마의 가능한 모호성 및 레이블이 지정된 데이터의 품질에 대한 성능을 모델링합니다. 하지만 클래스당 50개의 레이블이 지정된 문서를 사용하는 것이 좋습니다.

데이터에 레이블 지정

다음 단계를 사용하여 데이터에 레이블을 지정합니다.

  1. Language Studio에서 프로젝트 페이지로 이동합니다.

  2. 왼쪽 메뉴에서 데이터 레이블 지정을 선택합니다. 스토리지 컨테이너의 모든 문서 목록을 찾을 수 있습니다. 아래 그림을 참조하세요.

    레이블 지정을 시작할 수 있도록 상단 메뉴의 필터를 사용하여 레이블이 지정되지 않은 파일을 볼 수 있습니다. 필터를 사용하여 특정 클래스로 레이블이 지정된 문서를 볼 수도 있습니다.

  3. 상단 메뉴의 왼쪽에서 단일 파일 보기로 변경하거나 레이블 지정을 시작할 특정 파일을 선택합니다. 프로젝트에서 사용 가능한 모든 .txt 파일 목록을 왼쪽에서 찾을 수 있습니다. 페이지 하단에 있는 뒤로다음 단추를 사용하여 문서를 탐색할 수 있습니다.

    참고 항목

    프로젝트에 여러 언어를 사용하도록 설정한 경우 상단 메뉴에서 각 문서의 언어를 선택할 수 있는 언어 드롭다운을 찾을 수 있습니다.

  4. 오른쪽 창에서 프로젝트에 클래스를 추가하여 데이터 레이블 지정을 시작할 수 있습니다.

  5. 파일 레이블 지정을 시작합니다.

    다중 레이블 분류: 문서에 여러 클래스로 레이블을 지정할 수 있습니다. 이 파일에 레이블을 지정할 클래스 옆에 있는 모든 해당 확인란을 선택하면 됩니다.

    A screenshot showing the multiple label classification tag page.

    자동 레이블 지정 기능을 사용하여 완전한 레이블 지정을 보장할 수도 있습니다.

  6. 레이블 피벗 아래의 오른쪽 창에서 프로젝트의 모든 클래스와 레이블이 지정된 각 인스턴스의 개수를 찾을 수 있습니다.

  7. 오른쪽 창의 아래쪽 섹션에서 현재 보고 있는 파일을 학습 세트 또는 테스트 세트에 추가할 수 있습니다. 기본적으로 모든 문서가 학습 세트에 추가됩니다. 학습 및 테스트 세트과 이러한 세트가 모델 학습 및 평가에 사용되는 방법에 대해 자세히 알아봅니다.

    자동 데이터 분할을 사용하려는 경우 학습 세트에 모든 문서를 할당하는 기본 옵션을 사용합니다.

  8. 배포 피벗 아래에서 학습 및 테스트 세트에 대한 배포를 볼 수 있습니다. 다음 두 가지 옵션이 표시됩니다.

    • 총 인스턴스 - 특정 클래스의 모든 레이블이 지정된 인스턴스 수를 볼 수 있습니다.
    • 레이블이 하나 이상 있는 문서 - 이 클래스의 레이블이 지정된 인스턴스가 하나 이상 포함된 경우 각 문서가 계산됩니다.
  9. 레이블을 지정하는 동안 변경 내용이 주기적으로 동기화되며 아직 저장되지 않은 경우 페이지 상단에 경고가 표시됩니다. 수동으로 저장하려면 페이지 위쪽에서 레이블 저장 단추를 선택합니다.

레이블 제거

레이블을 제거하려면 클래스 옆의 단추를 선택 해제합니다.

삭제 또는 수업

클래스를 삭제하려면 제거할 클래스 옆에 있는 삭제 아이콘을 선택합니다. 클래스를 삭제하면 레이블이 지정된 모든 인스턴스가 데이터 세트에서 제거됩니다.

다음 단계

데이터에 레이블을 지정한 후에는 데이터를 기반으로 학습할 모델 학습을 시작할 수 있습니다.