다음을 통해 공유


Language Studio를 사용하여 데이터에 레이블 지정

데이터 레이블 지정은 개발 수명 주기에서 중요한 단계입니다. 이 단계에서는 학습된 구성 요소를 채우기 위해 스키마에 정의한 새 엔터티로 문서에 레이블을 지정합니다. 이 데이터는 다음 단계에서 모델이 레이블이 지정된 데이터에서 학습하여 추출할 엔터티를 알 수 있도록 모델을 학습시킬 때 사용됩니다. 이미 레이블이 지정된 데이터가 있는 경우 프로젝트로 직접 가져올 수 있지만 데이터가 허용되는 데이터 형식을 따르는지 확인해야 합니다. 레이블이 지정된 데이터를 프로젝트로 가져오는 방법에 대한 자세한 내용은 프로젝트 만들기를 참조하세요. 데이터에 아직 레이블이 지정되지 않은 경우 Language Studio에서 레이블을 지정할 수 있습니다.

필수 조건

데이터에 레이블을 지정하려면 먼저 다음이 필요합니다.

자세한 내용은 프로젝트 개발 수명 주기를 참조하세요.

데이터 레이블 지정 지침

데이터를 준비하고, 스키마를 설계하고, 프로젝트를 만든 후에는 데이터에 레이블을 지정해야 합니다. 모델에서 추출해야 하는 엔터티 형식과 연결될 단어를 알 수 있도록 데이터에 레이블을 지정하는 것이 중요합니다. Language Studio에서 데이터에 레이블을 지정하거나 레이블이 지정된 데이터를 가져올 때 이러한 레이블은 이 프로젝트에 연결한 스토리지 컨테이너의 JSON 문서에 저장됩니다.

데이터에 레이블을 지정할 때 다음 사항에 유의합니다.

  • 미리 학습되어 빌드된 엔터티인 상태 엔터티에 대해서는 Text Analytics에 대한 레이블을 추가할 수 없습니다. 스키마 정의 중에 정의한 새 엔터티 범주에만 레이블을 추가할 수 있습니다.

미리 빌드된 엔터티에 대한 재현율을 개선하려면 스키마를 정의하는 동안 목록 구성 요소를 추가하여 확장할 수 있습니다.

  • 일반적으로 레이블이 지정된 데이터가 많을수록 데이터에 정확하게 레이블이 지정된 경우 더 나은 결과를 얻을 수 있습니다.

  • 레이블이 지정된 데이터의 정밀도, 일관성 및 완전성은 모델 성능을 결정하는 주요 요소입니다.

    • 정확한 레이블 지정: 각 엔터티를 항상 올바른 형식으로 레이블을 지정합니다. 추출하려는 항목만 포함하고 레이블에 불필요한 데이터를 포함하지 마세요.
    • 일관된 레이블 지정: 동일한 엔터티는 모든 문서에서 동일한 레이블을 포함해야 합니다.
    • 완전한 레이블 지정: 모든 문서에 있는 엔터티의 모든 인스턴스에 레이블을 지정합니다.

    참고 항목

    모델이 최상의 성능을 발휘하도록 보장할 수 있는 고정된 레이블 수는 없습니다. 모델 성능은 스키마의 가능한 모호성 및 레이블이 지정된 데이터의 품질에 따라 다릅니다. 그럼에도 불구하고 엔터티 형식당 약 50개의 레이블이 지정된 인스턴스를 포함하는 것이 좋습니다.

데이터에 레이블 지정

다음 단계를 사용하여 데이터에 레이블을 지정합니다.

  1. Language Studio에서 프로젝트 페이지로 이동합니다.

  2. 왼쪽 메뉴에서 데이터 레이블 지정을 선택합니다. 스토리지 컨테이너의 모든 문서 목록을 찾을 수 있습니다.

    레이블 지정을 시작할 수 있도록 위쪽 메뉴의 필터를 사용하여 레이블이 지정되지 않은 문서를 볼 수 있습니다. 필터를 사용하여 특정 엔터티 형식으로 레이블이 지정된 문서를 볼 수도 있습니다.

  3. 위쪽 메뉴의 왼쪽에서 단일 문서 보기로 변경하거나 레이블 지정을 시작할 특정 문서를 선택합니다. 프로젝트에서 사용 가능한 모든 .txt 문서 목록을 왼쪽에서 찾을 수 있습니다. 페이지 하단에 있는 뒤로다음 단추를 사용하여 문서를 탐색할 수 있습니다.

    참고 항목

    프로젝트에 여러 언어를 사용하도록 설정한 경우 상단 메뉴에서 각 문서의 언어를 선택할 수 있는 언어 드롭다운을 찾을 수 있습니다. 히브리어는 다국어 프로젝트에서 지원되지 않습니다.

  4. 오른쪽 창에서 엔터티 형식 추가 단추를 사용하여 스키마 정의 중에 놓친 엔터티를 프로젝트에 추가할 수 있습니다.

  5. 문서에 레이블을 지정하는 두 가지 옵션이 있습니다.

    옵션 설명
    브러시를 사용하여 레이블 지정 오른쪽 창에서 엔터티 형식 옆에 있는 브러시 아이콘을 선택한 다음, 이 엔터티 형식으로 주석을 달려는 문서의 텍스트를 강조 표시합니다.
    메뉴를 사용하여 레이블 지정 엔터티로 태그를 지정할 단어를 강조 표시하면 메뉴가 나타납니다. 이 엔터티에 대해 할당할 엔터티 형식을 선택합니다.

    아래 스크린샷은 브러시를 사용한 레이블 지정을 보여 줍니다.

    A screenshot showing the labeling options offered in Custom NER.

  6. 레이블 피벗 아래의 오른쪽 창에서 프로젝트의 모든 엔터티 형식과 레이블이 지정된 각 인스턴스의 개수를 찾을 수 있습니다. 미리 빌드된 엔터티는 참조용으로 표시되지만 미리 학습된 이러한 엔터티에 대해 레이블을 지정할 수 없습니다.

  7. 오른쪽 창의 하단 섹션에서 현재 보고 있는 문서를 학습 세트 또는 테스트 세트에 추가할 수 있습니다. 기본적으로 모든 문서가 학습 세트에 추가됩니다. 학습 및 테스트 세트에서 이러한 세트가 모델 학습 및 평가에 사용되는 방법에 대해 자세히 알아봅니다.

    자동 데이터 분할을 사용하려는 경우 학습 세트에 모든 문서를 할당하는 기본 옵션을 사용합니다.

  8. 배포 피벗 아래에서 학습 및 테스트 세트에 대한 배포를 볼 수 있습니다. 다음 두 가지 옵션이 표시됩니다.

    • 총 인스턴스 - 특정 엔터티 형식의 모든 레이블이 지정된 인스턴스 수를 볼 수 있습니다.
    • 레이블이 하나 이상 있는 문서 - 이 엔터티의 레이블이 지정된 인스턴스가 하나 이상 포함된 경우 각 문서가 계산됩니다.
  9. 레이블을 지정하는 동안 변경 내용이 주기적으로 동기화되며 아직 저장되지 않은 경우 페이지 상단에 경고가 표시됩니다. 수동으로 저장하려면 페이지 위쪽에서 레이블 저장 단추를 선택합니다.

레이블 제거

레이블을 제거하려면

  1. 레이블을 제거하려는 엔터티를 선택합니다.
  2. 표시되는 메뉴를 스크롤하고 레이블 제거를 선택합니다.

엔터티 삭제

미리 빌드된 구성 요소가 있으므로 상태 사전 학습 엔터티에 대한 Text Analytics를 삭제할 수 없습니다. 새로 정의된 엔터티 범주만 삭제할 수 있습니다. 엔터티를 삭제하려면 제거할 엔터티 옆에 있는 삭제 아이콘을 선택합니다. 엔터티를 삭제하면 모든 레이블이 지정된 인스턴스가 데이터 세트에서 제거됩니다.

다음 단계

데이터에 레이블을 지정한 후에는 데이터를 기반으로 학습할 모델 학습을 시작할 수 있습니다.