사용자 지정 텍스트 분류에 사용되는 용어 및 정의

이 문서를 사용하여 사용자 지정 텍스트 분류를 사용할 때 접할 수 있는 몇 가지 정의와 용어에 대해 알아봅니다.

클래스

클래스는 텍스트의 전체 분류를 나타내는 사용자 정의 범주입니다. 개발자는 학습을 위해 모델에 전달하기 전에 클래스를 사용하여 데이터에 레이블을 지정합니다.

F1 점수

F1 점수는 정밀도와 재현율의 함수입니다. 정밀도재현율 사이의 균형을 추구할 때 필요합니다.

모델

모델은 특정 작업을 수행하도록 학습된 개체(이 경우 텍스트 분류 작업)입니다. 모델은 나중에 분류 작업에 사용할 수 있도록 학습할 레이블이 지정된 데이터를 제공하여 학습됩니다.

  • 모델 학습은 레이블이 지정된 데이터를 기반으로 문서를 분류하는 방법을 모델에 가르치는 프로세스입니다.
  • 모델 평가는 모델의 성능을 파악하기 위해 학습 직후에 수행되는 프로세스입니다.
  • 배포예측 API를 통해 사용할 수 있도록 모델을 배포에 할당하는 프로세스입니다.

정밀도

모델이 얼마나 정확하고 정확한지를 측정합니다. 올바르게 식별된 긍정(진양성)과 식별된 모든 긍정 간의 비율입니다. 정밀도 메트릭은 예측된 클래스 중 얼마나 많은 레이블이 올바르게 지정되었는지 보여 줍니다.

Project

프로젝트는 데이터를 기반으로 하는 사용자 지정 ML 모델을 빌드하기 위한 작업 영역입니다. 사용자 및 사용 중인 Azure 리소스에 대해 액세스 권한이 있는 다른 사용자만 프로젝트에 액세스할 수 있습니다. 사용자 지정 텍스트 분류 프로젝트를 만들기 위한 필수 조건으로 새 프로젝트를 만들 때 리소스를 데이터 세트가 있는 스토리지 계정에 연결해야 합니다. 프로젝트에는 컨테이너에서 사용할 수 있는 모든 .txt 파일이 자동으로 포함됩니다.

프로젝트 내에서 다음을 수행할 수 있습니다.

  • 데이터에 레이블 지정: 모델을 학습시킬 때 추출하려는 내용을 학습할 수 있도록 데이터에 레이블을 지정하는 프로세스입니다.
  • 모델 빌드 및 학습: 레이블이 지정된 데이터에서 모델이 학습을 시작하는 프로젝트의 핵심 단계입니다.
  • 모델 평가 세부 정보 보기: 모델 성능을 검토하여 개선할 여지가 있는지 또는 결과에 만족하는지 결정합니다.
  • 배포: 모델 성능을 검토하고 사용자 환경에서 사용하기에 적합한지 결정한 후 쿼리할 수 있도록 배포에 할당해야 합니다. 모델을 배포에 할당하면 예측 API를 통해 사용할 수 있습니다.
  • 테스트 모델: 모델을 배포한 후 Language Studio에서 이 작업을 사용하여 배포를 사용해 보고 프로덕션 환경에서 어떻게 작동하는지 확인할 수 있습니다.

프로젝트 유형

사용자 지정 텍스트 분류는 두 가지 유형의 프로젝트를 지원합니다.

  • 단일 레이블 분류 - 데이터 세트의 각 문서에 대해 단일 클래스를 할당할 수 있습니다. 예를 들어 영화 스크립트는 "Romance" 또는 "Comedy"로만 분류할 수 있습니다.
  • 다중 레이블 분류 - 데이터 세트의 각 문서에 대해 다중 클래스를 할당할 수 있습니다. 예를 들어 영화 스크립트는 "Comedy" 또는 "Romance" 및 "Comedy"로 분류될 수 있습니다.

재현율

실제 양성 클래스를 예측하는 모델의 능력을 측정합니다. 예측된 진양성과 실제로 태그된 것 간의 비율입니다. 재현율 메트릭은 예측된 클래스 중 얼마나 많은 것이 올바른지 보여 줍니다.

다음 단계