다음을 통해 공유


사용자 지정 감정 분석을 위해 데이터를 준비하는 방법

사용자 지정 감정 분석 모델을 만들려면 학습을 위한 양질의 데이터가 필요합니다. 이 문서에서는 스키마 정의와 함께 데이터 선택 및 준비 방법을 다룹니다. 스키마 정의는 프로젝트 개발 수명 주기의 첫 번째 단계이며, 스키마는 런타임에 텍스트를 분류하기 위해 모델이 필요한 클래스를 정의합니다.

데이터 선택 항목

모델을 학습하는 데 사용하는 데이터의 품질은 모델 성능에 큰 영향을 미칩니다.

  • 도메인의 문제 공간을 반영하는 실제 데이터를 사용하여 모델을 효과적으로 학습합니다. 합성 데이터를 사용하여 초기 모델 교육 프로세스를 가속화할 수 있지만 실제 데이터와 다를 수 있으며 사용 시 모델의 효율성이 떨어질 수 있습니다.

  • 실제 분포에서 벗어나지 않고 최대한 데이터 분포의 균형을 유지합니다.

  • 모델의 과적합을 피하기 위해 가능하면 다양한 데이터를 사용합니다. 학습 데이터의 다양성이 적으면 실제 데이터에 존재하지 않을 수 있는 잘못된 상관 관계를 학습하는 모델이 발생할 수 있습니다.

  • 데이터에서 문서를 복제하지 않도록 합니다. 중복 데이터는 학습 프로세스, 모델 메트릭 및 모델 성능에 부정적인 영향을 미칩니다.

  • 데이터의 출처를 고려합니다. 한 사람, 부서 또는 시나리오의 일부에서 데이터를 수집하는 경우 모델이 학습하는 데 중요할 수 있는 다양성을 놓치고 있을 수 있습니다.

참고 항목

문서가 여러 언어로 이루어진 경우 프로젝트를 만드는 동안 여러 언어 옵션을 선택하고 언어 옵션을 대부분의 문서 언어로 설정합니다.

데이터 준비

사용자 지정 감정 분석 프로젝트를 만들기 위한 필수 구성 요소로 학습 데이터를 스토리지 계정의 Blob 컨테이너에 업로드해야 합니다. Azure에서 직접 또는 Azure Storage Explorer 도구를 사용하여 학습 문서를 만들고 업로드할 수 있습니다. Azure Storage Explorer 도구를 사용하면 더 많은 데이터를 빠르게 업로드할 수 있습니다.

.txt만 사용할 수 있습니다. 사용자 지정 텍스트에 대한 문서입니다. 데이터가 다른 형식인 경우 CLUtils 구문 분석 명령을 사용하여 파일 형식을 변경할 수 있습니다.

테스트 집합

테스트 집합을 정의할 때 학습 집합에 없는 예제 문서를 포함해야 합니다. 테스트 집합을 정의하는 것은 모델 성능을 계산하는 중요한 단계입니다. 또한 테스트 집합에 프로젝트에서 사용되는 모든 클래스를 나타내는 문서가 포함되어 있는지 확인합니다.

다음 단계

아직 만들지 않은 경우 사용자 지정 감정 분석 프로젝트를 만듭니다. 사용자 감정 분석을 처음 사용하는 경우 빠른 시작에 따라 예시 프로젝트를 만드는 것이 좋습니다. 프로젝트를 만드는 데 필요한 사항에 대한 자세한 내용은 프로젝트 요구 사항을 참조할 수도 있습니다.