Share via


허용되는 데이터 서식

데이터를 사용자 지정 텍스트 분류로 가져오려는 경우 특정 형식을 따라야 합니다. 가져올 데이터가 없는 경우 프로젝트를 만들고 Language Studio를 사용하여 문서에 레이블을 지정할 수 있습니다.

레이블 파일 형식

레이블 파일은 아래 json 형식이어야 합니다. 이렇게 하면 레이블을 프로젝트로 가져올 수 있습니다.

{
    "projectFileVersion": "2022-05-01",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
      "projectKind": "CustomMultiLabelClassification",
      "storageInputContainerName": "{CONTAINER-NAME}",
      "projectName": "{PROJECT-NAME}",
      "multilingual": false,
      "description": "Project-description",
      "language": "en-us"
    },
    "assets": {
      "projectKind": "CustomMultiLabelClassification",
      "classes": [
        {
          "category": "Class1"
        },
        {
          "category": "Class2"
        }
      ],
      "documents": [
          {
              "location": "{DOCUMENT-NAME}",
              "language": "{LANGUAGE-CODE}",
              "dataset": "{DATASET}",
              "classes": [
                  {
                      "category": "Class1"
                  },
                  {
                      "category": "Class2"
                  }
              ]
          }
      ]
  }
자리 표시자 예제
다국어 true 데이터 세트에 여러 언어로 된 문서를 포함할 수 있고 모델을 배포할 때 지원되는 모든 언어로 모델을 쿼리할 수 있는 부울 값입니다(반드시 학습 문서에 포함되지는 않음). 다국어 지원에 대한 자세한 내용은 언어 지원을 참조하세요. true
projectName {PROJECT-NAME} 프로젝트 이름 myproject
storageInputContainerName {CONTAINER-NAME} 컨테이너 이름 mycontainer
클래스 [] 프로젝트에 있는 모든 클래스를 포함하는 배열입니다. 문서를 분류할 클래스는 다음과 같습니다. []
문서 [] 프로젝트의 모든 문서와 이 문서에 레이블이 지정된 클래스가 포함된 배열입니다. []
location {DOCUMENT-NAME} 스토리지 컨테이너에 있는 문서의 위치입니다. 모든 문서가 컨테이너의 루트에 있으므로 이 값은 문서 이름이어야 합니다. doc1.txt
데이터 세트 {DATASET} 학습 전 분할 시 이 파일이 이동할 테스트 집합입니다. 자세한 내용은 모델 학습 방법을 참조하세요. 이 필드에 사용할 수 있는 값은 TrainTest입니다. Train

다음 단계

  • 레이블이 지정된 데이터를 프로젝트로 직접 가져올 수 있습니다. 프로젝트를 만드는 방법을 참조하여 프로젝트 가져오기에 대해 자세히 알아보세요.
  • 데이터 레이블 지정에 관한 자세한 내용은 방법 문서를 참조하세요. 데이터 레이블 지정을 완료하면 모델을 학습시킬 수 있습니다.