허용되는 데이터 서식
데이터를 사용자 지정 텍스트 분류로 가져오려는 경우 특정 형식을 따라야 합니다. 가져올 데이터가 없는 경우 프로젝트를 만들고 Language Studio를 사용하여 문서에 레이블을 지정할 수 있습니다.
레이블 파일 형식
레이블 파일은 아래 json
형식이어야 합니다. 이렇게 하면 레이블을 프로젝트로 가져올 수 있습니다.
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomMultiLabelClassification",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us"
},
"assets": {
"projectKind": "CustomMultiLabelClassification",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
]
}
]
}
}
키 | 자리 표시자 | 값 | 예제 |
---|---|---|---|
다국어 | true |
데이터 세트에 여러 언어로 된 문서를 포함할 수 있고 모델을 배포할 때 지원되는 모든 언어로 모델을 쿼리할 수 있는 부울 값입니다(반드시 학습 문서에 포함되지는 않음). 다국어 지원에 대한 자세한 내용은 언어 지원을 참조하세요. | true |
projectName | {PROJECT-NAME} |
프로젝트 이름 | myproject |
storageInputContainerName | {CONTAINER-NAME} |
컨테이너 이름 | mycontainer |
클래스 | [] | 프로젝트에 있는 모든 클래스를 포함하는 배열입니다. 문서를 분류할 클래스는 다음과 같습니다. | [] |
문서 | [] | 프로젝트의 모든 문서와 이 문서에 레이블이 지정된 클래스가 포함된 배열입니다. | [] |
location | {DOCUMENT-NAME} |
스토리지 컨테이너에 있는 문서의 위치입니다. 모든 문서가 컨테이너의 루트에 있으므로 이 값은 문서 이름이어야 합니다. | doc1.txt |
데이터 세트 | {DATASET} |
학습 전 분할 시 이 파일이 이동할 테스트 집합입니다. 자세한 내용은 모델 학습 방법을 참조하세요. 이 필드에 사용할 수 있는 값은 Train 및 Test 입니다. |
Train |
다음 단계
- 레이블이 지정된 데이터를 프로젝트로 직접 가져올 수 있습니다. 프로젝트를 만드는 방법을 참조하여 프로젝트 가져오기에 대해 자세히 알아보세요.
- 데이터 레이블 지정에 관한 자세한 내용은 방법 문서를 참조하세요. 데이터 레이블 지정을 완료하면 모델을 학습시킬 수 있습니다.