허용되는 사용자 지정 NER 데이터 형식

사용자 지정 NER로 데이터를 가져오려는 경우 특정 형식을 따라야 합니다. 가져올 데이터가 없는 경우 프로젝트를 만들고 Language Studio를 사용하여 문서에 레이블을 지정할 수 있습니다.

레이블 파일 형식

레이블을 프로젝트로 가져오는 데 사용할 레이블 파일은 아래 json 형식이어야 합니다.

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

자리 표시자 예제
multilingual true 데이터 세트에 여러 언어로 된 문서를 포함할 수 있고 모델을 배포할 때 지원되는 모든 언어로 모델을 쿼리할 수 있는 부울 값입니다(반드시 학습 문서에 포함되지는 않음). 다국어 지원에 대한 자세한 내용은 언어 지원을 참조하세요. true
projectName {PROJECT-NAME} 프로젝트 이름 myproject
storageInputContainerName {CONTAINER-NAME} 컨테이너 이름 mycontainer
entities 프로젝트에 있는 모든 엔터티 형식을 포함하는 배열입니다. 이러한 엔터티 형식은 문서에서 추출할 엔터티 형식입니다.
documents 프로젝트의 모든 문서 및 각 문서 내에서 레이블이 지정된 엔터티 목록을 포함하는 배열입니다. []
location {DOCUMENT-NAME} 스토리지 컨테이너에 있는 문서의 위치입니다. 모든 문서가 컨테이너의 루트에 있으므로 문서 이름이어야 합니다. doc1.txt
dataset {DATASET} 학습 전 분할 시 이 파일이 이동할 테스트 집합입니다. 여기에서 데이터 분할에 대해 자세히 알아보세요. 이 필드에 사용할 수 있는 값은 TrainTest입니다. Train
regionOffset 텍스트 시작의 포함 문자 위치입니다. 0
regionLength UTF16 문자로 나타낸 경계 상자의 길이입니다. 학습은 이 지역의 데이터만 고려합니다. 500
category 지정된 텍스트 범위와 연결된 엔터티 형식입니다. Entity1
offset 엔터티 텍스트의 시작 위치입니다. 25
length UTF16 문자로 나타낸 엔터티의 길이입니다. 20
language {LANGUAGE-CODE} 프로젝트에 사용되는 문서의 언어 코드를 지정하는 문자열입니다. 프로젝트가 다국어 프로젝트인 경우 대부분의 문서에 대한 언어 코드를 선택합니다. 지원되는 언어 코드에 대한 자세한 내용은 언어 지원을 참조하세요. en-us

다음 단계

  • 레이블이 지정된 데이터를 프로젝트로 직접 가져올 수 있습니다. 프로젝트를 가져오는 방법을 알아봅니다.
  • 데이터 레이블 지정에 관한 자세한 내용은 방법 문서를 참조하세요. 데이터 레이블 지정을 완료하면 모델을 학습시킬 수 있습니다.