다음을 통해 공유


허용되는 사용자 지정 NER 데이터 형식

사용자 지정 NER로 데이터를 가져오려는 경우 특정 형식을 따라야 합니다. 가져올 데이터가 없는 경우 프로젝트를 만들고 Language Studio를 사용하여 문서에 레이블을 지정할 수 있습니다.

레이블 파일 형식

레이블을 프로젝트로 가져오는 데 사용할 레이블 파일은 아래 json 형식이어야 합니다.

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

자리 표시자 예제
multilingual true 데이터 세트에 여러 언어로 된 문서를 포함할 수 있고 모델을 배포할 때 지원되는 모든 언어로 모델을 쿼리할 수 있는 부울 값입니다(반드시 학습 문서에 포함되지는 않음). 다국어 지원에 대한 자세한 내용은 언어 지원을 참조하세요. true
projectName {PROJECT-NAME} 프로젝트 이름 myproject
storageInputContainerName {CONTAINER-NAME} 컨테이너 이름 mycontainer
entities 프로젝트에 있는 모든 엔터티 형식을 포함하는 배열입니다. 이러한 엔터티 형식은 문서에서 추출할 엔터티 형식입니다.
documents 프로젝트의 모든 문서 및 각 문서 내에서 레이블이 지정된 엔터티 목록을 포함하는 배열입니다. []
location {DOCUMENT-NAME} 스토리지 컨테이너에 있는 문서의 위치입니다. 모든 문서가 컨테이너의 루트에 있으므로 문서 이름이어야 합니다. doc1.txt
dataset {DATASET} 학습 전 분할 시 이 파일이 이동할 테스트 집합입니다. 여기에서 데이터 분할에 대해 자세히 알아보세요. 이 필드에 사용할 수 있는 값은 TrainTest입니다. Train
regionOffset 텍스트 시작의 포함 문자 위치입니다. 0
regionLength UTF16 문자로 나타낸 경계 상자의 길이입니다. 학습은 이 지역의 데이터만 고려합니다. 500
category 지정된 텍스트 범위와 연결된 엔터티 형식입니다. Entity1
offset 엔터티 텍스트의 시작 위치입니다. 25
length UTF16 문자로 나타낸 엔터티의 길이입니다. 20
language {LANGUAGE-CODE} 프로젝트에 사용되는 문서의 언어 코드를 지정하는 문자열입니다. 프로젝트가 다국어 프로젝트인 경우 대부분의 문서에 대한 언어 코드를 선택합니다. 지원되는 언어 코드에 대한 자세한 내용은 언어 지원을 참조하세요. en-us

다음 단계

  • 레이블이 지정된 데이터를 프로젝트로 직접 가져올 수 있습니다. 프로젝트를 가져오는 방법을 알아봅니다.
  • 데이터 레이블 지정에 관한 자세한 내용은 방법 문서를 참조하세요. 데이터 레이블 지정을 완료하면 모델을 학습시킬 수 있습니다.