다음을 통해 공유


사용자 지정 건강 텍스트 분석에서 허용되는 데이터 형식

이 문서를 사용하여 사용자 지정 건강 텍스트 분석으로 가져올 데이터 형식을 지정하는 방법을 알아보세요.

사용자 지정 건강 텍스트 분석으로 데이터를 가져오려면 특정 형식을 따라야 합니다. 가져올 데이터가 없는 경우 프로젝트를 만들고 Language Studio를 사용하여 문서에 레이블을 지정할 수 있습니다.

레이블을 프로젝트로 가져올 때 사용하려면 레이블 파일이 아래의 json 형식이어야 합니다.

{
	"projectFileVersion": "{API-VERSION}",
	"stringIndexType": "Utf16CodeUnit",
	"metadata": {
		"projectName": "{PROJECT-NAME}",
		"projectKind": "CustomHealthcare",
		"description": "Trying out custom Text Analytics for health",
		"language": "{LANGUAGE-CODE}",
		"multilingual": true,
		"storageInputContainerName": "{CONTAINER-NAME}",
		"settings": {}
	},
	"assets": {
		"projectKind": "CustomHealthcare",
		"entities": [
			{
				"category": "Entity1",
				"compositionSetting": "{COMPOSITION-SETTING}",
				"list": {
					"sublists": [
						{
							"listKey": "One",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"EntityNumberOne",
										"FirstEntity"
									]
								}
							]
						}
					]
				}
			},
			{
				"category": "Entity2"
			},
			{
				"category": "MedicationName",
				"list": {
					"sublists": [
						{
							"listKey": "research drugs",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"rdrug a",
										"rdrug b"
									]
								}
							]

						}
					]
				}
				"prebuilts": "MedicationName"
			}
		],
		"documents": [
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 500,
						"labels": [
							{
								"category": "Entity1",
								"offset": 25,
								"length": 10
							},
							{
								"category": "Entity2",
								"offset": 120,
								"length": 8
							}
						]
					}
				]
			},
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 100,
						"labels": [
							{
								"category": "Entity2",
								"offset": 20,
								"length": 5
							}
						]
					}
				]
			}
		]
	}
}

자리 표시자 예제
multilingual true 데이터 세트에 여러 언어로 된 문서를 포함할 수 있고 모델을 배포할 때 지원되는 모든 언어로 모델을 쿼리할 수 있는 부울 값입니다(반드시 학습 문서에 포함되지는 않음). 다국어 지원에 대한 자세한 내용은 언어 지원을 참조하세요. true
projectName {PROJECT-NAME} 프로젝트 이름 myproject
storageInputContainerName {CONTAINER-NAME} 컨테이너 이름 mycontainer
entities 프로젝트에 있는 모든 엔터티 형식을 포함하는 배열입니다. 이러한 엔터티 형식은 문서에서 추출할 엔터티 형식입니다.
category 새 엔터티 정의에 대해 사용자 정의되거나 미리 작성된 엔터티에 대해 미리 정의될 수 있는 엔터티 유형의 이름입니다. 자세한 내용은 아래 엔터티 명명 규칙을 참조하세요.
compositionSetting {COMPOSITION-SETTING} 엔터티에서 여러 구성 요소를 관리하는 방법을 정의하는 규칙입니다. 옵션은 combineComponents 또는 separateComponents입니다. combineComponents
list 특정 엔터티에 대해 프로젝트에 있는 모든 하위 목록을 포함하는 배열입니다. 미리 작성된 엔터티나 학습된 구성 요소가 있는 새 엔터티에 목록을 추가할 수 있습니다.
sublists [] 하위 목록을 포함하는 배열입니다. 각 하위 목록은 키 및 관련 값입니다. []
listKey One 예측에서 다시 매핑할 동의어 목록에 대한 정규화된 값입니다. One
synonyms [] 모든 동의어를 포함하는 배열 동의어
language {LANGUAGE-CODE} 하위 목록의 동의어에 대한 언어 코드를 지정하는 문자열입니다. 프로젝트가 다국어 프로젝트이고 프로젝트의 모든 언어에 대한 동의어 목록을 지원하려면 각 언어에 동의어를 명시적으로 추가해야 합니다. 지원되는 언어 코드에 대한 자세한 내용은 언어 지원을 참조하세요. en
values "EntityNumberone", "FirstEntity" 추출을 위해 정확히 일치되고 목록 키에 매핑되는 쉼표로 구분된 문자열 목록입니다. "EntityNumberone", "FirstEntity"
prebuilts MedicationName 미리 빌드된 엔터티를 채우는 미리 빌드된 구성 요소의 이름입니다. 사전 빌드된 엔터티는 기본적으로 프로젝트에 자동으로 로드되지만 레이블 파일의 목록 구성 요소를 사용하여 확장할 수 있습니다. MedicationName
documents 프로젝트의 모든 문서 및 각 문서 내에서 레이블이 지정된 엔터티 목록을 포함하는 배열입니다. []
location {DOCUMENT-NAME} 스토리지 컨테이너에 있는 문서의 위치입니다. 모든 문서가 컨테이너의 루트에 있으므로 문서 이름이어야 합니다. doc1.txt
dataset {DATASET} 학습 전 분할 시 이 파일이 이동하는 테스트 집합입니다. 여기에서 데이터 분할에 대해 자세히 알아보세요. 이 필드에 사용할 수 있는 값은 TrainTest입니다. Train
regionOffset 텍스트 시작의 포함 문자 위치입니다. 0
regionLength UTF16 문자로 나타낸 경계 상자의 길이입니다. 학습은 이 지역의 데이터만 고려합니다. 500
category 지정된 텍스트 범위와 연결된 엔터티 형식입니다. Entity1
offset 엔터티 텍스트의 시작 위치입니다. 25
length UTF16 문자로 나타낸 엔터티의 길이입니다. 20
language {LANGUAGE-CODE} 프로젝트에 사용되는 문서의 언어 코드를 지정하는 문자열입니다. 프로젝트가 다국어 프로젝트인 경우 대부분의 문서에 대한 언어 코드를 선택합니다. 지원되는 언어 코드에 대한 자세한 내용은 언어 지원을 참조하세요. en

엔터티 명명 규칙

  1. 사전 빌드된 엔터티 이름이 사전 정의되어 있습니다. 사전 빌드된 구성 요소로 채워야 하며 엔터티 이름과 일치해야 합니다.
  2. 새로운 사용자 정의 엔터티(학습된 구성 요소 또는 레이블이 지정된 텍스트가 있는 엔터티)는 미리 작성된 엔터티 이름을 사용할 수 없습니다.
  3. 사전 빌드된 구성 요소는 연관된 엔터티 이름과 일치해야 하고 문서 배열에 레이블이 지정된 데이터가 할당되어 있지 않으므로 새 사용자 정의 엔터티는 사전 빌드된 구성 요소로 채워질 수 없습니다.

다음 단계

  • 레이블이 지정된 데이터를 프로젝트로 직접 가져올 수 있습니다. 프로젝트를 가져오는 방법을 알아봅니다.
  • 데이터 레이블 지정에 관한 자세한 내용은 방법 문서를 참조하세요.
  • 데이터 레이블 지정을 완료하면 모델을 학습시킬 수 있습니다.