Sdílet prostřednictvím


Akceptované formáty dat ve vlastní analýze textu pro stav

V tomto článku se dozvíte o formátování dat, která se mají importovat do vlastní analýzy textu pro účely stavu.

Pokud se pokoušíte importovat data do Textová Analýza na míru pro zdravotnictví, musí být v určitém formátu. Pokud nemáte data k importu, můžete vytvořit projekt a použít Jazykové studio k označení dokumentů.

Soubor Popisky by měl být v json následujícím formátu, který se má použít při importu štítků do projektu.

{
	"projectFileVersion": "{API-VERSION}",
	"stringIndexType": "Utf16CodeUnit",
	"metadata": {
		"projectName": "{PROJECT-NAME}",
		"projectKind": "CustomHealthcare",
		"description": "Trying out custom Text Analytics for health",
		"language": "{LANGUAGE-CODE}",
		"multilingual": true,
		"storageInputContainerName": "{CONTAINER-NAME}",
		"settings": {}
	},
	"assets": {
		"projectKind": "CustomHealthcare",
		"entities": [
			{
				"category": "Entity1",
				"compositionSetting": "{COMPOSITION-SETTING}",
				"list": {
					"sublists": [
						{
							"listKey": "One",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"EntityNumberOne",
										"FirstEntity"
									]
								}
							]
						}
					]
				}
			},
			{
				"category": "Entity2"
			},
			{
				"category": "MedicationName",
				"list": {
					"sublists": [
						{
							"listKey": "research drugs",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"rdrug a",
										"rdrug b"
									]
								}
							]

						}
					]
				}
				"prebuilts": "MedicationName"
			}
		],
		"documents": [
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 500,
						"labels": [
							{
								"category": "Entity1",
								"offset": 25,
								"length": 10
							},
							{
								"category": "Entity2",
								"offset": 120,
								"length": 8
							}
						]
					}
				]
			},
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 100,
						"labels": [
							{
								"category": "Entity2",
								"offset": 20,
								"length": 5
							}
						]
					}
				]
			}
		]
	}
}

Klíč Zástupný symbol Hodnota Příklad
multilingual true Logická hodnota, která umožňuje mít v datové sadě dokumenty v několika jazycích, a když je model nasazený, můžete se na model dotazovat v libovolném podporovaném jazyce (nemusí být nutně součástí trénovacích dokumentů). Další informace o podpoře více jazyků najdete v tématu Podpora jazyků . true
projectName {PROJECT-NAME} Název projektu myproject
storageInputContainerName {CONTAINER-NAME} Název kontejneru mycontainer
entities Pole obsahující všechny typy entit, které máte v projektu. Jedná se o typy entit, do které se budou extrahovat z vašich dokumentů.
category Název typu entity, který může být definován uživatelem pro nové definice entit nebo předdefinovaný pro předem vytvořené entity. Další informace najdete níže v pravidlech pojmenování entit.
compositionSetting {COMPOSITION-SETTING} Pravidlo, které definuje, jak spravovat více komponent v entitě. Možnosti jsou combineComponents nebo separateComponents. combineComponents
list Pole obsahující všechny dílčí seznamy, které máte v projektu pro konkrétní entitu. Seznamy je možné přidat do předem připravených entit nebo nových entit s naučenými komponentami.
sublists [] Pole obsahující dílčí seznamy. Každý podseznam je klíč a jeho přidružené hodnoty. []
listKey One Normalizovaná hodnota seznamu synonym, na která se má mapovat zpět v predikci. One
synonyms [] Pole obsahující všechna synonyma Synonymum
language {LANGUAGE-CODE} Řetězec určující kód jazyka pro synonymum v podsoučtu. Pokud je váš projekt vícejazyčný projekt a chcete podporovat seznam synonym pro všechny jazyky v projektu, musíte do každého jazyka explicitně přidat synonyma. Další informace o podporovaných kódech jazyků najdete v tématu Podpora jazyků. en
values "EntityNumberone", "FirstEntity" Seznam řetězců oddělených čárkami, které budou přesně spárovány pro extrakci a mapování na klíč seznamu. "EntityNumberone", "FirstEntity"
prebuilts MedicationName Název předem připravené komponenty, která naplňuje předem připravenou entitu. Předem připravené entity se ve výchozím nastavení automaticky načtou do projektu, ale můžete je rozšířit o komponenty seznamu v souboru štítků. MedicationName
documents Pole obsahující všechny dokumenty v projektu a seznam entit označených v jednotlivých dokumentech. []
location {DOCUMENT-NAME} Umístění dokumentů v kontejneru úložiště. Vzhledem k tomu, že všechny dokumenty jsou v kořenovém adresáři kontejneru, měl by to být název dokumentu. doc1.txt
dataset {DATASET} Testovací sada, do které tento soubor přejde při rozdělení před trénováním. Další informace o rozdělení dat najdete tady. Možné hodnoty pro toto pole jsou Train a Test. Train
regionOffset Pozice inkluzivního znaku začátku textu. 0
regionLength Délka ohraničujícího rámečku z hlediska znaků UTF16. Trénování bere v úvahu pouze data v této oblasti. 500
category Typ entity přidružené k zadanému rozsahu textu. Entity1
offset Počáteční pozice pro text entity. 25
length Délka entity z hlediska znaků UTF16. 20
language {LANGUAGE-CODE} Řetězec určující kód jazyka pro dokument použitý v projektu. Pokud se jedná o vícejazyčný projekt, zvolte kód jazyka většiny dokumentů. Další informace o podporovaných kódech jazyků najdete v tématu Podpora jazyků. en

Pravidla pojmenování entit

  1. Předem připravené názvy entit jsou předdefinované. Musí být vyplněny předem připravenou komponentou a musí odpovídat názvu entity.
  2. Nové uživatelem definované entity (entity s naučenými komponentami nebo textem s popiskem) nemohou používat předem vytvořené názvy entit.
  3. Nové uživatelem definované entity není možné naplnit předem vytvořenými komponentami, protože předem vytvořené komponenty musí odpovídat názvům přidružených entit a v poli dokumentů jim nesmí být přiřazena žádná označená data.

Další kroky