Sdílet prostřednictvím


Přijaté formáty dat ve vlastní analýze textu pro stav

V tomto článku se dozvíte, jak naformátovat data, která se mají importovat do vlastní analýzy textu pro stav.

Pokud se pokoušíte importovat data do vlastního Analýza textu pro stav, musí postupovat podle konkrétního formátu. Pokud nemáte data k importu, můžete vytvořit projekt a použít Language Studio k označení dokumentů.

Soubor Štítky by měl být ve json formátu níže, který se má použít při importu štítků do projektu.

{
	"projectFileVersion": "{API-VERSION}",
	"stringIndexType": "Utf16CodeUnit",
	"metadata": {
		"projectName": "{PROJECT-NAME}",
		"projectKind": "CustomHealthcare",
		"description": "Trying out custom Text Analytics for health",
		"language": "{LANGUAGE-CODE}",
		"multilingual": true,
		"storageInputContainerName": "{CONTAINER-NAME}",
		"settings": {}
	},
	"assets": {
		"projectKind": "CustomHealthcare",
		"entities": [
			{
				"category": "Entity1",
				"compositionSetting": "{COMPOSITION-SETTING}",
				"list": {
					"sublists": [
						{
							"listKey": "One",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"EntityNumberOne",
										"FirstEntity"
									]
								}
							]
						}
					]
				}
			},
			{
				"category": "Entity2"
			},
			{
				"category": "MedicationName",
				"list": {
					"sublists": [
						{
							"listKey": "research drugs",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"rdrug a",
										"rdrug b"
									]
								}
							]

						}
					]
				}
				"prebuilts": "MedicationName"
			}
		],
		"documents": [
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 500,
						"labels": [
							{
								"category": "Entity1",
								"offset": 25,
								"length": 10
							},
							{
								"category": "Entity2",
								"offset": 120,
								"length": 8
							}
						]
					}
				]
			},
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 100,
						"labels": [
							{
								"category": "Entity2",
								"offset": 20,
								"length": 5
							}
						]
					}
				]
			}
		]
	}
}

Klíč Zástupný symbol Hodnota Příklad
multilingual true Logická hodnota, která umožňuje mít v datové sadě dokumenty ve více jazycích a při nasazení modelu můžete dotazovat model v libovolném podporovaném jazyce (nemusí nutně být součástí trénovacích dokumentů). Další informace o podpoře více jazyků najdete v podpoře jazyků. true
projectName {PROJECT-NAME} Název projektu myproject
storageInputContainerName {CONTAINER-NAME} Název kontejneru mycontainer
entities Pole obsahující všechny typy entit, které máte v projektu. Jedná se o typy entit, které se z dokumentů extrahují.
category Název typu entity, který lze definovat pro nové definice entit nebo předdefinovaný pro předem připravené entity. Další informace najdete v níže uvedených pravidlech pojmenování entit.
compositionSetting {COMPOSITION-SETTING} Pravidlo, které definuje, jak spravovat více komponent ve vaší entitě. Možnosti jsou combineComponents nebo separateComponents. combineComponents
list Pole obsahující všechny dílčí seznamy, které máte v projektu pro konkrétní entitu. Seznamy lze přidat do předem připravených entit nebo nových entit s naučenými komponentami.
sublists [] Pole obsahující dílčí seznamy. Každý dílčí seznam je klíč a jeho přidružené hodnoty. []
listKey One Normalizovaná hodnota pro seznam synonym, která se mají namapovat zpět do predikce. One
synonyms [] Pole obsahující všechna synonyma synonymum
language {LANGUAGE-CODE} Řetězec určující kód jazyka pro synonymum v podsestavě. Pokud je projekt vícejazyčný a chcete podporovat seznam synonym pro všechny jazyky v projektu, musíte do každého jazyka explicitně přidat synonyma. Další informace o podporovaných kódech jazyka najdete v části Podpora jazyků. en
values "EntityNumberone", "FirstEntity" Seznam řetězců oddělených čárkami, které budou přesně odpovídat extrakci a mapování na klíč seznamu. "EntityNumberone", "FirstEntity"
prebuilts MedicationName Název předem připravené komponenty naplňující předem připravenou entitu. Předem připravené entity se ve výchozím nastavení automaticky načtou do projektu, ale v souboru popisků je můžete rozšířit o komponenty seznamu. MedicationName
documents Pole obsahující všechny dokumenty v projektu a seznam entit označených v rámci každého dokumentu []
location {DOCUMENT-NAME} Umístění dokumentů v kontejneru úložiště. Vzhledem k tomu, že všechny dokumenty jsou v kořenovém adresáři kontejneru, měl by to být název dokumentu. doc1.txt
dataset {DATASET} Testovací sada, na kterou se tento soubor před trénováním rozdělí. Další informace o rozdělení dat najdete tady. Možné hodnoty pro toto pole jsou Train a Test. Train
regionOffset Inkluzivní pozice znaku začátku textu. 0
regionLength Délka ohraničujícího rámečku z hlediska znaků UTF16. Trénování bere v úvahu pouze data v této oblasti. 500
category Typ entity přidružené k rozsahu zadaného textu. Entity1
offset Počáteční pozice textu entity. 25
length Délka entity z hlediska znaků UTF16. 20
language {LANGUAGE-CODE} Řetězec určující kód jazyka pro dokument použitý v projektu. Pokud je projekt vícejazyčný, zvolte kód jazyka většiny dokumentů. Další informace o podporovaných kódech jazyka najdete v části Podpora jazyků. en

Pravidla pojmenování entit

  1. Předem připravené názvy entit jsou předdefinované. Musí být vyplněné předem připravenou komponentou a musí odpovídat názvu entity.
  2. Nové uživatelem definované entity (entity s naučenými komponentami nebo textem s popiskem) nemůžou používat předem připravené názvy entit.
  3. Nové uživatelem definované entity nelze naplnit předem připravenými komponentami, protože předem připravené komponenty musí odpovídat názvům přidružených entit a nemají v poli dokumentů přiřazená žádná označená data.

Další kroky

  • Data s popisky můžete do projektu importovat přímo. Naučte se importovat projekt.
  • Další informace o označování dat najdete v článku s postupy.
  • Až budete mít popisky dat, můžete model vytrénovat.