Přijaté formáty dat ve vlastní analýze textu pro stav

Článek
10/16/2024

V tomto článku se dozvíte, jak naformátovat data, která se mají importovat do vlastní analýzy textu pro stav.

Pokud se pokoušíte importovat data do vlastního Analýza textu pro stav, musí postupovat podle konkrétního formátu. Pokud nemáte data k importu, můžete vytvořit projekt a použít Language Studio k označení dokumentů.

Soubor Štítky by měl být ve json formátu níže, který se má použít při importu štítků do projektu.

{
	"projectFileVersion": "{API-VERSION}",
	"stringIndexType": "Utf16CodeUnit",
	"metadata": {
		"projectName": "{PROJECT-NAME}",
		"projectKind": "CustomHealthcare",
		"description": "Trying out custom Text Analytics for health",
		"language": "{LANGUAGE-CODE}",
		"multilingual": true,
		"storageInputContainerName": "{CONTAINER-NAME}",
		"settings": {}
	},
	"assets": {
		"projectKind": "CustomHealthcare",
		"entities": [
			{
				"category": "Entity1",
				"compositionSetting": "{COMPOSITION-SETTING}",
				"list": {
					"sublists": [
						{
							"listKey": "One",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"EntityNumberOne",
										"FirstEntity"
									]
								}
							]
						}
					]
				}
			},
			{
				"category": "Entity2"
			},
			{
				"category": "MedicationName",
				"list": {
					"sublists": [
						{
							"listKey": "research drugs",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"rdrug a",
										"rdrug b"
									]
								}
							]

						}
					]
				}
				"prebuilts": "MedicationName"
			}
		],
		"documents": [
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 500,
						"labels": [
							{
								"category": "Entity1",
								"offset": 25,
								"length": 10
							},
							{
								"category": "Entity2",
								"offset": 120,
								"length": 8
							}
						]
					}
				]
			},
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 100,
						"labels": [
							{
								"category": "Entity2",
								"offset": 20,
								"length": 5
							}
						]
					}
				]
			}
		]
	}
}

Klíč	Zástupný symbol	Hodnota	Příklad
`multilingual`	`true`	Logická hodnota, která umožňuje mít v datové sadě dokumenty ve více jazycích a při nasazení modelu můžete dotazovat model v libovolném podporovaném jazyce (nemusí nutně být součástí trénovacích dokumentů). Další informace o podpoře více jazyků najdete v podpoře jazyků.	`true`
`projectName`	`{PROJECT-NAME}`	Název projektu	`myproject`
`storageInputContainerName`	`{CONTAINER-NAME}`	Název kontejneru	`mycontainer`
`entities`		Pole obsahující všechny typy entit, které máte v projektu. Jedná se o typy entit, které se z dokumentů extrahují.
`category`		Název typu entity, který lze definovat pro nové definice entit nebo předdefinovaný pro předem připravené entity. Další informace najdete v níže uvedených pravidlech pojmenování entit.
`compositionSetting`	`{COMPOSITION-SETTING}`	Pravidlo, které definuje, jak spravovat více komponent ve vaší entitě. Možnosti jsou `combineComponents` nebo `separateComponents`.	`combineComponents`
`list`		Pole obsahující všechny dílčí seznamy, které máte v projektu pro konkrétní entitu. Seznamy lze přidat do předem připravených entit nebo nových entit s naučenými komponentami.
`sublists`	`[]`	Pole obsahující dílčí seznamy. Každý dílčí seznam je klíč a jeho přidružené hodnoty.	`[]`
`listKey`	`One`	Normalizovaná hodnota pro seznam synonym, která se mají namapovat zpět do predikce.	`One`
`synonyms`	`[]`	Pole obsahující všechna synonyma	synonymum
`language`	`{LANGUAGE-CODE}`	Řetězec určující kód jazyka pro synonymum v podsestavě. Pokud je projekt vícejazyčný a chcete podporovat seznam synonym pro všechny jazyky v projektu, musíte do každého jazyka explicitně přidat synonyma. Další informace o podporovaných kódech jazyka najdete v části Podpora jazyků.	`en`
`values`	`"EntityNumberone"`, `"FirstEntity"`	Seznam řetězců oddělených čárkami, které budou přesně odpovídat extrakci a mapování na klíč seznamu.	`"EntityNumberone"`, `"FirstEntity"`
`prebuilts`	`MedicationName`	Název předem připravené komponenty naplňující předem připravenou entitu. Předem připravené entity se ve výchozím nastavení automaticky načtou do projektu, ale v souboru popisků je můžete rozšířit o komponenty seznamu.	`MedicationName`
`documents`		Pole obsahující všechny dokumenty v projektu a seznam entit označených v rámci každého dokumentu	[]
`location`	`{DOCUMENT-NAME}`	Umístění dokumentů v kontejneru úložiště. Vzhledem k tomu, že všechny dokumenty jsou v kořenovém adresáři kontejneru, měl by to být název dokumentu.	`doc1.txt`
`dataset`	`{DATASET}`	Testovací sada, na kterou se tento soubor před trénováním rozdělí. Další informace o rozdělení dat najdete tady. Možné hodnoty pro toto pole jsou `Train` a `Test`.	`Train`
`regionOffset`		Inkluzivní pozice znaku začátku textu.	`0`
`regionLength`		Délka ohraničujícího rámečku z hlediska znaků UTF16. Trénování bere v úvahu pouze data v této oblasti.	`500`
`category`		Typ entity přidružené k rozsahu zadaného textu.	`Entity1`
`offset`		Počáteční pozice textu entity.	`25`
`length`		Délka entity z hlediska znaků UTF16.	`20`
`language`	`{LANGUAGE-CODE}`	Řetězec určující kód jazyka pro dokument použitý v projektu. Pokud je projekt vícejazyčný, zvolte kód jazyka většiny dokumentů. Další informace o podporovaných kódech jazyka najdete v části Podpora jazyků.	`en`

Pravidla pojmenování entit

Předem připravené názvy entit jsou předdefinované. Musí být vyplněné předem připravenou komponentou a musí odpovídat názvu entity.
Nové uživatelem definované entity (entity s naučenými komponentami nebo textem s popiskem) nemůžou používat předem připravené názvy entit.
Nové uživatelem definované entity nelze naplnit předem připravenými komponentami, protože předem připravené komponenty musí odpovídat názvům přidružených entit a nemají v poli dokumentů přiřazená žádná označená data.

Další kroky

Data s popisky můžete do projektu importovat přímo. Naučte se importovat projekt.
Další informace o označování dat najdete v článku s postupy.
Až budete mít popisky dat, můžete model vytrénovat.

Sdílet prostřednictvím

Přijaté formáty dat ve vlastní analýze textu pro stav

Pravidla pojmenování entit

Další kroky

Váš názor

Další materiály