Zaakceptowane formaty danych w niestandardowej analizie tekstu na potrzeby kondycji

Artykuł
10/16/2024

Skorzystaj z tego artykułu, aby dowiedzieć się więcej o formatowaniu danych, które mają zostać zaimportowane do niestandardowej analizy tekstu na potrzeby kondycji.

Jeśli próbujesz zaimportować dane do niestandardowych analiza tekstu na potrzeby kondycji, musi ona mieć określony format. Jeśli nie masz danych do zaimportowania, możesz utworzyć projekt i użyć programu Language Studio do etykietowania dokumentów.

Plik Labels powinien być w json formacie poniżej, który ma być używany podczas importowania etykiet do projektu.

{
	"projectFileVersion": "{API-VERSION}",
	"stringIndexType": "Utf16CodeUnit",
	"metadata": {
		"projectName": "{PROJECT-NAME}",
		"projectKind": "CustomHealthcare",
		"description": "Trying out custom Text Analytics for health",
		"language": "{LANGUAGE-CODE}",
		"multilingual": true,
		"storageInputContainerName": "{CONTAINER-NAME}",
		"settings": {}
	},
	"assets": {
		"projectKind": "CustomHealthcare",
		"entities": [
			{
				"category": "Entity1",
				"compositionSetting": "{COMPOSITION-SETTING}",
				"list": {
					"sublists": [
						{
							"listKey": "One",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"EntityNumberOne",
										"FirstEntity"
									]
								}
							]
						}
					]
				}
			},
			{
				"category": "Entity2"
			},
			{
				"category": "MedicationName",
				"list": {
					"sublists": [
						{
							"listKey": "research drugs",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"rdrug a",
										"rdrug b"
									]
								}
							]

						}
					]
				}
				"prebuilts": "MedicationName"
			}
		],
		"documents": [
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 500,
						"labels": [
							{
								"category": "Entity1",
								"offset": 25,
								"length": 10
							},
							{
								"category": "Entity2",
								"offset": 120,
								"length": 8
							}
						]
					}
				]
			},
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 100,
						"labels": [
							{
								"category": "Entity2",
								"offset": 20,
								"length": 5
							}
						]
					}
				]
			}
		]
	}
}

Klucz	Symbol zastępczy	Wartość	Przykład
`multilingual`	`true`	Wartość logiczna, która umożliwia posiadanie dokumentów w wielu językach w zestawie danych, a po wdrożeniu modelu można wykonywać zapytania dotyczące modelu w dowolnym obsługiwanym języku (niekoniecznie zawarte w dokumentach szkoleniowych). Zobacz Obsługa języków, aby dowiedzieć się więcej o obsłudze wielojęzycznej.	`true`
`projectName`	`{PROJECT-NAME}`	Nazwa projektu	`myproject`
`storageInputContainerName`	`{CONTAINER-NAME}`	Nazwa kontenera	`mycontainer`
`entities`		Tablica zawierająca wszystkie typy jednostek, które znajdują się w projekcie. Są to typy jednostek, które zostaną wyodrębnione z dokumentów.
`category`		Nazwa typu jednostki, który może być zdefiniowany przez użytkownika dla nowych definicji jednostek lub wstępnie zdefiniowany dla wstępnie utworzonych jednostek. Aby uzyskać więcej informacji, zobacz poniższe reguły nazewnictwa jednostek.
`compositionSetting`	`{COMPOSITION-SETTING}`	Reguła definiująca sposób zarządzania wieloma składnikami w jednostce. Opcje to `combineComponents` lub `separateComponents`.	`combineComponents`
`list`		Tablica zawierająca wszystkie listy podrzędne, które znajdują się w projekcie dla określonej jednostki. Listy można dodawać do wstępnie utworzonych jednostek lub nowych jednostek ze poznanymi składnikami.
`sublists`	`[]`	Tablica zawierająca listy podrzędne. Każda lista podrzędna jest kluczem i skojarzonymi z nimi wartościami.	`[]`
`listKey`	`One`	Znormalizowana wartość listy synonimów, które mają być mapowane z powrotem na w przewidywaniu.	`One`
`synonyms`	`[]`	Tablica zawierająca wszystkie synonimy	synonim
`language`	`{LANGUAGE-CODE}`	Ciąg określający kod języka synonimu na liście podrzędnej. Jeśli projekt jest wielojęzycznym projektem i chcesz obsługiwać listę synonimów dla wszystkich języków w projekcie, musisz jawnie dodać synonimy do każdego języka. Aby uzyskać więcej informacji na temat obsługiwanych kodów języków, zobacz Obsługa języka.	`en`
`values`	`"EntityNumberone"`, `"FirstEntity"`	Lista ciągów rozdzielonych przecinkami, które będą dokładnie dopasowane do wyodrębniania i mapowania na klucz listy.	`"EntityNumberone"`, `"FirstEntity"`
`prebuilts`	`MedicationName`	Nazwa wstępnie utworzonego składnika wypełniającego wstępnie utworzoną jednostkę. Wstępnie utworzone jednostki są domyślnie ładowane do projektu, ale można je rozszerzać za pomocą składników listy w pliku etykiet.	`MedicationName`
`documents`		Tablica zawierająca wszystkie dokumenty w projekcie i listę jednostek oznaczonych w każdym dokumencie.	[]
`location`	`{DOCUMENT-NAME}`	Lokalizacja dokumentów w kontenerze magazynu. Ponieważ wszystkie dokumenty znajdują się w katalogu głównym kontenera, powinien to być nazwa dokumentu.	`doc1.txt`
`dataset`	`{DATASET}`	Zestaw testowy, do którego ten plik przechodzi po podzieleniu przed szkoleniem. Dowiedz się więcej na temat dzielenia danych tutaj. Możliwe wartości dla tego pola to `Train` i `Test`.	`Train`
`regionOffset`		Położenie znaku inkluzywnego początku tekstu.	`0`
`regionLength`		Długość pola ograniczenia pod względem znaków UTF16. Szkolenie uwzględnia tylko dane w tym regionie.	`500`
`category`		Typ jednostki skojarzonej z określonym zakresem tekstu.	`Entity1`
`offset`		Pozycja początkowa tekstu jednostki.	`25`
`length`		Długość jednostki pod względem znaków UTF16.	`20`
`language`	`{LANGUAGE-CODE}`	Ciąg określający kod języka dokumentu używanego w projekcie. Jeśli projekt jest projektem wielojęzycznym, wybierz kod języka większości dokumentów. Aby uzyskać więcej informacji na temat obsługiwanych kodów języków, zobacz Obsługa języka.	`en`

Reguły nazewnictwa jednostek

Wstępnie utworzone nazwy jednostek są wstępnie zdefiniowane. Muszą być wypełnione wstępnie utworzonym składnikiem i muszą być zgodne z nazwą jednostki.
Nowe jednostki zdefiniowane przez użytkownika (jednostki ze poznanymi składnikami lub tekstem oznaczonym etykietą) nie mogą używać wstępnie utworzonych nazw jednostek.
Nie można wypełnić nowych jednostek zdefiniowanych przez użytkownika wstępnie utworzonymi składnikami, ponieważ wstępnie utworzone składniki muszą być zgodne z nazwami skojarzonych jednostek i nie mają przypisanych do nich danych z etykietami w tablicy dokumentów.

Następne kroki

Dane z etykietami można zaimportować bezpośrednio do projektu. Dowiedz się, jak zaimportować projekt
Zobacz artykuł z instrukcjami, aby uzyskać więcej informacji na temat etykietowania danych.
Po zakończeniu etykietowania danych możesz wytrenować model.

Udostępnij za pośrednictwem

Zaakceptowane formaty danych w niestandardowej analizie tekstu na potrzeby kondycji

Reguły nazewnictwa jednostek

Następne kroki

Opinia

Dodatkowe zasoby