Udostępnij za pośrednictwem


Zaakceptowane formaty danych w niestandardowej analizie tekstu na potrzeby kondycji

Skorzystaj z tego artykułu, aby dowiedzieć się więcej o formatowaniu danych, które mają zostać zaimportowane do niestandardowej analizy tekstu na potrzeby kondycji.

Jeśli próbujesz zaimportować dane do niestandardowych analiza tekstu na potrzeby kondycji, musi ona mieć określony format. Jeśli nie masz danych do zaimportowania, możesz utworzyć projekt i użyć programu Language Studio do etykietowania dokumentów.

Plik Labels powinien być w json formacie poniżej, który ma być używany podczas importowania etykiet do projektu.

{
	"projectFileVersion": "{API-VERSION}",
	"stringIndexType": "Utf16CodeUnit",
	"metadata": {
		"projectName": "{PROJECT-NAME}",
		"projectKind": "CustomHealthcare",
		"description": "Trying out custom Text Analytics for health",
		"language": "{LANGUAGE-CODE}",
		"multilingual": true,
		"storageInputContainerName": "{CONTAINER-NAME}",
		"settings": {}
	},
	"assets": {
		"projectKind": "CustomHealthcare",
		"entities": [
			{
				"category": "Entity1",
				"compositionSetting": "{COMPOSITION-SETTING}",
				"list": {
					"sublists": [
						{
							"listKey": "One",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"EntityNumberOne",
										"FirstEntity"
									]
								}
							]
						}
					]
				}
			},
			{
				"category": "Entity2"
			},
			{
				"category": "MedicationName",
				"list": {
					"sublists": [
						{
							"listKey": "research drugs",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"rdrug a",
										"rdrug b"
									]
								}
							]

						}
					]
				}
				"prebuilts": "MedicationName"
			}
		],
		"documents": [
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 500,
						"labels": [
							{
								"category": "Entity1",
								"offset": 25,
								"length": 10
							},
							{
								"category": "Entity2",
								"offset": 120,
								"length": 8
							}
						]
					}
				]
			},
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 100,
						"labels": [
							{
								"category": "Entity2",
								"offset": 20,
								"length": 5
							}
						]
					}
				]
			}
		]
	}
}

Klucz Symbol zastępczy Wartość Przykład
multilingual true Wartość logiczna, która umożliwia posiadanie dokumentów w wielu językach w zestawie danych, a po wdrożeniu modelu można wykonywać zapytania dotyczące modelu w dowolnym obsługiwanym języku (niekoniecznie zawarte w dokumentach szkoleniowych). Zobacz Obsługa języków, aby dowiedzieć się więcej o obsłudze wielojęzycznej. true
projectName {PROJECT-NAME} Nazwa projektu myproject
storageInputContainerName {CONTAINER-NAME} Nazwa kontenera mycontainer
entities Tablica zawierająca wszystkie typy jednostek, które znajdują się w projekcie. Są to typy jednostek, które zostaną wyodrębnione z dokumentów.
category Nazwa typu jednostki, który może być zdefiniowany przez użytkownika dla nowych definicji jednostek lub wstępnie zdefiniowany dla wstępnie utworzonych jednostek. Aby uzyskać więcej informacji, zobacz poniższe reguły nazewnictwa jednostek.
compositionSetting {COMPOSITION-SETTING} Reguła definiująca sposób zarządzania wieloma składnikami w jednostce. Opcje to combineComponents lub separateComponents. combineComponents
list Tablica zawierająca wszystkie listy podrzędne, które znajdują się w projekcie dla określonej jednostki. Listy można dodawać do wstępnie utworzonych jednostek lub nowych jednostek ze poznanymi składnikami.
sublists [] Tablica zawierająca listy podrzędne. Każda lista podrzędna jest kluczem i skojarzonymi z nimi wartościami. []
listKey One Znormalizowana wartość listy synonimów, które mają być mapowane z powrotem na w przewidywaniu. One
synonyms [] Tablica zawierająca wszystkie synonimy synonim
language {LANGUAGE-CODE} Ciąg określający kod języka synonimu na liście podrzędnej. Jeśli projekt jest wielojęzycznym projektem i chcesz obsługiwać listę synonimów dla wszystkich języków w projekcie, musisz jawnie dodać synonimy do każdego języka. Aby uzyskać więcej informacji na temat obsługiwanych kodów języków, zobacz Obsługa języka. en
values "EntityNumberone", "FirstEntity" Lista ciągów rozdzielonych przecinkami, które będą dokładnie dopasowane do wyodrębniania i mapowania na klucz listy. "EntityNumberone", "FirstEntity"
prebuilts MedicationName Nazwa wstępnie utworzonego składnika wypełniającego wstępnie utworzoną jednostkę. Wstępnie utworzone jednostki są domyślnie ładowane do projektu, ale można je rozszerzać za pomocą składników listy w pliku etykiet. MedicationName
documents Tablica zawierająca wszystkie dokumenty w projekcie i listę jednostek oznaczonych w każdym dokumencie. []
location {DOCUMENT-NAME} Lokalizacja dokumentów w kontenerze magazynu. Ponieważ wszystkie dokumenty znajdują się w katalogu głównym kontenera, powinien to być nazwa dokumentu. doc1.txt
dataset {DATASET} Zestaw testowy, do którego ten plik przechodzi po podzieleniu przed szkoleniem. Dowiedz się więcej na temat dzielenia danych tutaj. Możliwe wartości dla tego pola to Train i Test. Train
regionOffset Położenie znaku inkluzywnego początku tekstu. 0
regionLength Długość pola ograniczenia pod względem znaków UTF16. Szkolenie uwzględnia tylko dane w tym regionie. 500
category Typ jednostki skojarzonej z określonym zakresem tekstu. Entity1
offset Pozycja początkowa tekstu jednostki. 25
length Długość jednostki pod względem znaków UTF16. 20
language {LANGUAGE-CODE} Ciąg określający kod języka dokumentu używanego w projekcie. Jeśli projekt jest projektem wielojęzycznym, wybierz kod języka większości dokumentów. Aby uzyskać więcej informacji na temat obsługiwanych kodów języków, zobacz Obsługa języka. en

Reguły nazewnictwa jednostek

  1. Wstępnie utworzone nazwy jednostek są wstępnie zdefiniowane. Muszą być wypełnione wstępnie utworzonym składnikiem i muszą być zgodne z nazwą jednostki.
  2. Nowe jednostki zdefiniowane przez użytkownika (jednostki ze poznanymi składnikami lub tekstem oznaczonym etykietą) nie mogą używać wstępnie utworzonych nazw jednostek.
  3. Nie można wypełnić nowych jednostek zdefiniowanych przez użytkownika wstępnie utworzonymi składnikami, ponieważ wstępnie utworzone składniki muszą być zgodne z nazwami skojarzonych jednostek i nie mają przypisanych do nich danych z etykietami w tablicy dokumentów.

Następne kroki

  • Dane z etykietami można zaimportować bezpośrednio do projektu. Dowiedz się, jak zaimportować projekt
  • Zobacz artykuł z instrukcjami, aby uzyskać więcej informacji na temat etykietowania danych.
  • Po zakończeniu etykietowania danych możesz wytrenować model.