Formati di dati accettati nell'analisi del testo personalizzata per l'integrità

Articolo
12/19/2023

Usare questo articolo per informazioni sulla formattazione dei dati da importare in analisi del testo personalizzata per l'integrità.

Se si sta tentando di importare i dati in Analisi testuale personalizzata per la salute, è necessario seguire un formato specifico. Se non si dispone di dati da importare, è possibile creare il progetto e usare Language Studio per etichettare i documenti.

Il file Labels deve essere nel json formato seguente da usare durante l'importazione delle etichette in un progetto.

{
	"projectFileVersion": "{API-VERSION}",
	"stringIndexType": "Utf16CodeUnit",
	"metadata": {
		"projectName": "{PROJECT-NAME}",
		"projectKind": "CustomHealthcare",
		"description": "Trying out custom Text Analytics for health",
		"language": "{LANGUAGE-CODE}",
		"multilingual": true,
		"storageInputContainerName": "{CONTAINER-NAME}",
		"settings": {}
	},
	"assets": {
		"projectKind": "CustomHealthcare",
		"entities": [
			{
				"category": "Entity1",
				"compositionSetting": "{COMPOSITION-SETTING}",
				"list": {
					"sublists": [
						{
							"listKey": "One",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"EntityNumberOne",
										"FirstEntity"
									]
								}
							]
						}
					]
				}
			},
			{
				"category": "Entity2"
			},
			{
				"category": "MedicationName",
				"list": {
					"sublists": [
						{
							"listKey": "research drugs",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"rdrug a",
										"rdrug b"
									]
								}
							]

						}
					]
				}
				"prebuilts": "MedicationName"
			}
		],
		"documents": [
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 500,
						"labels": [
							{
								"category": "Entity1",
								"offset": 25,
								"length": 10
							},
							{
								"category": "Entity2",
								"offset": 120,
								"length": 8
							}
						]
					}
				]
			},
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 100,
						"labels": [
							{
								"category": "Entity2",
								"offset": 20,
								"length": 5
							}
						]
					}
				]
			}
		]
	}
}

Chiave	Segnaposto	Valore	Esempio
`multilingual`	`true`	Valore booleano che consente di avere documenti in più lingue nel set di dati e quando il modello viene distribuito, è possibile eseguire query sul modello in qualsiasi linguaggio supportato (non necessariamente incluso nei documenti di training). Per altre informazioni sul supporto multilingue, vedere Supporto linguistico.	`true`
`projectName`	`{PROJECT-NAME}`	Project name (Nome progetto)	`myproject`
`storageInputContainerName`	`{CONTAINER-NAME}`	Nome contenitore	`mycontainer`
`entities`		Matrice contenente tutti i tipi di entità presenti nel progetto. Questi sono i tipi di entità che verranno estratti dai documenti in .
`category`		Nome del tipo di entità, che può essere definito dall'utente per le nuove definizioni di entità o predefinito per le entità predefinite. Per altre informazioni, vedere le regole di denominazione delle entità di seguito.
`compositionSetting`	`{COMPOSITION-SETTING}`	Regola che definisce come gestire più componenti nell'entità. Le opzioni sono `combineComponents` o `separateComponents`.	`combineComponents`
`list`		Matrice contenente tutti gli elenchi secondari presenti nel progetto per un'entità specifica. Gli elenchi possono essere aggiunti a entità predefinite o a nuove entità con componenti appresi.
`sublists`	`[]`	Matrice contenente sottoliste. Ogni sottolista è una chiave e i relativi valori associati.	`[]`
`listKey`	`One`	Valore normalizzato per l'elenco di sinonimi a cui eseguire il mapping nella stima.	`One`
`synonyms`	`[]`	Matrice contenente tutti i sinonimi	sinonimo
`language`	`{LANGUAGE-CODE}`	Stringa che specifica il codice della lingua per il sinonimo nell'elenco secondario. Se il progetto è un progetto multilingue e si vuole supportare l'elenco di sinonimi per tutte le lingue del progetto, è necessario aggiungere in modo esplicito i sinonimi a ogni lingua. Per altre informazioni sui codici linguistici supportati, vedere Supporto della lingua .	`en`
`values`	`"EntityNumberone"`, `"FirstEntity"`	Elenco di stringhe separate da virgole corrispondenti esattamente per l'estrazione e il mapping alla chiave dell'elenco.	`"EntityNumberone"`, `"FirstEntity"`
`prebuilts`	`MedicationName`	Nome del componente predefinito che popola l'entità predefinita. Le entità predefinite vengono caricate automaticamente nel progetto per impostazione predefinita, ma è possibile estenderle con i componenti dell'elenco nel file di etichette.	`MedicationName`
`documents`		Matrice contenente tutti i documenti nel progetto e l'elenco delle entità etichettate all'interno di ogni documento.	[]
`location`	`{DOCUMENT-NAME}`	Posizione dei documenti nel contenitore di archiviazione. Poiché tutti i documenti si trovano nella radice del contenitore, questo deve essere il nome del documento.	`doc1.txt`
`dataset`	`{DATASET}`	Set di test a cui questo file passa quando viene diviso prima del training. Altre informazioni sulla suddivisione dei dati sono disponibili qui. I valori possibili per questo campo sono `Train` e `Test`.	`Train`
`regionOffset`		Posizione del carattere inclusivo dell'inizio del testo.	`0`
`regionLength`		Lunghezza del rettangolo di selezione in termini di caratteri UTF16. Il training considera solo i dati in questa area.	`500`
`category`		Tipo di entità associata all'intervallo di testo specificato.	`Entity1`
`offset`		Posizione iniziale per il testo dell'entità.	`25`
`length`		Lunghezza dell'entità in termini di caratteri UTF16.	`20`
`language`	`{LANGUAGE-CODE}`	Stringa che specifica il codice della lingua per il documento utilizzato nel progetto. Se il progetto è un progetto multilingue, scegliere il codice linguistico della maggior parte dei documenti. Per altre informazioni sui codici linguistici supportati, vedere Supporto della lingua .	`en`

Regole di denominazione delle entità

I nomi di entità predefiniti sono predefiniti. Devono essere popolati con un componente predefinito e devono corrispondere al nome dell'entità.
Le nuove entità definite dall'utente (entità con componenti appresi o testo etichettato) non possono usare nomi di entità predefinite.
Le nuove entità definite dall'utente non possono essere popolate con componenti predefiniti perché i componenti predefiniti devono corrispondere ai nomi delle entità associate e non hanno dati etichettati assegnati nella matrice di documenti.

Passaggi successivi

È possibile importare direttamente i dati etichettati nel progetto. Informazioni su come importare il progetto
Per altre informazioni sull'etichettatura dei dati, vedere l'articolo sulle procedure .
Al termine dell'etichettatura dei dati, è possibile eseguire il training del modello.

Condividi tramite

Formati di dati accettati nell'analisi del testo personalizzata per l'integrità

Regole di denominazione delle entità

Passaggi successivi

Risorse aggiuntive