Condividi tramite


Formati di dati accettati nell'analisi del testo personalizzata per l'integrità

Usare questo articolo per informazioni sulla formattazione dei dati da importare in analisi del testo personalizzata per l'integrità.

Se si sta tentando di importare i dati in Analisi testuale personalizzata per la salute, è necessario seguire un formato specifico. Se non si dispone di dati da importare, è possibile creare il progetto e usare Language Studio per etichettare i documenti.

Il file Labels deve essere nel json formato seguente da usare durante l'importazione delle etichette in un progetto.

{
	"projectFileVersion": "{API-VERSION}",
	"stringIndexType": "Utf16CodeUnit",
	"metadata": {
		"projectName": "{PROJECT-NAME}",
		"projectKind": "CustomHealthcare",
		"description": "Trying out custom Text Analytics for health",
		"language": "{LANGUAGE-CODE}",
		"multilingual": true,
		"storageInputContainerName": "{CONTAINER-NAME}",
		"settings": {}
	},
	"assets": {
		"projectKind": "CustomHealthcare",
		"entities": [
			{
				"category": "Entity1",
				"compositionSetting": "{COMPOSITION-SETTING}",
				"list": {
					"sublists": [
						{
							"listKey": "One",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"EntityNumberOne",
										"FirstEntity"
									]
								}
							]
						}
					]
				}
			},
			{
				"category": "Entity2"
			},
			{
				"category": "MedicationName",
				"list": {
					"sublists": [
						{
							"listKey": "research drugs",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"rdrug a",
										"rdrug b"
									]
								}
							]

						}
					]
				}
				"prebuilts": "MedicationName"
			}
		],
		"documents": [
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 500,
						"labels": [
							{
								"category": "Entity1",
								"offset": 25,
								"length": 10
							},
							{
								"category": "Entity2",
								"offset": 120,
								"length": 8
							}
						]
					}
				]
			},
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 100,
						"labels": [
							{
								"category": "Entity2",
								"offset": 20,
								"length": 5
							}
						]
					}
				]
			}
		]
	}
}

Chiave Segnaposto Valore Esempio
multilingual true Valore booleano che consente di avere documenti in più lingue nel set di dati e quando il modello viene distribuito, è possibile eseguire query sul modello in qualsiasi linguaggio supportato (non necessariamente incluso nei documenti di training). Per altre informazioni sul supporto multilingue, vedere Supporto linguistico. true
projectName {PROJECT-NAME} Project name (Nome progetto) myproject
storageInputContainerName {CONTAINER-NAME} Nome contenitore mycontainer
entities Matrice contenente tutti i tipi di entità presenti nel progetto. Questi sono i tipi di entità che verranno estratti dai documenti in .
category Nome del tipo di entità, che può essere definito dall'utente per le nuove definizioni di entità o predefinito per le entità predefinite. Per altre informazioni, vedere le regole di denominazione delle entità di seguito.
compositionSetting {COMPOSITION-SETTING} Regola che definisce come gestire più componenti nell'entità. Le opzioni sono combineComponents o separateComponents. combineComponents
list Matrice contenente tutti gli elenchi secondari presenti nel progetto per un'entità specifica. Gli elenchi possono essere aggiunti a entità predefinite o a nuove entità con componenti appresi.
sublists [] Matrice contenente sottoliste. Ogni sottolista è una chiave e i relativi valori associati. []
listKey One Valore normalizzato per l'elenco di sinonimi a cui eseguire il mapping nella stima. One
synonyms [] Matrice contenente tutti i sinonimi sinonimo
language {LANGUAGE-CODE} Stringa che specifica il codice della lingua per il sinonimo nell'elenco secondario. Se il progetto è un progetto multilingue e si vuole supportare l'elenco di sinonimi per tutte le lingue del progetto, è necessario aggiungere in modo esplicito i sinonimi a ogni lingua. Per altre informazioni sui codici linguistici supportati, vedere Supporto della lingua . en
values "EntityNumberone", "FirstEntity" Elenco di stringhe separate da virgole corrispondenti esattamente per l'estrazione e il mapping alla chiave dell'elenco. "EntityNumberone", "FirstEntity"
prebuilts MedicationName Nome del componente predefinito che popola l'entità predefinita. Le entità predefinite vengono caricate automaticamente nel progetto per impostazione predefinita, ma è possibile estenderle con i componenti dell'elenco nel file di etichette. MedicationName
documents Matrice contenente tutti i documenti nel progetto e l'elenco delle entità etichettate all'interno di ogni documento. []
location {DOCUMENT-NAME} Posizione dei documenti nel contenitore di archiviazione. Poiché tutti i documenti si trovano nella radice del contenitore, questo deve essere il nome del documento. doc1.txt
dataset {DATASET} Set di test a cui questo file passa quando viene diviso prima del training. Altre informazioni sulla suddivisione dei dati sono disponibili qui. I valori possibili per questo campo sono Train e Test. Train
regionOffset Posizione del carattere inclusivo dell'inizio del testo. 0
regionLength Lunghezza del rettangolo di selezione in termini di caratteri UTF16. Il training considera solo i dati in questa area. 500
category Tipo di entità associata all'intervallo di testo specificato. Entity1
offset Posizione iniziale per il testo dell'entità. 25
length Lunghezza dell'entità in termini di caratteri UTF16. 20
language {LANGUAGE-CODE} Stringa che specifica il codice della lingua per il documento utilizzato nel progetto. Se il progetto è un progetto multilingue, scegliere il codice linguistico della maggior parte dei documenti. Per altre informazioni sui codici linguistici supportati, vedere Supporto della lingua . en

Regole di denominazione delle entità

  1. I nomi di entità predefiniti sono predefiniti. Devono essere popolati con un componente predefinito e devono corrispondere al nome dell'entità.
  2. Le nuove entità definite dall'utente (entità con componenti appresi o testo etichettato) non possono usare nomi di entità predefinite.
  3. Le nuove entità definite dall'utente non possono essere popolate con componenti predefiniti perché i componenti predefiniti devono corrispondere ai nomi delle entità associate e non hanno dati etichettati assegnati nella matrice di documenti.

Passaggi successivi