Formatos de datos aceptados en el análisis de texto personalizado en el ámbito de la salud

Artículo
12/19/2023

Use este artículo para aprender a dar formato a sus datos para importarlos en análisis de texto personalizados en el ámbito de la salud.

Si está intentando importar los datos en Text Analytics personalizado en el ámbito de la salud, debe seguir un formato específico. Si no tiene datos para importar, puede crear el proyecto y usar Language Studio para etiquetar los documentos.

El archivo Labels debe tener el formato json siguiente para usar al importar las etiquetas en un proyecto.

{
	"projectFileVersion": "{API-VERSION}",
	"stringIndexType": "Utf16CodeUnit",
	"metadata": {
		"projectName": "{PROJECT-NAME}",
		"projectKind": "CustomHealthcare",
		"description": "Trying out custom Text Analytics for health",
		"language": "{LANGUAGE-CODE}",
		"multilingual": true,
		"storageInputContainerName": "{CONTAINER-NAME}",
		"settings": {}
	},
	"assets": {
		"projectKind": "CustomHealthcare",
		"entities": [
			{
				"category": "Entity1",
				"compositionSetting": "{COMPOSITION-SETTING}",
				"list": {
					"sublists": [
						{
							"listKey": "One",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"EntityNumberOne",
										"FirstEntity"
									]
								}
							]
						}
					]
				}
			},
			{
				"category": "Entity2"
			},
			{
				"category": "MedicationName",
				"list": {
					"sublists": [
						{
							"listKey": "research drugs",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"rdrug a",
										"rdrug b"
									]
								}
							]

						}
					]
				}
				"prebuilts": "MedicationName"
			}
		],
		"documents": [
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 500,
						"labels": [
							{
								"category": "Entity1",
								"offset": 25,
								"length": 10
							},
							{
								"category": "Entity2",
								"offset": 120,
								"length": 8
							}
						]
					}
				]
			},
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 100,
						"labels": [
							{
								"category": "Entity2",
								"offset": 20,
								"length": 5
							}
						]
					}
				]
			}
		]
	}
}

Clave	Marcador de posición	Valor	Ejemplo
`multilingual`	`true`	Valor booleano que le permite tener documentos en varios idiomas del conjunto de datos y, cuando se implementa el modelo, puede consultarlo en cualquier idioma admitido (no necesariamente incluido en los documentos de entrenamiento). Consulte Compatibilidad de idiomas para obtener más información sobre la compatibilidad multilingüe.	`true`
`projectName`	`{PROJECT-NAME}`	Nombre de proyecto	`myproject`
`storageInputContainerName`	`{CONTAINER-NAME}`	Nombre del contenedor	`mycontainer`
`entities`		Matriz que contiene todos los tipos de entidad que tiene en el proyecto. Estos son los tipos de entidad que se extraerán de los documentos.
`category`		Nombre del tipo de entidad, que puede definir el usuario para las nuevas definiciones de entidad o ser predefinido para las entidades compiladas previamente. Para más información, consulte las reglas de nomenclatura de entidades siguientes.
`compositionSetting`	`{COMPOSITION-SETTING}`	Regla que define cómo administrar varios componentes en la entidad. Las opciones son `combineComponents` o `separateComponents`.	`combineComponents`
`list`		Matriz que contiene todas las sublistas que tiene en el proyecto para una entidad específica. Las listas se pueden agregar a entidades compiladas previamente o a nuevas entidades con componentes aprendidos.
`sublists`	`[]`	Matriz que contiene sublistas. Cada sublista es una clave y sus valores asociados.	`[]`
`listKey`	`One`	Valor normalizado para la lista de sinónimos a los que se va a asignar en la predicción.	`One`
`synonyms`	`[]`	Matriz que contiene todos los sinónimos	sinónimo
`language`	`{LANGUAGE-CODE}`	Cadena que especifica el código de idioma del sinónimo que se usa en la sublista. Si se trata de un proyecto multilingüe y desea admitir la lista de sinónimos para todos los idiomas del proyecto, debe agregar explícitamente los sinónimos a cada idioma. Consulte Compatibilidad con idiomas para obtener más información sobre los códigos de idioma admitidos.	`en`
`values`	`"EntityNumberone"`, `"FirstEntity"`	Lista de cadenas separadas por comas que se buscarán exactamente para la extracción y se asignarán a la clave de la lista.	`"EntityNumberone"`, `"FirstEntity"`
`prebuilts`	`MedicationName`	Nombre del componente compilado previamente que rellena la entidad compilada previamente. Las entidades compiladas previamente se cargan automáticamente en el proyecto de manera predeterminada, pero puede ampliarlas con componentes de lista en el archivo de etiquetas.	`MedicationName`
`documents`		Matriz que contiene todos los documentos del proyecto y la lista de las entidades etiquetadas en cada documento.	[]
`location`	`{DOCUMENT-NAME}`	Ubicación de los documentos en el contenedor de almacenamiento. Puesto que todos los documentos están en la raíz del contenedor, este debe ser el nombre del documento.	`doc1.txt`
`dataset`	`{DATASET}`	Conjunto de pruebas al que este archivo va cuando se divide antes del entrenamiento. Encuentre más información sobre la división de datos aquí. Los valores posibles que admite este campo son `Train` y `Test`.	`Train`
`regionOffset`		Posición del carácter inclusivo del inicio del texto.	`0`
`regionLength`		Longitud del rectángulo delimitador en términos de caracteres UTF16. El entrenamiento solo tiene en cuenta los datos de esta región.	`500`
`category`		Tipo de entidad asociada al intervalo de texto especificado.	`Entity1`
`offset`		Posición inicial del texto de la entidad.	`25`
`length`		Longitud de la entidad en términos de caracteres UTF16.	`20`
`language`	`{LANGUAGE-CODE}`	Una cadena que especifica el código de idioma del documento que se usa en el proyecto. Si el proyecto es un proyecto multilingüe, elija el código de idioma de la mayoría de los documentos. Consulte Compatibilidad con idiomas para obtener más información sobre los códigos de idioma admitidos.	`en`

Reglas de nomenclatura de entidades

Los nombres de las entidades creadas previamente están predefinidos. Deben rellenarse con un componente precompilado y este debe coincidir con el nombre de la entidad.
Las nuevas entidades definidas por el usuario (entidades con componentes aprendidos o texto etiquetado) no pueden usar nombres de entidad creados previamente.
Las nuevas entidades definidas por el usuario no se pueden rellenar con componentes creados previamente, ya que los componentes creados previamente deben coincidir con sus nombres de entidades asociadas y no tienen asignados datos etiquetados en la matriz de documentos.

Pasos siguientes

Puede importar los datos etiquetados directamente en el proyecto. Más información sobre cómo importar un proyecto
Consulte el artículo de procedimientos para más información sobre el etiquetado de los datos.
Cuando haya terminado de etiquetar los datos, puede entrenar el modelo.

Compartir vía

Formatos de datos aceptados en el análisis de texto personalizado en el ámbito de la salud

Reglas de nomenclatura de entidades

Pasos siguientes

Comentarios

Comentarios

Recursos adicionales