Formats de données acceptés dans Analyse de texte personnalisée pour la santé

Article
09/03/2024

Utilisez cet article pour en savoir plus sur la mise en forme de vos données à importer dans Analyse de texte personnalisée pour la santé.

Si vous essayez d’importer vos données dans Analyse de texte personnalisée pour la santé, celles-ci doivent suivre un format spécifique. Si vous n’avez pas de données à importer, vous pouvez créer votre projet, puis utiliser Language Studio pour étiqueter vos documents.

Votre fichier d’étiquettes doit être au format json ci-dessous pour pouvoir importer vos étiquettes dans un projet.

{
	"projectFileVersion": "{API-VERSION}",
	"stringIndexType": "Utf16CodeUnit",
	"metadata": {
		"projectName": "{PROJECT-NAME}",
		"projectKind": "CustomHealthcare",
		"description": "Trying out custom Text Analytics for health",
		"language": "{LANGUAGE-CODE}",
		"multilingual": true,
		"storageInputContainerName": "{CONTAINER-NAME}",
		"settings": {}
	},
	"assets": {
		"projectKind": "CustomHealthcare",
		"entities": [
			{
				"category": "Entity1",
				"compositionSetting": "{COMPOSITION-SETTING}",
				"list": {
					"sublists": [
						{
							"listKey": "One",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"EntityNumberOne",
										"FirstEntity"
									]
								}
							]
						}
					]
				}
			},
			{
				"category": "Entity2"
			},
			{
				"category": "MedicationName",
				"list": {
					"sublists": [
						{
							"listKey": "research drugs",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"rdrug a",
										"rdrug b"
									]
								}
							]

						}
					]
				}
				"prebuilts": "MedicationName"
			}
		],
		"documents": [
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 500,
						"labels": [
							{
								"category": "Entity1",
								"offset": 25,
								"length": 10
							},
							{
								"category": "Entity2",
								"offset": 120,
								"length": 8
							}
						]
					}
				]
			},
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 100,
						"labels": [
							{
								"category": "Entity2",
								"offset": 20,
								"length": 5
							}
						]
					}
				]
			}
		]
	}
}

Clé	Espace réservé	Valeur	Exemple
`multilingual`	`true`	Valeur booléenne permettant au jeu de données de contenir des documents dans plusieurs langues. Quand votre modèle est déployé, vous pouvez interroger le modèle dans n’importe quelle langue prise en charge (pas nécessairement incluse dans vos documents d’entraînement). Consultez Prise en charge de la langue pour en savoir plus sur la prise en charge multilingue.	`true`
`projectName`	`{PROJECT-NAME}`	Nom du projet	`myproject`
`storageInputContainerName`	`{CONTAINER-NAME}`	Nom du conteneur	`mycontainer`
`entities`		Tableau contenant l’ensemble des types d’entité contenus dans le projet. Il s’agit des types d’entités qui seront extraits de vos documents.
`category`		Nom du type d’entité, qui peut être défini par l’utilisateur pour les nouvelles définitions d’entité ou prédéfini pour les entités prédéfinies. Pour plus d’informations, consultez les règles de nommage d’entité ci-dessous.
`compositionSetting`	`{COMPOSITION-SETTING}`	Règle qui définit comment gérer plusieurs composants dans votre entité. Les options sont `combineComponents` ou `separateComponents`.	`combineComponents`
`list`		Tableau contenant toutes les sous-listes que vous avez dans le projet pour une entité spécifique. Des listes peuvent être ajoutées à des entités prédéfinies ou à de nouvelles entités avec des composants appris.
`sublists`	`[]`	Tableau contenant des sous-listes. Chaque sous-liste est une clé avec ses valeurs associées.	`[]`
`listKey`	`One`	Valeur normalisée pour la liste des synonymes à mapper dans la prédiction.	`One`
`synonyms`	`[]`	Tableau contenant tous les synonymes	synonyme
`language`	`{LANGUAGE-CODE}`	Chaîne spécifiant le code de langue pour le synonyme dans votre sous-liste. Si votre projet est un projet multilingue et que vous voulez prendre en charge votre liste de synonymes pour toutes les langues de votre projet, vous devez ajouter explicitement vos synonymes à chaque langue. Consultez Support multilingue pour plus d’informations sur les codes de langue pris en charge.	`en`
`values`	`"EntityNumberone"`, `"FirstEntity"`	Liste de chaînes séparées par des virgules, qui doivent être mises en correspondance de manière exacte pour l’extraction, et qui sont mappées à la clé de liste.	`"EntityNumberone"`, `"FirstEntity"`
`prebuilts`	`MedicationName`	Nom du composant prédéfini remplissant l’entité prédéfinie. Les entités prédéfinies sont chargées automatiquement dans votre projet par défaut, mais vous pouvez les étendre avec des composants de liste dans votre fichier d’étiquettes.	`MedicationName`
`documents`		Tableau contenant tous les documents de votre projet et la liste des entités étiquetées dans chaque document.	[]
`location`	`{DOCUMENT-NAME}`	Emplacement des documents dans le conteneur de stockage. Étant donné que tous les documents se trouvent à la racine du conteneur, il doit s’agir du nom du document.	`doc1.txt`
`dataset`	`{DATASET}`	Jeu de test dans lequel ce fichier est placé lors du fractionnement avant l’entraînement. En savoir en plus sur le fractionnement des données ici. Les valeurs possibles pour cette propriété sont `Train` et `Test`.	`Train`
`regionOffset`		Position de caractère inclusive du début du texte.	`0`
`regionLength`		Longueur du rectangle englobant en caractères UTF-16. L’apprentissage prend uniquement en compte les données de cette région.	`500`
`category`		Type d’entité associé à l’étendue de texte spécifiée.	`Entity1`
`offset`		Position de début du texte de l’entité.	`25`
`length`		Longueur de la balise en caractères UTF-16.	`20`
`language`	`{LANGUAGE-CODE}`	Chaîne spécifiant le code de langue du document utilisé dans votre projet. Si votre projet est un projet multilingue, choisissez le code de langue de la majorité des documents. Consultez Support multilingue pour plus d’informations sur les codes de langue pris en charge.	`en`

Règles de nommage d’entité

Les noms des entités prédéfinies sont prédéfinis. Ils doivent être renseignés avec un composant prédéfini qui doit correspondre au nom de l’entité.
Les nouvelles entités définies par l’utilisateur (les entités avec des composants appris ou du texte étiqueté) ne peuvent pas utiliser de noms d’entités prédéfinies.
Les nouvelles entités définies par l’utilisateur ne peuvent pas être renseignées avec des composants prédéfinis, car les composants prédéfinis doivent correspondre aux noms des entités associées et aucune donnée étiquetée ne leur est affectée dans le tableau des documents.

Étapes suivantes

Vous pouvez importer vos données étiquetées directement dans votre projet. Découvrir comment importer un projet
Pour plus d’informations sur l’étiquetage de vos données, consultez l’article Guide pratique.
Une fois que vous avez fini d’étiqueter vos données, vous pouvez effectuer l’apprentissage de votre modèle.

Partager via

Formats de données acceptés dans Analyse de texte personnalisée pour la santé

Règles de nommage d’entité

Étapes suivantes

Commentaires

Ressources supplémentaires