Partager via


Formats de données acceptés dans Analyse de texte personnalisée pour la santé

Utilisez cet article pour en savoir plus sur la mise en forme de vos données à importer dans Analyse de texte personnalisée pour la santé.

Si vous essayez d’importer vos données dans Analyse de texte personnalisée pour la santé, celles-ci doivent suivre un format spécifique. Si vous n’avez pas de données à importer, vous pouvez créer votre projet, puis utiliser Language Studio pour étiqueter vos documents.

Votre fichier d’étiquettes doit être au format json ci-dessous pour pouvoir importer vos étiquettes dans un projet.

{
	"projectFileVersion": "{API-VERSION}",
	"stringIndexType": "Utf16CodeUnit",
	"metadata": {
		"projectName": "{PROJECT-NAME}",
		"projectKind": "CustomHealthcare",
		"description": "Trying out custom Text Analytics for health",
		"language": "{LANGUAGE-CODE}",
		"multilingual": true,
		"storageInputContainerName": "{CONTAINER-NAME}",
		"settings": {}
	},
	"assets": {
		"projectKind": "CustomHealthcare",
		"entities": [
			{
				"category": "Entity1",
				"compositionSetting": "{COMPOSITION-SETTING}",
				"list": {
					"sublists": [
						{
							"listKey": "One",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"EntityNumberOne",
										"FirstEntity"
									]
								}
							]
						}
					]
				}
			},
			{
				"category": "Entity2"
			},
			{
				"category": "MedicationName",
				"list": {
					"sublists": [
						{
							"listKey": "research drugs",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"rdrug a",
										"rdrug b"
									]
								}
							]

						}
					]
				}
				"prebuilts": "MedicationName"
			}
		],
		"documents": [
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 500,
						"labels": [
							{
								"category": "Entity1",
								"offset": 25,
								"length": 10
							},
							{
								"category": "Entity2",
								"offset": 120,
								"length": 8
							}
						]
					}
				]
			},
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 100,
						"labels": [
							{
								"category": "Entity2",
								"offset": 20,
								"length": 5
							}
						]
					}
				]
			}
		]
	}
}

Clé Espace réservé Valeur Exemple
multilingual true Valeur booléenne permettant au jeu de données de contenir des documents dans plusieurs langues. Quand votre modèle est déployé, vous pouvez interroger le modèle dans n’importe quelle langue prise en charge (pas nécessairement incluse dans vos documents d’entraînement). Consultez Prise en charge de la langue pour en savoir plus sur la prise en charge multilingue. true
projectName {PROJECT-NAME} Nom du projet myproject
storageInputContainerName {CONTAINER-NAME} Nom du conteneur mycontainer
entities Tableau contenant l’ensemble des types d’entité contenus dans le projet. Il s’agit des types d’entités qui seront extraits de vos documents.
category Nom du type d’entité, qui peut être défini par l’utilisateur pour les nouvelles définitions d’entité ou prédéfini pour les entités prédéfinies. Pour plus d’informations, consultez les règles de nommage d’entité ci-dessous.
compositionSetting {COMPOSITION-SETTING} Règle qui définit comment gérer plusieurs composants dans votre entité. Les options sont combineComponents ou separateComponents. combineComponents
list Tableau contenant toutes les sous-listes que vous avez dans le projet pour une entité spécifique. Des listes peuvent être ajoutées à des entités prédéfinies ou à de nouvelles entités avec des composants appris.
sublists [] Tableau contenant des sous-listes. Chaque sous-liste est une clé avec ses valeurs associées. []
listKey One Valeur normalisée pour la liste des synonymes à mapper dans la prédiction. One
synonyms [] Tableau contenant tous les synonymes synonyme
language {LANGUAGE-CODE} Chaîne spécifiant le code de langue pour le synonyme dans votre sous-liste. Si votre projet est un projet multilingue et que vous voulez prendre en charge votre liste de synonymes pour toutes les langues de votre projet, vous devez ajouter explicitement vos synonymes à chaque langue. Consultez Support multilingue pour plus d’informations sur les codes de langue pris en charge. en
values "EntityNumberone", "FirstEntity" Liste de chaînes séparées par des virgules, qui doivent être mises en correspondance de manière exacte pour l’extraction, et qui sont mappées à la clé de liste. "EntityNumberone", "FirstEntity"
prebuilts MedicationName Nom du composant prédéfini remplissant l’entité prédéfinie. Les entités prédéfinies sont chargées automatiquement dans votre projet par défaut, mais vous pouvez les étendre avec des composants de liste dans votre fichier d’étiquettes. MedicationName
documents Tableau contenant tous les documents de votre projet et la liste des entités étiquetées dans chaque document. []
location {DOCUMENT-NAME} Emplacement des documents dans le conteneur de stockage. Étant donné que tous les documents se trouvent à la racine du conteneur, il doit s’agir du nom du document. doc1.txt
dataset {DATASET} Jeu de test dans lequel ce fichier est placé lors du fractionnement avant l’entraînement. En savoir en plus sur le fractionnement des données ici. Les valeurs possibles pour cette propriété sont Train et Test. Train
regionOffset Position de caractère inclusive du début du texte. 0
regionLength Longueur du rectangle englobant en caractères UTF-16. L’apprentissage prend uniquement en compte les données de cette région. 500
category Type d’entité associé à l’étendue de texte spécifiée. Entity1
offset Position de début du texte de l’entité. 25
length Longueur de la balise en caractères UTF-16. 20
language {LANGUAGE-CODE} Chaîne spécifiant le code de langue du document utilisé dans votre projet. Si votre projet est un projet multilingue, choisissez le code de langue de la majorité des documents. Consultez Support multilingue pour plus d’informations sur les codes de langue pris en charge. en

Règles de nommage d’entité

  1. Les noms des entités prédéfinies sont prédéfinis. Ils doivent être renseignés avec un composant prédéfini qui doit correspondre au nom de l’entité.
  2. Les nouvelles entités définies par l’utilisateur (les entités avec des composants appris ou du texte étiqueté) ne peuvent pas utiliser de noms d’entités prédéfinies.
  3. Les nouvelles entités définies par l’utilisateur ne peuvent pas être renseignées avec des composants prédéfinis, car les composants prédéfinis doivent correspondre aux noms des entités associées et aucune donnée étiquetée ne leur est affectée dans le tableau des documents.

Étapes suivantes