Formats de données acceptés pour la reconnaissance d’entités nommées personnalisées
Si vous essayez d’importer vos données dans une Reconnaissance d’entité nommée personnalisée, celles-ci doivent suivre un format spécifique. Si vous n’avez pas de données à importer, vous pouvez créer votre projet, puis utiliser Language Studio pour étiqueter vos documents.
Format de fichier d’étiquettes
Votre fichier Étiquettes doit être au format json
ci-dessous pour permettre d’importer vos étiquettes dans un projet.
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomEntityRecognition",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us",
"settings": {}
},
"assets": {
"projectKind": "CustomEntityRecognition",
"entities": [
{
"category": "Entity1"
},
{
"category": "Entity2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
Clé | Espace réservé | Valeur | Exemple |
---|---|---|---|
multilingual |
true |
Valeur booléenne permettant au jeu de données de contenir des documents dans plusieurs langues. Quand votre modèle est déployé, vous pouvez interroger le modèle dans n’importe quelle langue prise en charge (pas nécessairement incluse dans vos documents d’entraînement). Consultez Prise en charge de la langue pour en savoir plus sur la prise en charge multilingue. | true |
projectName |
{PROJECT-NAME} |
Nom du projet | myproject |
storageInputContainerName | {CONTAINER-NAME} |
Nom du conteneur | mycontainer |
entities |
Tableau contenant l’ensemble des types d’entité contenus dans le projet. Il s’agit des types d’entités qui seront extraits de vos documents. | ||
documents |
Tableau contenant tous les documents de votre projet et la liste des entités étiquetées dans chaque document. | [] | |
location |
{DOCUMENT-NAME} |
Emplacement des documents dans le conteneur de stockage. Étant donné que tous les documents se trouvent à la racine du conteneur, il doit s’agir du nom du document. | doc1.txt |
dataset |
{DATASET} |
Jeu de tests sur lequel ce fichier sera partagé lors de la division avant la formation. Apprenez-en plus sur le découpage des données ici. Les valeurs possibles pour cette propriété sont Train et Test . |
Train |
regionOffset |
Position de caractère inclusive du début du texte. | 0 |
|
regionLength |
Longueur du rectangle englobant en caractères UTF-16. L’apprentissage prend uniquement en compte les données de cette région. | 500 |
|
category |
Type d’entité associé à l’étendue de texte spécifiée. | Entity1 |
|
offset |
Position de début du texte de l’entité. | 25 |
|
length |
Longueur de la balise en caractères UTF-16. | 20 |
|
language |
{LANGUAGE-CODE} |
Chaîne spécifiant le code de langue du document utilisé dans votre projet. Si votre projet est un projet multilingue, choisissez le code de langue de la majorité des documents. Consultez Support multilingue pour plus d’informations sur les codes de langue pris en charge. | en-us |
Étapes suivantes
- Vous pouvez importer vos données étiquetées directement dans votre projet. Découvrir comment importer un projet
- Pour plus d’informations sur l’étiquetage de vos données, consultez l’article Guide pratique. Une fois que vous avez fini d’étiqueter vos données, vous pouvez effectuer l’apprentissage de votre modèle.