Partager via


Formats de données acceptés pour la reconnaissance d’entités nommées personnalisées

Si vous essayez d’importer vos données dans une Reconnaissance d’entité nommée personnalisée, celles-ci doivent suivre un format spécifique. Si vous n’avez pas de données à importer, vous pouvez créer votre projet, puis utiliser Language Studio pour étiqueter vos documents.

Format de fichier d’étiquettes

Votre fichier Étiquettes doit être au format json ci-dessous pour permettre d’importer vos étiquettes dans un projet.

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Clé Espace réservé Valeur Exemple
multilingual true Valeur booléenne permettant au jeu de données de contenir des documents dans plusieurs langues. Quand votre modèle est déployé, vous pouvez interroger le modèle dans n’importe quelle langue prise en charge (pas nécessairement incluse dans vos documents d’entraînement). Consultez Prise en charge de la langue pour en savoir plus sur la prise en charge multilingue. true
projectName {PROJECT-NAME} Nom du projet myproject
storageInputContainerName {CONTAINER-NAME} Nom du conteneur mycontainer
entities Tableau contenant l’ensemble des types d’entité contenus dans le projet. Il s’agit des types d’entités qui seront extraits de vos documents.
documents Tableau contenant tous les documents de votre projet et la liste des entités étiquetées dans chaque document. []
location {DOCUMENT-NAME} Emplacement des documents dans le conteneur de stockage. Étant donné que tous les documents se trouvent à la racine du conteneur, il doit s’agir du nom du document. doc1.txt
dataset {DATASET} Jeu de tests sur lequel ce fichier sera partagé lors de la division avant la formation. Apprenez-en plus sur le découpage des données ici. Les valeurs possibles pour cette propriété sont Train et Test. Train
regionOffset Position de caractère inclusive du début du texte. 0
regionLength Longueur du rectangle englobant en caractères UTF-16. L’apprentissage prend uniquement en compte les données de cette région. 500
category Type d’entité associé à l’étendue de texte spécifiée. Entity1
offset Position de début du texte de l’entité. 25
length Longueur de la balise en caractères UTF-16. 20
language {LANGUAGE-CODE} Chaîne spécifiant le code de langue du document utilisé dans votre projet. Si votre projet est un projet multilingue, choisissez le code de langue de la majorité des documents. Consultez Support multilingue pour plus d’informations sur les codes de langue pris en charge. en-us

Étapes suivantes