Étiqueter vos données dans Language Studio

Avant d’entraîner votre modèle, vous devez étiqueter vos documents avec les entités personnalisées que vous souhaitez extraire. L’étiquetage des données est une étape cruciale du cycle de vie du développement. Dans cette étape, vous pouvez créer les types d’entités que vous souhaitez extraire de vos données et étiqueter ces entités dans vos documents. Ces données seront utilisées à l’étape suivante lors de l’apprentissage de votre modèle afin que celui-ci puisse apprendre à partir des données étiquetées. Si vous avez déjà étiqueté des données, vous pouvez les importer directement dans votre projet, mais vous devez vous assurer que vos données suivent le format de données accepté. Consultez créer un projet pour en savoir plus sur l’importation de données étiquetées dans votre projet.

Avant de créer un modèle de Reconnaissance d’entité nommée, vous devez d’abord avoir étiqueté les données. Si vos données ne sont pas encore étiquetées, vous pouvez les étiqueter dans Language Studio. Les données étiquetées informent le modèle de la façon d’interpréter le texte et sont utilisées pour l’entraînement et l’évaluation.

Prérequis

Avant de pouvoir étiqueter des données, vous avez besoin des éléments suivants :

Pour plus d’informations, consultez le cycle de vie de développement de projet.

Instructions relatives à l’étiquetage des données

Après avoir préparé vos données, conçu votre schéma et créé votre projet, vous devez étiqueter vos données. L’étiquetage de vos données est important afin que votre modèle sache quels mots seront associés aux types d’entités que vous devez extraire. Quand vous étiquetez vos données dans Language Studio (ou que vous importez des données étiquetées), ces étiquettes sont stockées dans le document JSON dans le conteneur de stockage que vous avez connecté à ce projet.

Quand vous étiquetez vos données, gardez ceci à l’esprit :

  • En général, une plus grande quantité de données étiquetées conduit à de meilleurs résultats, à condition que les données soient étiquetées avec précision.

  • La précision, la cohérence et l’exhaustivité de vos données étiquetées sont des facteurs clés pour les performances du modèle.

    • Étiqueter avec précision : étiquetez toujours chaque entité en utilisant le type approprié. Incluez uniquement ce que vous souhaitez extraire, évitez les données inutiles dans vos étiquettes.
    • Étiqueter de manière cohérente : la même entité doit avoir la même étiquette dans tous les documents.
    • Étiqueter de manière complète : étiquetez toutes les instances de l’entité dans tous vos documents. Vous pouvez utiliser la fonctionnalité d’étiquetage automatique pour veiller à un étiquetage complet.

    Notes

    Il n’existe aucun nombre fixe d’étiquettes qui peuvent garantir que votre modèle fonctionnera au mieux. Les performances du modèle dépendent de l’ambiguïté possible dans votre schéma et de la qualité de vos données étiquetées. Néanmoins, nous vous recommandons d’avoir environ 50 instances étiquetées par type d’entité.

Étiqueter vos données

Suivez les étapes suivantes pour étiqueter vos données :

  1. Accédez à la page de votre projet dans Langage Studio.

  2. Dans le menu de gauche, sélectionnez Étiquetage des données. Vous trouverez une liste de tous les documents de votre conteneur de stockage.

    Conseil

    Vous pouvez utiliser les filtres dans le menu du haut pour afficher les documents non étiquetés, de façon à pouvoir commencer à les étiqueter. Vous pouvez également utiliser les filtres pour afficher les documents étiquetés avec un type d’entité spécifique.

  3. Passez à une vue de document unique à partir du côté gauche dans le menu du haut ou sélectionnez un document spécifique pour démarrer l’étiquetage. Vous trouverez à gauche une liste de tous les documents .txt disponibles dans votre projet. Vous pouvez utiliser les boutons Retour et Suivant au bas de la page pour parcourir vos documents.

    Notes

    Si vous avez activé plusieurs langues pour votre projet, vous trouverez une liste déroulante Language dans le menu supérieur, qui vous permet de sélectionner la langue de chaque document.

  4. Dans le volet de droite, ajoutez un type d’entité à votre projet afin de commencer à étiqueter vos données avec eux.

  5. Vous avez deux options pour étiqueter votre document :

    Option Description
    Étiqueter à l’aide d’un pinceau Sélectionnez l’icône pinceau en regard d’un type d’entité dans le volet de droite, puis mettez en surbrillance le texte du document que vous souhaitez annoter avec ce type d’entité.
    Étiqueter à l’aide d’un menu Mettez en surbrillance le mot que vous souhaitez étiqueter en tant qu’entité, et un menu s’affiche. Sélectionnez le type d’entité que vous souhaitez affecter à cette entité.

    La capture d’écran ci-dessous illustre l’étiquetage à l’aide d’un pinceau.

    Capture d’écran montrant les options d’étiquetage proposées dans la NER personnalisée.

  6. Dans le volet de droite sous le pivot Étiquettes, vous pouvez trouver tous les types d’entités dans votre projet et le nombre d’instances étiquetées par chacun.

  7. Dans la section inférieure du volet de droite, vous pouvez ajouter le document actif que vous visualisez au jeu d’entraînement ou au jeu de test. Par défaut, tous les documents sont ajoutés à votre ensemble de formations. En savoir plus sur les ensembles de formations et de tests et sur leur utilisation pour l’apprentissage et l’évaluation des modèles.

    Conseil

    Si vous envisagez d’utiliser le fractionnement automatique des données, utilisez l’option par défaut d’affectation de tous les documents dans votre ensemble de formations.

  8. Sous le pivot Distribution, vous pouvez afficher la distribution entre les ensembles d’entraînement et de test. Vous disposez de deux options pour l’affichage :

    • Nombre total d’instances, où vous pouvez voir le nombre de toutes les instances étiquetées d’un type d’entité spécifique.
    • Documents avec au moins une étiquette, où chaque document est comptabilisé s’il contient au moins une instance étiquetée de cette entité.
  9. Lors de l’étiquetage, vos modifications sont synchronisées périodiquement ; si elles n’ont pas encore été enregistrées, un avertissement figure en haut de votre page. Si vous souhaitez enregistrer manuellement, sélectionnez le bouton Enregistrer les étiquettes en haut de la page.

Supprimer des étiquettes

Pour supprimer une étiquette

  1. Sélectionnez l’entité à partir de laquelle vous souhaitez supprimer une étiquette.
  2. Faites défiler le menu qui s’affiche, puis sélectionnez Supprimer l’étiquette.

Supprimer des entités

Pour supprimer une entité, sélectionnez l’icône de suppression en regard de l’entité que vous souhaitez supprimer. La suppression d’une entité supprime toutes ses instances étiquetées de votre jeu de données.

Étapes suivantes

Une fois que vous avez étiqueté vos données, vous pouvez commencer l’entraînement d’un modèle qui va apprendre à partir de vos données.