Partager via


Étiqueter vos données en utilisant Language Studio

L’étiquetage des données est une étape cruciale du cycle de vie du développement. Dans cette étape, vous étiquetez vos documents avec les nouvelles entités que vous avez définies dans votre schéma pour renseigner leurs composants appris. Ces données seront utilisées à l’étape suivante lors de l’entraînement de votre modèle pour que celui-ci puisse apprendre à partir des données étiquetées et savoir quelles entités extraire. Si vous avez déjà étiqueté des données, vous pouvez les importer directement dans votre projet, mais vous devez vérifier que vos données suivent le format de données accepté. Consultez créer un projet pour en savoir plus sur l’importation de données étiquetées dans votre projet. Si vos données ne sont pas encore étiquetées, vous pouvez les étiqueter dans Language Studio.

Prérequis

Avant de pouvoir étiqueter des données, vous avez besoin des éléments suivants :

Pour plus d’informations, consultez le cycle de vie de développement de projet.

Instructions relatives à l’étiquetage des données

Après avoir préparé vos données, conçu votre schéma et créé votre projet, vous devez étiqueter vos données. L’étiquetage de vos données est important afin que votre modèle sache quels mots seront associés aux types d’entités que vous devez extraire. Quand vous étiquetez vos données dans Language Studio (ou que vous importez des données étiquetées), ces étiquettes sont stockées dans le document JSON dans le conteneur de stockage que vous avez connecté à ce projet.

Quand vous étiquetez vos données, gardez ceci à l’esprit :

  • Vous ne pouvez pas ajouter d’étiquettes pour les entités d’Analyse de texte pour la santé, car il s’agit d’entités prédéfinies préentraînées. Vous pouvez ajouter des étiquettes seulement aux nouvelles catégories d’entités que vous avez définies lors de la définition du schéma.

Si vous voulez améliorer le rappel pour une entité prédéfinie, vous pouvez l’étendre en ajoutant un composant de liste quand vous définissez votre schéma.

  • En général, une plus grande quantité de données étiquetées conduit à de meilleurs résultats, à condition que les données soient étiquetées avec précision.

  • La précision, la cohérence et l’exhaustivité de vos données étiquetées sont des facteurs clés pour les performances du modèle.

    • Étiqueter avec précision : étiquetez toujours chaque entité en utilisant le type approprié. Incluez uniquement ce que vous souhaitez extraire, évitez les données inutiles dans vos étiquettes.
    • Étiqueter de manière cohérente : la même entité doit avoir la même étiquette dans tous les documents.
    • Étiqueter de manière complète : étiquetez toutes les instances de l’entité dans tous vos documents.

    Notes

    Il n’existe aucun nombre fixe d’étiquettes qui peuvent garantir que votre modèle fonctionnera au mieux. Les performances du modèle dépendent de l’ambiguïté possible dans votre schéma et de la qualité de vos données étiquetées. Néanmoins, nous vous recommandons d’avoir environ 50 instances étiquetées par type d’entité.

Étiqueter vos données

Suivez les étapes suivantes pour étiqueter vos données :

  1. Accédez à la page de votre projet dans Langage Studio.

  2. Dans le menu de gauche, sélectionnez Étiquetage des données. Vous trouverez une liste de tous les documents de votre conteneur de stockage.

    Conseil

    Vous pouvez utiliser les filtres dans le menu du haut pour afficher les documents non étiquetés, de façon à pouvoir commencer à les étiqueter. Vous pouvez également utiliser les filtres pour afficher les documents étiquetés avec un type d’entité spécifique.

  3. Passez à une vue de document unique à partir du côté gauche dans le menu du haut ou sélectionnez un document spécifique pour démarrer l’étiquetage. Vous trouverez à gauche une liste de tous les documents .txt disponibles dans votre projet. Vous pouvez utiliser les boutons Retour et Suivant au bas de la page pour parcourir vos documents.

    Notes

    Si vous avez activé plusieurs langues pour votre projet, vous trouverez une liste déroulante Language dans le menu supérieur, qui vous permet de sélectionner la langue de chaque document. L’hébreu n’est pas pris en charge avec les projets multilingues.

  4. Dans le volet de droite, vous pouvez utiliser le bouton Ajouter un type d’entité pour ajouter à votre projet des entités supplémentaires que vous avez oubliées lors de la définition du schéma.

  5. Vous avez deux options pour étiqueter votre document :

    Option Description
    Étiqueter à l’aide d’un pinceau Sélectionnez l’icône pinceau en regard d’un type d’entité dans le volet de droite, puis mettez en surbrillance le texte du document que vous souhaitez annoter avec ce type d’entité.
    Étiqueter à l’aide d’un menu Mettez en surbrillance le mot que vous souhaitez étiqueter en tant qu’entité, et un menu s’affiche. Sélectionnez le type d’entité que vous souhaitez affecter à cette entité.

    La capture d’écran ci-dessous illustre l’étiquetage à l’aide d’un pinceau.

    Capture d’écran montrant les options d’étiquetage proposées dans la NER personnalisée.

  6. Dans le volet de droite sous le pivot Étiquettes, vous pouvez trouver tous les types d’entités dans votre projet et le nombre d’instances étiquetées par chacun. Les entités prédéfinies seront montrées pour référence, mais vous ne pourrez pas étiqueter pour ces entités prédéfinies, car elles sont préentraînées.

  7. Dans la section inférieure du volet de droite, vous pouvez ajouter le document actif que vous visualisez au jeu d’entraînement ou au jeu de test. Par défaut, tous les documents sont ajoutés à votre ensemble de formations. Pour plus d’informations sur la façon dont elles sont utilisées pour l’entraînement et l’évaluation des modèles, consultez Jeux de données pour l’entraînement et le test.

    Conseil

    Si vous envisagez d’utiliser le fractionnement automatique des données, utilisez l’option par défaut d’affectation de tous les documents dans votre ensemble de formations.

  8. Sous le pivot Distribution, vous pouvez afficher la distribution entre les ensembles d’entraînement et de test. Vous disposez de deux options pour l’affichage :

    • Nombre total d’instances, où vous pouvez voir le nombre de toutes les instances étiquetées d’un type d’entité spécifique.
    • Documents avec au moins une étiquette, où chaque document est pris en compte s’il contient au moins une instance étiquetée de cette entité.
  9. Lors de l’étiquetage, vos modifications sont synchronisées périodiquement ; si elles n’ont pas encore été enregistrées, un avertissement figure en haut de votre page. Si vous souhaitez enregistrer manuellement, sélectionnez le bouton Enregistrer les étiquettes en haut de la page.

Supprimer des étiquettes

Pour supprimer une étiquette

  1. Sélectionnez l’entité à partir de laquelle vous souhaitez supprimer une étiquette.
  2. Faites défiler le menu qui s’affiche, puis sélectionnez Supprimer l’étiquette.

Supprimer des entités

Vous ne pouvez supprimer aucune entités préentraînées d’Analyse de texte pour la santé, car elles ont un composant prédéfini. Vous pouvez seulement supprimer des catégories d’entités nouvellement définies. Pour supprimer une entité, sélectionnez l’icône de suppression en regard de l’entité que vous souhaitez supprimer. La suppression d’une entité supprime toutes ses instances étiquetées de votre jeu de données.

Étapes suivantes

Une fois que vous avez étiqueté vos données, vous pouvez commencer l’entraînement d’un modèle qui va apprendre à partir de vos données.