Étiqueter les données texte pour entraîner votre modèle

Avant d’entraîner votre modèle, vous devez étiqueter vos documents avec les classes pour lesquelles vous souhaitez créer des catégories. L'étiquetage des données est une étape cruciale du cycle de vie du développement ; à cette étape, vous pouvez créer les classes dans lesquelles vous souhaitez classer vos données et étiqueter vos documents avec ces classes. Ces données seront utilisées à l’étape suivante lors de l’apprentissage de votre modèle afin que celui-ci puisse apprendre à partir des données étiquetées. Si vous avez déjà étiqueté des données, vous pouvez les importer directement dans votre projet, mais vous devez vous assurer que vos données suivent le format de données accepté.

Avant de créer un modèle de classification de texte personnalisé, vous devez d’abord avoir étiqueté les données. Si vos données ne sont pas encore étiquetées, vous pouvez les étiqueter dans Language Studio. Les données étiquetées informent le modèle de la façon d’interpréter le texte et sont utilisées pour l’entraînement et l’évaluation.

Prérequis

Avant de pouvoir étiqueter des données, vous avez besoin des éléments suivants :

Pour plus d’informations, consultez le cycle de vie de développement de projet.

Instructions relatives à l’étiquetage des données

Après avoir préparé vos données, conçu votre schéma et créé votre projet, vous devez étiqueter vos données. L’étiquetage de vos données est important afin que votre modèle sache quels documents seront associés aux classes dont vous avez besoin. Lorsque vous étiquetez vos données dans Language Studio (ou importez des données étiquetées), ces étiquettes sont stockées dans le fichier JSON dans le conteneur de stockage que vous avez connecté à ce projet.

Quand vous étiquetez vos données, gardez ceci à l’esprit :

  • En général, une plus grande quantité de données étiquetées conduit à de meilleurs résultats, à condition que les données soient étiquetées avec précision.

  • Il n’existe aucun nombre fixe d’étiquettes qui peuvent garantir que votre modèle fonctionnera au mieux. Les performances du modèle dépendent de l’ambiguïté possible dans votre schéma et de la qualité de vos données étiquetées. Nous vous recommandons néanmoins 50 documents étiquetés par classe.

Étiqueter vos données

Suivez les étapes suivantes pour étiqueter vos données :

  1. Accédez à la page de votre projet dans Langage Studio.

  2. Dans le menu de gauche, sélectionnez Étiquetage des données. Vous trouverez une liste de tous les documents de votre conteneur de stockage. Consultez l’image ci-dessous.

    Conseil

    Vous pouvez utiliser les filtres dans le menu supérieur pour afficher les fichiers non étiquetés afin que vous puissiez commencer à les étiqueter. Vous pouvez également utiliser les filtres pour afficher les documents étiquetés avec une classe spécifique.

  3. Passez à une vue de fichier unique à partir du côté gauche dans le menu supérieur ou sélectionnez un fichier spécifique pour démarrer l’étiquetage. Vous trouverez à gauche une liste de tous les fichiers .txt disponibles dans vos projets. Vous pouvez utiliser les boutons Retour et Suivant au bas de la page pour parcourir vos documents.

    Notes

    Si vous avez activé plusieurs langues pour votre projet, vous trouverez une liste déroulante Language dans le menu supérieur, qui vous permet de sélectionner la langue de chaque document.

  4. Dans le volet de droite, ajoutez une classe à votre projet afin de commencer à étiqueter vos données avec eux.

  5. Commencez à étiqueter vos fichiers.

    Classification avec plusieurs étiquettes : votre fichier peut être étiqueté avec plusieurs classes. Vous pouvez faire cela en activant toutes les cases d’option en regard des classes avec lesquelles vous souhaitez étiqueter ce document.

    Capture d’écran montrant la page de la balise de classification avec plusieurs étiquettes.

    Vous pouvez également utiliser la fonctionnalité d’étiquetage automatique pour garantir l’étiquetage complet.

  6. Dans le volet de droite sous le pivot Étiquettes, vous pouvez trouver toutes les classes dans votre projet et le nombre d’instances étiquetées par chacun.

  7. Dans la section inférieure du volet de droite, vous pouvez ajouter le fichier actif que vous visualisez à l’ensemble de formations ou de tests. Par défaut, tous les documents sont ajoutés à votre ensemble de formations. En savoir plus sur les ensembles de formations et de tests et sur leur utilisation pour l’apprentissage et l’évaluation des modèles.

    Conseil

    Si vous envisagez d’utiliser le fractionnement automatique des données, utilisez l’option par défaut d’affectation de tous les documents dans votre ensemble de formations.

  8. Sous le pivot Distribution, vous pouvez afficher la distribution entre les ensembles d’entraînement et de test. Vous disposez de deux options pour l’affichage :

    • Nombre total d’instances, où vous pouvez voir le nombre de toutes les instances étiquetées d’une classe spécifique.
    • Documents avec au moins une étiquette, où chaque document est comptabilisé s’il contient au moins une instance étiquetée de cette classe.
  9. Lors de l’étiquetage, vos modifications sont synchronisées périodiquement ; si elles n’ont pas encore été enregistrées, un avertissement figure en haut de votre page. Si vous souhaitez enregistrer manuellement, sélectionnez le bouton Enregistrer les étiquettes en haut de la page.

Supprimer des étiquettes

Si vous souhaitez supprimer une étiquette, décochez le bouton en regard de la classe.

Supprimer des classes

Pour supprimer une classe, sélectionnez l’icône de suppression en regard de la classe à supprimer. La suppression d’une classe supprime toutes ses instances étiquetées de votre jeu de données.

Étapes suivantes

Une fois que vous avez étiqueté vos données, vous pouvez commencer l’entraînement d’un modèle qui va apprendre à partir de vos données.