Partage via


Entraîner votre modèle d’Analyse de texte personnalisée dans le domaine de la santé

L’apprentissage est le processus par lequel le modèle apprend à partir de vos données étiquetées. Une fois l’apprentissage effectué, vous pouvez afficher les performances du modèle pour déterminer si vous devez améliorer votre modèle.

Pour effectuer l’apprentissage d’un modèle, vous devez lancer un travail d’apprentissage, et seuls les travaux terminés avec succès entraînent la création d’un modèle. Un travail d’apprentissage expire au bout de sept jours. Passé ce délai, il est impossible de récupérer les détails de ce travail. Si votre travail d’apprentissage s’est terminé avec succès et qu’un modèle a été créé, ce dernier n’est pas affecté par cette expiration. Vous ne pouvez exécuter qu’un seul travail d’apprentissage à la fois, et vous ne pouvez pas lancer d’autres travaux au sein du même projet.

L’apprentissage peut durer de quelques minutes pour quelques documents à plusieurs heures en fonction de la taille du jeu de données et de la complexité de votre schéma.

Prérequis

Pour plus d’informations, consultez Cycle de vie de développement de projet.

Fractionnement des données

Avant que vous démarriez le processus d’apprentissage, les documents étiquetés de votre projet sont divisés en deux jeux : un jeu d’apprentissage et un jeu de test. Chacun d’eux a une fonction différente. Le jeu d’apprentissage est utilisé pour l’apprentissage du modèle. Il s’agit du jeu à partir duquel le modèle « apprend » les entités étiquetées et les portions de texte à extraire comme entités. Le jeu de test est un jeu témoin qui n’est pas présenté au modèle pendant l’apprentissage, mais uniquement lors de l’évaluation. Une fois l’apprentissage du modèle terminé, celui-ci est utilisé pour effectuer des prédictions à partir des documents du test, et les métriques d’évaluation sont calculées sur la base de ces prédictions. L’entraînement et l’évaluation de modèle s’adressent uniquement aux entités nouvellement définies avec des composants assimilés ; par conséquent, les entités Analyse de texte dans le domaine de la santé sont exclues de l’entraînement et de l’évaluation de modèle, car il s’agit d’entités dotées de composants prédéfinis. Nous vous recommandons de vérifier que toutes vos entités étiquetées sont correctement représentées dans les jeux d’entraînement et de test.

L’Analyse de texte personnalisée dans le domaine de la santé prend en charge deux méthodes de fractionnement des données :

  • Fractionnement automatique du jeu de test à partir des données d’entraînement : Le système répartit vos données étiquetées entre le jeu d’entraînement et le jeu de test, en fonction des pourcentages que vous choisissez. Le pourcentage recommandé pour le fractionnement est de 80 % pour l’apprentissage et de 20 % pour les tests.

Notes

Si vous choisissez l’option Fractionnement automatique du jeu de test à partir des données d’apprentissage, seules les données attribuées au jeu d’apprentissage sont fractionnées selon les pourcentages fournis.

  • Utiliser un fractionnement manuel des données d’apprentissage et de test : cette méthode permet aux utilisateurs de définir quels documents étiquetés doivent appartenir à quel jeu. Cette étape est activée uniquement si vous avez ajouté des documents à votre jeu de test lors de l’étiquetage des données.

Effectuer l'apprentissage du modèle

Pour commencer à effectuer l’apprentissage de votre modèle à partir de Language Studio :

  1. Dans le menu de gauche, sélectionnez Travaux d’entraînement.

  2. Sélectionnez Démarrer un travail de formation dans le menu supérieur.

  3. Sélectionnez Effectuer l’apprentissage d’un nouveau modèle, puis tapez le nom du modèle dans la zone de texte. Vous pouvez également remplacer un modèle existant en sélectionnant cette option et le modèle de votre choix dans le menu déroulant. La remplacement d’un modèle entraîné est irréversible. Toutefois, cela n’affecte pas vos modèles déployés tant que vous ne déployez pas le nouveau modèle.

    Capture d’écran montrant l’écran de création d’un travail d’entraînement dans Language Studio.

  4. Sélectionnez la méthode de fractionnement des données. Vous pouvez choisir l’option Fractionnement automatique du jeu de test à partir des données d’apprentissage. Dans ce cas, le système fractionne vos données étiquetées en jeux d’apprentissage et de test, selon les pourcentages spécifiés. Vous pouvez également Utiliser un fractionnement manuel des données d’entraînement et de test. Cette option n’est activée que si vous avez ajouté des documents à votre jeu de test. Pour plus d’informations sur le fractionnement des données, consultez Étiquetage des données et Comment entraîner un modèle.

  5. Sélectionner le bouton Train (Entraîner).

  6. Si vous sélectionnez l’ID du travail d’apprentissage dans la liste, un volet latéral vous permet de vérifier la progression de la formation, l’état du travail et d’autres détails pour ce travail.

    Notes

    • Seuls les emplois de formation achevés avec succès génèrent des modèles.
    • L’apprentissage peut durer de quelques minutes à plusieurs heures en fonction de la taille de vos données étiquetées.
    • Vous ne pouvez avoir qu’un seul travail d’entraînement en cours d’exécution à la fois. Vous ne pouvez pas démarrer un autre travail d’apprentissage dans le même projet tant que le travail en cours d’exécution n’est pas terminé.

Annuler un travail d’apprentissage

Pour annuler un travail d’entraînement dans Language Studio, accédez à la page Travaux d’entraînement. Sélectionnez le travail d’apprentissage à annuler et sélectionnez Annuler dans le menu supérieur.

Étapes suivantes

Une fois l’entraînement terminé, vous pouvez examiner les performances du modèle pour éventuellement l’améliorer. Dès que vous êtes satisfait de votre modèle, vous pouvez le déployer et le rendre disponible pour l’extraction d’entités à partir du texte.