Entraîner votre modèle de compréhension du langage courant

Article
12/19/2023

Une fois que vous avez terminé l’étiquetage de vos énoncés, vous pouvez vous lancer dans l’entraînement d’un modèle. L’apprentissage est le processus par lequel le modèle apprend à partir de vos énoncés étiquetés.

Pour effectuer l’apprentissage d’un modèle, démarrez un travail d’apprentissage. Seuls les travaux terminés avec succès créent un modèle. Un travail d’apprentissage expire au bout de sept jours. Passé ce délai, il est impossible de récupérer les détails de ce travail. Si votre travail d’apprentissage s’est terminé avec succès et qu’un modèle a été créé, il ne sera pas affecté par l’expiration du travail. Vous ne pouvez exécuter qu’un seul travail d’apprentissage à la fois. Vous ne pouvez pas non plus lancer d’autres travaux au sein du même projet.

Les durées de formation peuvent être comprises entre quelques secondes, pour des projets simples, et quelques heures, lorsque vous atteignez la limite maximale des énoncés.

L’évaluation du modèle est déclenchée automatiquement une fois l’entraînement effectué. Le processus d’évaluation commence par utiliser le modèle formé pour exécuter des prédictions sur les énoncés du jeu de tests et compare les résultats prédits avec les étiquettes fournies (qui établit une base de référence de vérité).

Prérequis

Un projet créé correctement avec un compte de stockage Blob Azure configuré
Énoncés étiquetés

Équilibrer les données d’apprentissage

Concernant les données d’apprentissage, vous devez essayer de garder votre schéma bien équilibré. L’inclusion de grandes quantités d’une intention, et très peu d’autres, entraîne un modèle fortement biaisé vers des intentions particulières.

Pour résoudre ce problème, vous pouvez avoir besoin de sous-échantillonner votre jeu d’apprentissage ou de l’élargir. Le sous-échantillonnage peut être effectué par différentes méthodes :

Se débarrasser d’un certain pourcentage des données d’apprentissage de manière aléatoire.
De manière plus systématique en analysant le jeu de données et en supprimant les entrées en double surreprésentées.

Vous pouvez également élargir le jeu d’apprentissage en sélectionnant Suggérer des énoncés dans l’onglet Étiquetage des données de Language Studio. La compréhension du langage courant envoie un appel à Azure OpenAI pour générer des énoncés similaires.

Vous pouvez également rechercher des « modèles » involontaires dans le jeu d’apprentissage. Par exemple, si le jeu d’apprentissage d’une intention particulière est en minuscules ou commence par une expression particulière. Dans ce cas, le modèle que vous entraînez peut apprendre ces biais involontaires dans le jeu d’apprentissage au lieu de pouvoir généraliser.

Nous vous recommandons d’introduire la diversité de la casse et de la ponctuation dans le jeu d’apprentissage. Si votre modèle est censé gérer les variations, veillez à disposer d’un jeu d’apprentissage qui reflète également cette diversité. Par exemple, incluez certains énoncés dans une casse appropriée, et d’autres entièrement en minuscules.

Fractionnement des données

Avant d’entamer le processus d’apprentissage, les énoncés étiquetés de votre projet sont divisés en deux jeux : un jeu d’apprentissage et un jeu de test. Chacun d’eux a une fonction différente. Le jeu d’apprentissage est utilisé dans l’apprentissage du modèle. Il s’agit de l’ensemble à partir duquel le modèle apprend les énoncés étiquetés. Le jeu de test est un jeu témoin qui n’est pas présenté au modèle pendant l’apprentissage, mais uniquement lors de l’évaluation.

Après l’apprentissage du modèle, il est utilisé pour effectuer des prédictions à partir des énoncés du jeu de tests. Ces prédictions sont utilisées pour calculer les métriques d’évaluation. Nous vous recommandons de vérifier que toutes vos intentions et entités sont correctement représentées dans les jeux d’entraînement et de test.

La compréhension du langage courant prend en charge deux méthodes de fractionnement des données :

Fractionnement automatique du jeu de test à partir des données d’apprentissage : le système fractionne les données étiquetées en un jeu d’apprentissage et un jeu de test, selon les pourcentages que vous avez choisis. Le pourcentage recommandé pour le fractionnement est de 80 % pour l’apprentissage et de 20 % pour les tests.

Notes

Si vous choisissez l’option Fractionnement automatique du jeu de test à partir des données d’apprentissage, seules les données attribuées au jeu d’apprentissage sont fractionnées selon les pourcentages fournis.

Utiliser un fractionnement manuel des données d’apprentissage et de test : cette méthode permet aux utilisateurs de définir quels énoncés doivent appartenir à quel jeu. Cette étape est activée uniquement si vous avez ajouté des énoncés à votre jeu de test lors de l’étiquetage.

Modes d’entraînement

CLU prend en charge deux modes d’entraînement de modèles

L’entraînement standard utilise des algorithmes de Machine Learning rapides qui permettent d’entraîner vos modèles de manière relativement rapide. Cette option n’est actuellement disponible que pour l’anglais et est désactivée pour les projets qui n’utilisent pas l’Anglais (États-Unis) ou l’Anglais (Royaume-Uni) comme langue principale. Cette option d’entraînement est gratuite. L’entraînement standard vous permet d’ajouter des énoncés et de les tester rapidement sans frais. Les scores d’évaluation affichés doivent vous guider quant aux modifications à apporter à votre projet et aux énoncés supplémentaires à ajouter. Une fois que vous avez itéré plusieurs fois et apporté des améliorations incrémentielles, vous pouvez envisager d’utiliser l’entraînement avancé pour entraîner une autre version de votre modèle.
L’entraînement avancé utilise la dernière technologie de Machine Learning pour personnaliser les modèles avec vos données. Il est censé afficher de meilleurs scores de performances pour vos modèles et vous permet aussi d’utiliser les capacités multilingues de CLU. L’entraînement avancé est facturé différemment. Pour plus d’informations, consultez les informations tarifaires.

Servez-vous des scores d’évaluation pour guider vos décisions. Il peut arriver qu’un exemple spécifique soit prédit de manière incorrecte dans l’entraînement avancé, ce qui n’était pas le cas quand vous utilisiez le mode d’entraînement standard. Cependant, si les résultats globaux de l’évaluation sont meilleurs avec le mode avancé, il est recommandé d’utiliser votre modèle final. Si ce n’est pas le cas et que vous n’envisagez pas d’utiliser de capacités multilingues, vous pouvez continuer à utiliser le modèle entraîné avec le mode standard.

Notes

Attendez-vous à voir une différence de comportement dans les scores de confiance envers les intentions entre les modes d’entraînement, car chaque algorithme étalonne leurs scores différemment.

Pour commencer à effectuer l’apprentissage de votre modèle à partir de Language Studio :

Dans le menu de gauche, sélectionnez Effectuer l’apprentissage du modèle.
Sélectionnez Démarrer un travail de formation dans le menu supérieur.
Sélectionnez Entraîner un nouveau modèle, puis entrez le nom d’un nouveau modèle dans la zone de texte. Sinon, pour remplacer un modèle existant par un modèle entraîné sur les nouvelles données, sélectionnez Remplacer un modèle existant, puis sélectionnez un modèle existant. La remplacement d’un modèle entraîné est irréversible. Toutefois, cela n’affecte pas vos modèles déployés tant que vous ne déployez pas le nouveau modèle.
Sélectionnez le mode d’entraînement. Vous pouvez choisir l’Entraînement standard pour un entraînement plus rapide, mais il n’est disponible que pour l’anglais. Vous pouvez aussi opter pour l’Entraînement avancé, qui est pris en charge pour d’autres langues et les projets multilingues, mais les temps d’entraînement sont plus longs. Apprenez-en davantage sur les modes d’apprentissage.
Sélectionnez une méthode de fractionnement des données. Vous pouvez choisir l’option Fractionnement automatique du jeu de test à partir des données d’entraînement. Dans ce cas, le système fractionne vos énoncés en jeux d’apprentissage et de test, selon les pourcentages spécifiés. Vous pouvez aussi Utiliser un fractionnement manuel des données d’entraînement et de test. Cette option est activée uniquement si vous avez ajouté des énoncés à votre jeu de test pendant l’étiquetage de vos énoncés.
Sélectionner le bouton Train (Entraîner).
Sélectionnez l’ID du travail d’entraînement dans la liste. Un volet latéral s’affichera, dans lequel vous pourrez consulter la progression de l’entraînement, l’état du travail et d’autres détails concernant ce travail.
Notes
- Seuls les emplois de formation achevés avec succès génèrent des modèles.
- L’entraînement peut prendre entre quelques minutes et quelques heures, selon le nombre d’énoncés.
- Vous ne pouvez avoir qu’un seul travail d’entraînement en cours d’exécution à la fois. Vous ne pouvez pas lancer d’autres travaux d’entraînement dans le même projet tant que le travail en cours d’exécution n’est pas terminé.
- Le machine learning utilisé pour entraîner les modèles est régulièrement mis à jour. Pour effectuer l’apprentissage sur une version de configuration précédente, sélectionnez Cliquez ici pour modifier à partir de la page Démarrer un travail d’apprentissage, puis choisissez une version précédente.

Démarrer le travail d’apprentissage

Créez une requête POST en utilisant l’URL, les en-têtes et le corps JSON suivants pour envoyer un travail d’apprentissage.

URL de la demande

Utilisez l’URL suivante quand vous créez votre demande d’API. Remplacez les valeurs d’espace réservé par vos propres valeurs.

{ENDPOINT}/language/authoring/analyze-conversations/projects/{PROJECT-NAME}/:train?api-version={API-VERSION}

Espace réservé	Valeur	Exemple
`{ENDPOINT}`	Point de terminaison pour l’authentification de votre demande d’API.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Nom de votre projet. Cette valeur respecte la casse.	`EmailApp`
`{API-VERSION}`	Version de l’API que vous appelez.	`2023-04-01`

headers

Utilisez l’en-tête suivant pour authentifier votre demande.

Clé	Valeur
`Ocp-Apim-Subscription-Key`	Clé de votre ressource. Utilisée pour authentifier vos demandes d’API.

Corps de la demande

Utilisez l’objet suivant dans votre demande. Le modèle sera nommé d’après la valeur que vous utilisez pour le paramètre une fois la formationmodelLabel terminée.

{
  "modelLabel": "{MODEL-NAME}",
  "trainingMode": "{TRAINING-MODE}",
  "trainingConfigVersion": "{CONFIG-VERSION}",
  "evaluationOptions": {
    "kind": "percentage",
    "testingSplitPercentage": 20,
    "trainingSplitPercentage": 80
  }
}

Clé	Espace réservé	Valeur	Exemple
`modelLabel`	`{MODEL-NAME}`	Nom de votre modèle.	`Model1`
`trainingConfigVersion`	`{CONFIG-VERSION}`	Version du modèle de configuration de formation. Par défaut, la dernière version du modèle est utilisée.	`2022-05-01`
`trainingMode`	`{TRAINING-MODE}`	Mode d’entraînement à utiliser pour l’entraînement. Les modes pris en charge sont Entraînement standard (entraînement plus rapide, mais uniquement disponible pour l’anglais) et Entraînement avancé (pris en charge pour d’autres langues et les projets multilingues, mais supposant des temps d’entraînement plus longs). Apprenez-en davantage sur les modes d’apprentissage.	`standard`
`kind`	`percentage`	Méthodes de fractionnement. Les valeurs possibles sont `percentage` ou `manual`. Pour plus d’informations, consultez Comment entraîner un modèle.	`percentage`
`trainingSplitPercentage`	`80`	Pourcentage de vos données étiquetées à inclure dans le jeu d’apprentissage. La valeur recommandée est `80`.	`80`
`testingSplitPercentage`	`20`	Pourcentage de vos données étiquetées à inclure dans le jeu de test. La valeur recommandée est `20`.	`20`

Notes

Les trainingSplitPercentage et testingSplitPercentage sont nécessaires uniquement si Kind est défini sur percentage. La somme des deux pourcentages doit être égale à 100.

Une fois que vous avez envoyé votre demande d’API, vous recevez une réponse 202 indiquant la réussite. Dans les en-têtes de réponse, extrayez la valeur operation-location. Elle est au format suivant :

{ENDPOINT}/language/authoring/analyze-conversations/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

Vous pouvez utiliser cette URL pour obtenir l’état du travail d’apprentissage.

Obtenir l’état des travaux d’apprentissage

L’apprentissage peut durer un certain temps en fonction de la taille de vos données d’apprentissage et de la complexité de votre schéma. Vous pouvez utiliser la requête suivante pour continuer à interroger l’état du travail d’apprentissage jusqu’à ce qu’il soit effectué avec succès.

Lorsque vous envoyez une requête de formation réussie, l’URL de demande complète permettant de vérifier l’état du travail (y compris votre point de terminaison, le nom du projet et l’ID de travail) est contenue dans l’en-tête de operation-location la réponse.

Utilisez la requête GET suivante pour obtenir l’état de progression du processus d’apprentissage de votre modèle. Remplacez les valeurs d’espace réservé suivantes par vos valeurs :

URL de la demande

{ENDPOINT}/language/authoring/analyze-conversations/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

Espace réservé	Valeur	Exemple
`{YOUR-ENDPOINT}`	Point de terminaison pour l’authentification de votre demande d’API.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Nom de votre projet. Cette valeur respecte la casse.	`EmailApp`
`{JOB-ID}`	ID de localisation de l’état d’entraînement de votre modèle.	`xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx`
`{API-VERSION}`	Version de l’API que vous appelez.	`2023-04-01`

headers

Utilisez l’en-tête suivant pour authentifier votre demande.

Clé	Valeur
`Ocp-Apim-Subscription-Key`	Clé de votre ressource. Utilisée pour authentifier vos demandes d’API.

Corps de la réponse

Une fois que vous avez envoyé la demande, vous recevez la réponse suivante. Continuez à interroger ce point de terminaison jusqu’à ce que le paramètre status passe à « réussi ».

{
  "result": {
    "modelLabel": "{MODEL-LABEL}",
    "trainingConfigVersion": "{TRAINING-CONFIG-VERSION}",
    "trainingMode": "{TRAINING-MODE}",
    "estimatedEndDateTime": "2022-04-18T15:47:58.8190649Z",
    "trainingStatus": {
      "percentComplete": 3,
      "startDateTime": "2022-04-18T15:45:06.8190649Z",
      "status": "running"
    },
    "evaluationStatus": {
      "percentComplete": 0,
      "status": "notStarted"
    }
  },
  "jobId": "xxxxx-xxxxx-xxxx-xxxxx-xxxx",
  "createdDateTime": "2022-04-18T15:44:44Z",
  "lastUpdatedDateTime": "2022-04-18T15:45:48Z",
  "expirationDateTime": "2022-04-25T15:44:44Z",
  "status": "running"
}

Clé	Valeur	Exemple
`modelLabel`	Le nom du modèle	`Model1`
`trainingConfigVersion`	Version de configuration de formation. Par défaut, la dernière version est utilisée.	`2022-05-01`
`trainingMode`	Votre mode d’entraînement sélectionné.	`standard`
`startDateTime`	Le moment où la formation a commencé	`2022-04-14T10:23:04.2598544Z`
`status`	L’état du travail de formation	`running`
`estimatedEndDateTime`	Durée estimée pour l’achèvement du travail de formation	`2022-04-14T10:29:38.2598544Z`
`jobId`	Votre ID de travail de formation	`xxxxx-xxxx-xxxx-xxxx-xxxxxxxxx`
`createdDateTime`	Date et heure de création d’un travail de formation	`2022-04-14T10:22:42Z`
`lastUpdatedDateTime`	Date et heure de la dernière mise à jour du travail de formation	`2022-04-14T10:23:45Z`
`expirationDateTime`	Date et heure d’expiration du travail de formation	`2022-04-14T10:22:42Z`

Annuler un travail d’apprentissage

Language Studio
API REST

Pour annuler un travail d’entraînement dans Language Studio

Dans la page Entraîner un modèle, sélectionnez le travail d’entraînement à annuler, puis sélectionnez Annuler dans le menu supérieur.

Créez une requête POST en utilisant l’URL, les en-têtes et le corps JSON suivants pour annuler un travail d’apprentissage.

URL de la demande

Utilisez l’URL suivante quand vous créez votre demande d’API. Remplacez les valeurs d’espace réservé suivantes par vos valeurs :

{ENDPOINT}/language/authoring/analyze-conversations/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}/:cancel?api-version={API-VERSION}

Espace réservé	Valeur	Exemple
`{ENDPOINT}`	Point de terminaison pour l’authentification de votre demande d’API.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Nom de votre projet. Cette valeur respecte la casse.	`EmailApp`
`{JOB-ID}`	Il s’agit de l’ID du travail d’entraînement.	`XXXXX-XXXXX-XXXX-XX`
`{API-VERSION}`	Version de l’API que vous appelez.	`2023-04-01`

headers

Utilisez l’en-tête suivant pour authentifier votre demande.

Clé	Valeur
`Ocp-Apim-Subscription-Key`	Clé de votre ressource. Utilisée pour authentifier vos demandes d’API.

Après avoir envoyé votre demande d’API, vous recevez une réponse 202 de réussite, ce qui signifie que votre travail d’entraînement a été annulé. Un appel réussi donne un en-tête Operation-Location utilisé pour vérifier l’état du travail.

Étapes suivantes

Métriques d’évaluation de modèle

Entraîner votre modèle de compréhension du langage courant

Prérequis

Équilibrer les données d’apprentissage

Fractionnement des données

Modes d’entraînement

Effectuer l'apprentissage du modèle

Annuler un travail d’apprentissage

Étapes suivantes

Ressources supplémentaires