Énoncés
Important
LUIS sera mis hors service le 1er octobre 2025 et à partir du 1er avril 2023, vous ne pourrez plus créer de nouvelles ressources LUIS. Nous vous recommandons de migrer vos applications LUIS vers la compréhension du langage courant pour tirer parti de la prise en charge continue des produits et des fonctionnalités multilingues.
Les énoncés sont des entrées des utilisateurs que votre application doit interpréter. Pour que LUIS apprenne à extraire des intentions et des entités à partir de ces entrées, il est important de capturer différents exemples d’énoncés pour chaque intention. L’apprentissage actif, ou le processus de continuer l’entraînement sur de nouveaux énoncés, est essentiel pour l’intelligence du machine learning que fournit LUIS.
Collectez des énoncés dont vous pensez que les utilisateurs les entreront. Incluez des énoncés qui signifient la même chose mais présentent des constructions différentes :
- Longueur de l’énoncé : court, moyen et long pour votre application cliente
- Longueur de mot et d’expression
- Position des mots : entité au début, au milieu et à la fin de l’énoncé
- Grammaire
- Forme plurielle
- Recherche de radical
- Choix de nom et de verbe
- Ponctuation : utilisation d’une grammaire correcte et incorrecte
Choisir des énoncés variés
Lorsque vous commencez à ajouter des exemples d’énoncés à votre modèle LUIS, vous devez garder à l’esprit plusieurs principes :
Les énoncés ne sont pas toujours correctement formés
Votre application peut avoir à traiter des phrases telles que « Me réserver un billet pour Paris » ou un fragment de phrase comme « Réservation » ou « Vol pour Paris ». Par ailleurs, les utilisateurs font souvent des fautes d’orthographe. Lorsque vous planifiez votre application, décidez si vous souhaitez utiliser ou non la Vérification orthographique Bing pour corriger l’entrée de utilisateur avant de la transmettre à LUIS.
Si vous décidez de ne pas vérifier l’orthographe des énoncés des utilisateurs, vous devez former LUIS sur des énoncés contenant des fautes de frappe et d’orthographe.
Utiliser la langue représentative de l’utilisateur
Lorsque vous choisissez des énoncés, n’oubliez pas que ce que vous pensez être un terme ou une expression courants pourrait ne pas l’être pour l’utilisateur de votre application cliente. Celui-ci n’a peut-être aucune expérience dans ce domaine ou utilise une terminologie différente. Soyez prudent lorsque vous utilisez des termes ou expressions que seul un utilisateur expert utiliserait.
Choisir une terminologie et des formulations variées
Vous constaterez que, même si vous vous efforcez de créer des modèles de phrase variés, vous continuerez à répéter certains termes. Par exemple, les énoncés suivants ont une signification similaire, mais utilisent une terminologie et une formulation différentes :
- « Comment faire pour acheter un ordinateur ? »
- « Où acheter un ordinateur ? »
- « Je souhaite acheter un ordinateur, comment faire ? »
- « Quand puis-je acheter un ordinateur ? »
Ici, le terme clé, ordinateur, n’a pas de variante. Utilisez des alternatives telles que « ordinateur de bureau », « ordinateur portable », « station de travail » ou même juste « machine ». LUIS peut déduire intelligemment des synonymes à partir du contexte, mais, lorsque vous créez des énoncés pour l’apprentissage, il est toujours préférable de les faire varier.
Exemples d’énoncés dans chaque intention
Chaque intention doit être associée à des exemples d’énoncés, au minimum 15. Si vous avez une intention dépourvue d’exemple d’énoncé, vous ne pouvez pas former LUIS. Si vous avez une intention avec un seul ou peu d’exemples d’énoncés, LUIS peut ne pas prédire l’intention avec précision.
Ajouter de petits groupes d’énoncés
Chaque fois que vous effectuez une itération sur votre modèle pour l’améliorer, n’ajoutez pas de grandes quantités d’énoncés. Vous devez ajouter des énoncés 15 par 15. Entraînez, publiez et testez à nouveau votre modèle ensuite.
LUIS génère des modèles efficaces avec des énoncés soigneusement sélectionnés par l’auteur du modèle LUIS. L’ajout d’un trop grand nombre d’énoncés n’est pas productif, car cela introduit de la confusion.
Il est préférable de commencer avec quelques énoncés, puis d’examiner les énoncés de point de terminaison pour vérifier le bon fonctionnement de la prédiction d’intention et de l’extraction d’entité.
Normalisation de l’énoncé
La normalisation de l’énoncé est le processus qui consiste à ignorer les effets des types de textes, comme la ponctuation et les signes diacritiques au cours de la formation et de la prédiction.
Les paramètres de normalisation de l’énoncé sont désactivés par défaut. Ces paramètres comprennent ce qui suit :
- Formes des mots
- Diacritiques
- Ponctuation
Si vous activez le paramètre de normalisation, les scores dans le volet Test, les tests par lot et les requêtes de point de terminaison changent pour tous les énoncés pour ce paramètre de normalisation.
Lorsque vous clonez une version dans le portail LUIS, les paramètres de version sont conservés dans la nouvelle version clonée.
Définissez les paramètres de version de votre application à l’aide du portail LUIS en sélectionnant Gérer dans le menu de navigation supérieur, dans la page Paramètres de l’application. Vous pouvez également utiliser l’API de mise à jour des paramètres de la version. Pour plus d’informations, consultez la documentation de référence.
Formes des mots
La normalisation word forms (formes des mots) ignore les différences entre les mots qui se développent au-delà de leur racine.
Diacritiques
Les signes diacritiques sont des marques ou des signes dans le texte, par exemple :
İ ı Ş Ğ ş ğ ö ü
Signes de ponctuation
La normalisation de la ponctuation signifie qu’avant la formation de vos modèles et avant la prédiction de vos requêtes de point de terminaison, la ponctuation est retirée des énoncés.
La ponctuation est un jeton distinct dans LUIS. Un énoncé qui se termine par un point et un énoncé qui n’en comporte pas sont deux énoncés distincts. Ceux-ci sont susceptibles d’obtenir deux prédictions différentes.
Si la ponctuation n’est pas normalisée, LUIS n’ignore pas les marques de ponctuation, par défaut, car certaines applications clientes peuvent leur accorder une importance. Veillez à inclure des exemples d’énoncés incluant des signes de ponctuation, et d’autres sans, pour que les deux styles renvoient les mêmes scores relatifs.
Veillez à ce que le modèle gère la ponctuation soit dans les exemples d’énoncés (avec ou sans ponctuation), soit dans les modèles où il est plus facile d’ignorer la ponctuation. Par exemple : Je transmets ma candidature au poste de {Job}[.]
Si la ponctuation n’a aucune signification spécifique dans votre application cliente, vous pouvez ignorer les signes de ponctuation en normalisant la ponctuation.
Ignorer les mots et les signes de ponctuation
Si vous souhaitez ignorer des mots ou des signes de ponctuation spécifiques dans des modèles, utilisez un modèle avec la syntaxe ignore ou des crochets, []
.
Formation avec tous les énoncés
L’entraînement n’est pas déterministe : la prédiction d’énoncé peut varier légèrement selon la version ou l’application. Vous pouvez supprimer une formation non déterministe en mettant à jour l’API des paramètres de la version avec la paire nom-valeur UseAllTrainingData afin d’utiliser toutes les données d’entraînement.
Test des énoncés
Les développeurs doivent commencer à tester leur application LUIS avec des données réelles en envoyant des énoncés à l’URL du point de terminaison de prédiction. Ces énoncés sont utilisés pour améliorer les performances des intentions et des entités à l’aide d’un examen des énoncés. Les tests soumis à l’aide du volet de test dans le portail LUIS ne sont pas envoyés via le point de terminaison et ne contribuent pas à l’apprentissage actif.
Examen des énoncés
Une fois votre modèle formé et publié, et après réception des requêtes de point de terminaison, examinez les énoncés suggérés par LUIS. LUIS sélectionne sur le point de terminaison les énoncés qui présentent des scores bas en lien avec l’intention ou l’entité.
Meilleures pratiques
Étiquette pour la signification du mot
Si le choix des mots ou la disposition des mots est identique, mais que la signification est différente, n’utilisez pas l’entité pour l’étiqueter.
Dans les énoncés suivants, le mot moule est un homographe. Cela signifie qu’il est orthographié de la même manière, mais a une signification différente :
- « Quelles sont les foires qui ont lieu dans la région de Seattle cet été ? »
- « Où manger les meilleures moules marinières ? »
Si vous souhaitez qu’une entité d’événement recherche toutes les données d’événement, étiquetez le mot moule dans le premier énoncé, mais pas dans le second.
N’ignorez pas les variations d’énoncé possibles
LUIS attend des variations dans les énoncés d’une intention. Les énoncés peuvent différer (longueur, choix et place des mots notamment) tout en gardant la même signification générale.
N’utilisez pas le même format | Utilisez des formats variables |
---|---|
Acheter un billet pour Seattle | Acheter 1 billet pour Seattle |
Acheter un billet pour Paris | Réserver deux ticjets pour le vol de nuit à destination de Paris lundi prochain |
Acheter un billet pour Orlando | J’aimerais réserver 3 billets pour Orlando pour les vacances de printemps |
La deuxième colonne utilise des verbes différents (acheter, réserver), différentes quantités (1, « deux », 3) et des ordres de mots divers, mais tous les énoncés ont la même intention : acheter des billets d’avion pour un voyage.
N’ajoutez pas trop d’exemples d’énoncés aux intentions
Une fois l’application publiée, ajoutez seulement des énoncés à partir de l’apprentissage actif au processus de cycle de développement. S’ils sont trop proches, ajoutez un modèle.