Prise en charge de la région et de la langue pour LUIS
Important
LUIS sera mis hors service le 1er octobre 2025 et à partir du 1er avril 2023, vous ne pourrez plus créer de nouvelles ressources LUIS. Nous vous recommandons de migrer vos applications LUIS vers la compréhension du langage courant pour tirer parti de la prise en charge continue des produits et des fonctionnalités multilingues.
LUIS possède un éventail de fonctionnalités au sein du service. Certaines fonctionnalités partagent la même parité de langage. Assurez-vous que les fonctionnalités qui que vous intéressent sont prises en charge dans la culture de langue que vous ciblez. Une application LUIS est propre à une culture et ne peut pas être modifiée après configuration.
Applications LUIS multilingues
Si vous avez besoin d’une application client LUIS multilingue, comme un chatbot, vous avez plusieurs options. Si LUIS prend en charge toutes les langues, vous développez une application LUIS pour chaque langue. Chaque application LUIS possède un ID d’application unique et un journal de point de terminaison. Si vous avez besoin du service Language Understanding pour une langue non prise en charge par LUIS, vous pouvez utiliser le service Translator pour traduire l’énoncé dans une langue prise en charge, envoyer l’énoncé au point de terminaison LUIS et recevoir les scores obtenu.
Remarque
Une version plus récente des fonctionnalités Language Understanding est maintenant disponible dans le cadre d’Azure AI Language. Pour plus d’informations, consultez la documentation Azure AI Language. Pour plus d’informations sur les fonctionnalités de compréhension de la langue qui prennent en charge plusieurs langues au sein du service de langage, consultez Compréhension du langage courant (CLU).
Langues prises en charge
LUIS comprend les énoncés dans les langues suivantes :
Langage | Paramètres régionaux | Domaine prédéfini | Entité prédéfinie | Recommandations de liste d’expression | **Analyse des sentiments et Extraction de phrases clés |
---|---|---|---|---|---|
Arabe (préversion ; arabe standard moderne) | ar-AR |
- | - | - | - |
*Chinois | zh-CN |
✔ | ✔ | ✔ | - |
Néerlandais | nl-NL |
✔ | - | - | ✔ |
Anglais (États-Unis) | en-US |
✔ | ✔ | ✔ | ✔ |
Anglais (Royaume-Uni) | en-GB |
✔ | ✔ | ✔ | ✔ |
Français (Canada) | fr-CA |
- | - | - | ✔ |
Français (France) | fr-FR |
✔ | ✔ | ✔ | ✔ |
Allemand | de-DE |
✔ | ✔ | ✔ | ✔ |
Gujarati (préversion) | gu-IN |
- | - | - | - |
Hindi (préversion) | hi-IN |
- | ✔ | - | - |
Italien | it-IT |
✔ | ✔ | ✔ | ✔ |
*Japonais | ja-JP |
✔ | ✔ | ✔ | Expression clé uniquement |
Coréen | ko-KR |
✔ | - | - | Expression clé uniquement |
Marathi (préversion) | mr-IN |
- | - | - | - |
Portugais (Brésil) | pt-BR |
✔ | ✔ | ✔ | pas toutes les sous-cultures |
Espagnol (Mexique) | es-MX |
- | ✔ | ✔ | ✔ |
Espagnol (Espagne) | es-ES |
✔ | ✔ | ✔ | ✔ |
Tamoul (préversion) | ta-IN |
- | - | - | - |
Télougou (préversion) | te-IN |
- | - | - | - |
Turc | tr-TR |
✔ | ✔ | - | Sentiment uniquement |
La prise en charge linguistique varie pour les entités prédéfinies et les domaines prédéfinis.
*Notes pour la prise en charge du chinois
- Dans la culture
zh-CN
, LUIS attend le jeu de caractères chinois simplifié plutôt que le jeu de caractères chinois traditionnel. - Les noms des intentions, les entités, les fonctionnalités et les expressions régulières peuvent être en caractères chinois ou romans.
- Pour plus d’informations sur les domaines prédéfinis pris en charge dans la culture
zh-CN
, voir la référence des domaines prédéfinis.
*Notes pour la prise en charge du japonais
- LUIS ne fournit pas d’analyse syntaxique et ne comprend pas la différence entre le japonais informel et Keigo. Vous devez donc intégrer les différents niveaux de formalité sous formes d’exemples pour vos applications.
- でございます ne signifie pas la même chose que です.
- です ne signifie pas la même chose que だ.
**Notes pour le support du service de langage
Le service de langage inclut l’entité keyPhrase prédéfinie et l’analyse des sentiments. Seul le portugais est pris en charge pour les sous-cultures : pt-PT
et pt-BR
. Toutes les autres cultures sont prises en charge au niveau de la culture principale.
Langues prises en charge par l’API Microsoft Speech
Consultez les langues prises en charge par Speech pour connaître les langues du mode de dictée de Speech.
Langues prises en charge par la vérification orthographique Bing
Consultez les langues prises en charge par la vérification orthographique Bing pour obtenir la liste des langues prises en charge et leur état.
Mots rares ou étrangers dans une application
Dans la culture en-us
, LUIS apprend à distinguer la plupart des mots anglais, y compris l’argot. Dans la culture zh-cn
, LUIS apprend distinguer la plupart des caractères chinois. Si vous utilisez un mot rare en en-us
ou caractère en zh-cn
, et que LUIS semble incapable de distinguer ce mot ou ce caractère, vous pouvez ajouter le mot ou le caractère à une fonctionnalité de la liste d’expressions. Par exemple, les mots n’appartenant pas à la culture de l’application (autrement dit, les mots étrangers) doivent être ajoutés à une fonctionnalité de liste d’expressions.
Langues hybrides
Les langues hybrides combinent des mots de deux cultures, comme l’anglais et le chinois. Ces langues ne sont pas prises en charge dans LUIS, car une application est basée sur une culture unique.
Segmentation du texte en unités lexicales
Pour effectuer l’apprentissage machine, LUIS décompose l’énoncé en jetons selon la culture.
Langage | chaque espace ou caractère spécial | niveau caractère | mots composés |
---|---|---|---|
Arabe | ✔ | ||
Chinois | ✔ | ||
Néerlandais | ✔ | ✔ | |
Anglais (en-us) | ✔ | ||
Anglais (en-GB) | ✔ | ||
Français (fr-FR) | ✔ | ||
Français (fr-CA) | ✔ | ||
Allemand | ✔ | ✔ | |
Goudjrati | ✔ | ||
Hindi | ✔ | ||
Italien | ✔ | ||
Japonais | ✔ | ||
Coréen | ✔ | ||
Marathi | ✔ | ||
Portugais (Brésil) | ✔ | ||
Espagnol (es-ES) | ✔ | ||
Espagnol (es-MX) | ✔ | ||
Tamoul | ✔ | ||
Télougou | ✔ | ||
Turc | ✔ |
Versions personnalisées du générateur de jetons
Les cultures suivantes ont des versions personnalisées du générateur de jetons :
Culture | Version | Objectif |
---|---|---|
Allemandde-de |
1.0.0 | Segmente les mots composés en composants simples à l’aide d’un générateur de jetons de type Machine Learning. L’énoncé Ich fahre einen krankenwagen est transformé en Ich fahre einen kranken wagen . Permet de marquer indépendamment kranken et wagen comme des entités différentes. |
Allemandde-de |
1.0.2 | Segmente les mots en les fractionnant sur les espaces. Si un utilisateur entre Ich fahre einen krankenwagen comme énoncé, il reste un jeton unique. krankenwagen est donc marqué comme une seule entité. |
Néerlandaisnl-nl |
1.0.0 | Segmente les mots composés en composants simples à l’aide d’un générateur de jetons de type Machine Learning. L’énoncé Ik ga naar de kleuterschool est transformé en Ik ga naar de kleuter school . Permet de marquer indépendamment kleuter et school comme des entités différentes. |
Néerlandaisnl-nl |
1.0.1 | Segmente les mots en les fractionnant sur les espaces. Si un utilisateur entre Ik ga naar de kleuterschool comme énoncé, il reste un jeton unique. kleuterschool est donc marqué comme une seule entité. |
Changer de version du générateur de jetons
La segmentation du texte en unités lexicales se produit au niveau de l’application. La tokenisation au niveau de la version n’est pas prise en charge.
Importez le fichier comme une nouvelle application, au lieu d’une version, pour que l’application ait un autre ID, mais utilise la version du générateur de jetons spécifiée dans le fichier.