Prise en charge de la région et de la langue pour LUIS

Article
01/19/2024

Important

LUIS sera mis hors service le 1er octobre 2025 et à partir du 1er avril 2023, vous ne pourrez plus créer de nouvelles ressources LUIS. Nous vous recommandons de migrer vos applications LUIS vers la compréhension du langage courant pour tirer parti de la prise en charge continue des produits et des fonctionnalités multilingues.

LUIS possède un éventail de fonctionnalités au sein du service. Certaines fonctionnalités partagent la même parité de langage. Assurez-vous que les fonctionnalités qui que vous intéressent sont prises en charge dans la culture de langue que vous ciblez. Une application LUIS est propre à une culture et ne peut pas être modifiée après configuration.

Applications LUIS multilingues

Si vous avez besoin d’une application client LUIS multilingue, comme un chatbot, vous avez plusieurs options. Si LUIS prend en charge toutes les langues, vous développez une application LUIS pour chaque langue. Chaque application LUIS possède un ID d’application unique et un journal de point de terminaison. Si vous avez besoin du service Language Understanding pour une langue non prise en charge par LUIS, vous pouvez utiliser le service Translator pour traduire l’énoncé dans une langue prise en charge, envoyer l’énoncé au point de terminaison LUIS et recevoir les scores obtenu.

Notes

Une version plus récente des fonctionnalités Language Understanding est maintenant disponible dans le cadre d’Azure AI Language. Pour plus d’informations, consultez la documentation Azure AI Language. Pour plus d’informations sur les fonctionnalités de compréhension de la langue qui prennent en charge plusieurs langues au sein du service de langage, consultez Compréhension du langage courant (CLU).

Langues prises en charge

LUIS comprend les énoncés dans les langues suivantes :

Langage	Paramètres régionaux	Domaine prédéfini	Entité prédéfinie	Recommandations de liste d’expression	**Analyse des sentiments et Extraction de phrases clés
Arabe (préversion ; arabe standard moderne)	`ar-AR`	-	-	-	-
*Chinois	`zh-CN`	✔	✔	✔	-
Néerlandais	`nl-NL`	✔	-	-	✔
Anglais (États-Unis)	`en-US`	✔	✔	✔	✔
Anglais (Royaume-Uni)	`en-GB`	✔	✔	✔	✔
Français (Canada)	`fr-CA`	-	-	-	✔
Français (France)	`fr-FR`	✔	✔	✔	✔
Allemand	`de-DE`	✔	✔	✔	✔
Gujarati (préversion)	`gu-IN`	-	-	-	-
Hindi (préversion)	`hi-IN`	-	✔	-	-
Italien	`it-IT`	✔	✔	✔	✔
*Japonais	`ja-JP`	✔	✔	✔	Expression clé uniquement
Coréen	`ko-KR`	✔	-	-	Expression clé uniquement
Marathi (préversion)	`mr-IN`	-	-	-	-
Portugais (Brésil)	`pt-BR`	✔	✔	✔	pas toutes les sous-cultures
Espagnol (Mexique)	`es-MX`	-	✔	✔	✔
Espagnol (Espagne)	`es-ES`	✔	✔	✔	✔
Tamoul (préversion)	`ta-IN`	-	-	-	-
Télougou (préversion)	`te-IN`	-	-	-	-
Turc	`tr-TR`	✔	✔	-	Sentiment uniquement

La prise en charge linguistique varie pour les entités prédéfinies et les domaines prédéfinis.

*Notes pour la prise en charge du chinois

Dans la culture zh-CN, LUIS attend le jeu de caractères chinois simplifié plutôt que le jeu de caractères chinois traditionnel.
Les noms des intentions, les entités, les fonctionnalités et les expressions régulières peuvent être en caractères chinois ou romans.
Pour plus d’informations sur les domaines prédéfinis pris en charge dans la culture zh-CN, voir la référence des domaines prédéfinis.

*Notes pour la prise en charge du japonais

LUIS ne fournit pas d’analyse syntaxique et ne comprend pas la différence entre le japonais informel et Keigo. Vous devez donc intégrer les différents niveaux de formalité sous formes d’exemples pour vos applications.
- でございます ne signifie pas la même chose que です.
- です ne signifie pas la même chose que だ.

**Notes pour le support du service de langage

Le service de langage inclut l’entité keyPhrase prédéfinie et l’analyse des sentiments. Seul le portugais est pris en charge pour les sous-cultures : pt-PT et pt-BR. Toutes les autres cultures sont prises en charge au niveau de la culture principale.

Langues prises en charge par l’API Microsoft Speech

Consultez les langues prises en charge par Speech pour connaître les langues du mode de dictée de Speech.

Langues prises en charge par la vérification orthographique Bing

Consultez les langues prises en charge par la vérification orthographique Bing pour obtenir la liste des langues prises en charge et leur état.

Mots rares ou étrangers dans une application

Dans la culture en-us, LUIS apprend à distinguer la plupart des mots anglais, y compris l’argot. Dans la culture zh-cn, LUIS apprend distinguer la plupart des caractères chinois. Si vous utilisez un mot rare en en-us ou caractère en zh-cn, et que LUIS semble incapable de distinguer ce mot ou ce caractère, vous pouvez ajouter le mot ou le caractère à une fonctionnalité de la liste d’expressions. Par exemple, les mots n’appartenant pas à la culture de l’application (autrement dit, les mots étrangers) doivent être ajoutés à une fonctionnalité de liste d’expressions.

Langues hybrides

Les langues hybrides combinent des mots de deux cultures, comme l’anglais et le chinois. Ces langues ne sont pas prises en charge dans LUIS, car une application est basée sur une culture unique.

Segmentation du texte en unités lexicales

Pour effectuer l’apprentissage machine, LUIS décompose l’énoncé en jetons selon la culture.

Langage	chaque espace ou caractère spécial	niveau caractère	mots composés
Arabe	✔
Chinois		✔
Néerlandais	✔		✔
Anglais (en-us)	✔
Anglais (en-GB)	✔
Français (fr-FR)	✔
Français (fr-CA)	✔
Allemand	✔		✔
Goudjrati	✔
Hindi	✔
Italien	✔
Japonais			✔
Coréen		✔
Marathi	✔
Portugais (Brésil)	✔
Espagnol (es-ES)	✔
Espagnol (es-MX)	✔
Tamoul	✔
Télougou	✔
Turc	✔

Versions personnalisées du générateur de jetons

Les cultures suivantes ont des versions personnalisées du générateur de jetons :

Culture	Version	Objectif
Allemand `de-de`	1.0.0	Segmente les mots composés en composants simples à l’aide d’un générateur de jetons de type Machine Learning. L’énoncé `Ich fahre einen krankenwagen` est transformé en `Ich fahre einen kranken wagen`. Permet de marquer indépendamment `kranken` et `wagen` comme des entités différentes.
Allemand `de-de`	1.0.2	Segmente les mots en les fractionnant sur les espaces. Si un utilisateur entre `Ich fahre einen krankenwagen` comme énoncé, il reste un jeton unique. `krankenwagen` est donc marqué comme une seule entité.
Néerlandais `nl-nl`	1.0.0	Segmente les mots composés en composants simples à l’aide d’un générateur de jetons de type Machine Learning. L’énoncé `Ik ga naar de kleuterschool` est transformé en `Ik ga naar de kleuter school`. Permet de marquer indépendamment `kleuter` et `school` comme des entités différentes.
Néerlandais `nl-nl`	1.0.1	Segmente les mots en les fractionnant sur les espaces. Si un utilisateur entre `Ik ga naar de kleuterschool` comme énoncé, il reste un jeton unique. `kleuterschool` est donc marqué comme une seule entité.

Changer de version du générateur de jetons

La segmentation du texte en unités lexicales se produit au niveau de l’application. La tokenisation au niveau de la version n’est pas prise en charge.

Importez le fichier comme une nouvelle application, au lieu d’une version, pour que l’application ait un autre ID, mais utilise la version du générateur de jetons spécifiée dans le fichier.