Prise en charge des langues pour la compréhension du langage courant
Lisez cet article pour en savoir plus sur les langues actuellement prises en charge par la fonctionnalité CLU.
Option multilingue
Conseil
Consultez Comment entraîner un modèle pour savoir quel mode d’entraînement utiliser pour les projets multilingues.
Avec la compréhension du langage courant, vous pouvez entraîner un modèle dans une langue et vous en servir pour prédire les intentions et les entités à partir d’énoncés dans un autre langage. Particulièrement intéressante, cette fonctionnalité permet d’économiser du temps et des efforts. Plutôt que de créer des projets distincts pour chaque langage, vous pouvez gérer des jeux de données multilingues au sein d’un seul projet. Il n’est pas nécessaire que tout votre jeu de données soit dans la même langue, mais vous devez activer l’option multilingue lors de la création de votre projet ou plus tard, dans les paramètres du projet. Si vous constatez que votre modèle donne de mauvais résultats dans certaines langues pendant le processus d’évaluation, envisagez d’ajouter des données dans ces langues à votre jeu d’apprentissage.
Vous pouvez entraîner votre projet entièrement avec des énoncés en anglais et l’interroger en français, allemand, mandarin, japonais, coréen et d’autres langues. Compréhension du langage courant vous permet de mettre facilement à l’échelle vos projets en plusieurs langues en utilisant la technologie multilingue pour entraîner vos modèles.
Chaque fois que vous identifiez qu’une langue particulière ne fonctionne pas aussi bien que les autres langues, vous pouvez ajouter des énoncés pour cette langue dans votre projet. Dans la page Étiqueter des énoncés de Language Studio, vous pouvez sélectionner la langue de l’énoncé que vous ajoutez. Quand vous introduisez des exemples pour cette langue dans le modèle, il reçoit davantage de syntaxe de cette langue et apprend à mieux la prédire.
Vous ne devez pas nécessairement ajouter le même nombre d’énoncés pour chaque langue. Vous devez créer la majeure partie de votre projet dans une seule langue et ajouter seulement quelques énoncés dans les langues dont vous observez qu’elles ne fonctionnent pas bien. Si vous créez un projet qui est principalement en anglais et que vous commencez à le tester en français, en allemand et en espagnol, vous constaterez peut-être que l’allemand ne fonctionne pas aussi bien que les deux autres langues. Dans ce cas, envisagez d’ajouter 5 % de vos exemples anglais d’origine en allemand, d’entraîner un nouveau modèle et de tester à nouveau l’allemand. Vous devez normalement obtenir de meilleurs résultats pour les requêtes en allemand. Plus vous ajoutez d’énoncés, plus les résultats sont susceptibles d’être améliorés.
Quand vous ajoutez des données dans une autre langue, vous ne devez pas redouter qu’elles aient une incidence négative sur les autres langues.
Composants de liste et composants prédéfinis dans plusieurs langues
Les projets pour lesquels plusieurs langues sont activées vous permettent de spécifier des synonymes par langue pour chaque clé de liste. Selon la langue avec laquelle vous interrogez votre projet, vous allez obtenir les correspondances seulement pour le composant de liste avec des synonymes de cette langue. Quand vous interrogez votre projet, vous pouvez spécifier la langue dans le corps de la demande :
"query": "{query}"
"language": "{language code}"
Si vous ne fournissez pas de langue, c’est la langue par défaut de votre projet qui est utilisée.
Les composants prédéfinis sont similaires, où vous devez vous attendre à obtenir des prédictions pour les composants prédéfinis qui sont disponibles dans des langues spécifiques. La langue de la demande détermine ici aussi les composants qui tentent d’être prédits.
Langues prises en charge par la compréhension du langage courant
La compréhension du langage courant prend en charge les énoncés dans les langues suivantes :
Langage | Code langue |
---|---|
Afrikaans | af |
Amharique | am |
Arabe | ar |
Assamais | as |
Azéri | az |
Biélorusse | be |
Bulgare | bg |
Bengali | bn |
Breton | br |
Bosniaque | bs |
Catalan | ca |
Tchèque | cs |
Gallois | cy |
Danois | da |
Allemand | de |
Grec | el |
Anglais (US) | en-us |
Anglais (Royaume-Uni) | en-gb |
Espéranto | eo |
Espagnol | es |
Estonien | et |
Basque | eu |
Persan | fa |
Finnois | fi |
Français | fr |
Frison occidental | fy |
Irlandais | ga |
Gaélique écossais | gd |
Galicien | gl |
Goudjrati | gu |
Hausa | ha |
Hébreu | he |
Hindi | hi |
Croate | hr |
Hongrois | hu |
Arménien | hy |
Indonésien | id |
Italien | it |
Japonais | ja |
Javanais | jv |
Géorgien | ka |
Kazakh | kk |
Khmer | km |
Kannada | kn |
Coréen | ko |
Kurde (Kurmanji) | ku |
Kirghiz | ky |
Latin | la |
Lao | lo |
Lituanien | lt |
Letton | lv |
Malgache | mg |
Macédonien | mk |
Malayalam | ml |
Mongol | mn |
Marathi | mr |
Malais | ms |
Birman | my |
Népalais | ne |
Néerlandais | nl |
Norvégien (bokmål) | nb |
Odia | or |
Pendjabi | pa |
Polonais | pl |
Pachto | ps |
Portugais (Brésil) | pt-br |
Portugais (Portugal) | pt-pt |
Roumain | ro |
Russe | ru |
Sanskrit | sa |
Sindhi | sd |
Cingalais | si |
Slovaque | sk |
Slovène | sl |
Somali | so |
Albanais | sq |
Serbe | sr |
Soundanais | su |
Suédois | sv |
Swahili | sw |
Tamoul | ta |
Télougou | te |
Thaï | th |
Filipino | tl |
Turc | tr |
Ouïgour | ug |
Ukrainien | uk |
Ourdou | ur |
Ouzbek | uz |
Vietnamien | vi |
Xhosa | xh |
Yiddish | yi |
Chinois (simplifié) | zh-hans |
Chinois (traditionnel) | zh-hant |
Zoulou | zu |