Prise en charge linguistique pour la classification de texte personnalisée

Article
09/03/2024

Utilisez cet article pour en savoir plus sur les langues actuellement prises en charge par la fonctionnalité de classification de texte personnalisée.

Option multilingue

Avec la classification de texte personnalisée, vous pouvez effectuer l’apprentissage d’un modèle dans une langue et l’utiliser pour classer des documents dans une autre langue. Cette fonctionnalité est utile car elle permet d’économiser du temps et des efforts. Plutôt que de créer des projets distincts pour chaque langue, vous pouvez gérer des jeux de données multilingues au sein d’un même projet. Il n’est pas nécessaire que tout votre jeu de données soit dans la même langue, mais vous devez activer l’option multilingue lors de la création de votre projet ou plus tard, dans les paramètres du projet. Si vous constatez que votre modèle donne de mauvais résultats dans certaines langues pendant le processus d’évaluation, envisagez d’ajouter des données dans ces langues à votre jeu d’apprentissage.

Vous pouvez effectuer l’apprentissage votre projet avec des documents en anglais, et l’interroger en français, allemand, mandarin, japonais, coréen et d’autres langues. La classification de texte personnalisée vous permet de mettre facilement à l’échelle vos projets en plusieurs langues en utilisant la technologie multilingue pour effectuer l’apprentissage de vos modèles.

Lorsque vous constatez qu’une langue n’est pas aussi performante que les autres, vous pouvez ajouter des documents supplémentaires pour cette langue dans votre projet. Sur la page Étiquetage des données de Language Studio, vous pouvez sélectionner la langue du document que vous ajoutez. Lorsque vous introduisez de nouveaux documents pour cette langue dans le modèle, celui-ci se familiarise avec la syntaxe de cette langue et apprend à mieux la prédire.

Vous ne devez pas nécessairement ajouter le même nombre de documents pour chaque langue. Vous devez créer la majeure partie de votre projet dans une seule langue, et n’ajouter que quelques documents dans les langues les moins performantes. Si vous créez un projet qui est principalement en anglais et que vous commencez à le tester en français, en allemand et en espagnol, vous constaterez peut-être que l’allemand ne fonctionne pas aussi bien que les deux autres langues. Dans ce cas, envisagez d’ajouter 5 % de vos documents anglais d’origine en allemand, effectuez l’apprentissage d’un nouveau modèle et procédez à un nouveau test en allemand. Vous devez normalement obtenir de meilleurs résultats pour les requêtes en allemand. Plus vous ajoutez de documents étiquetés, plus les résultats sont susceptibles d’être améliorés.

Quand vous ajoutez des données dans une autre langue, vous ne devez pas redouter qu’elles aient une incidence négative sur les autres langues.

Langues prises en charge par la classification de texte personnalisée

La classification personnalisée du texte prend en charge les fichiers .txt dans les langues suivantes :

Langage	Code de langue
Afrikaans	`af`
Amharique	`am`
Arabe	`ar`
Assamais	`as`
Azéri	`az`
Biélorusse	`be`
Bulgare	`bg`
Bengali	`bn`
Breton	`br`
Bosniaque	`bs`
Catalan	`ca`
Tchèque	`cs`
Gallois	`cy`
Danois	`da`
Allemand	`de`
Grec	`el`
Anglais (US)	`en-us`
Espéranto	`eo`
Espagnol	`es`
Estonien	`et`
Basque	`eu`
Persan	`fa`
Finnois	`fi`
Français	`fr`
Frison occidental	`fy`
Irlandais	`ga`
Gaélique écossais	`gd`
Galicien	`gl`
Goudjrati	`gu`
Hausa	`ha`
Hébreu	`he`
Hindi	`hi`
Croate	`hr`
Hongrois	`hu`
Arménien	`hy`
Indonésien	`id`
Italien	`it`
Japonais	`ja`
Javanais	`jv`
Géorgien	`ka`
Kazakh	`kk`
Khmer	`km`
Kannada	`kn`
Coréen	`ko`
Kurde (Kurmanji)	`ku`
Kirghiz	`ky`
Latin	`la`
Lao	`lo`
Lituanien	`lt`
Letton	`lv`
Malgache	`mg`
Macédonien	`mk`
Malayalam	`ml`
Mongol	`mn`
Marathi	`mr`
Malais	`ms`
Birman	`my`
Népalais	`ne`
Néerlandais	`nl`
Norvégien (bokmål)	`nb`
Odia	`or`
Pendjabi	`pa`
Polonais	`pl`
Pachto	`ps`
Portugais (Brésil)	`pt-br`
Portugais (Portugal)	`pt-pt`
Roumain	`ro`
Russe	`ru`
Sanskrit	`sa`
Sindhi	`sd`
Cingalais	`si`
Slovaque	`sk`
Slovène	`sl`
Somali	`so`
Albanais	`sq`
Serbe	`sr`
Soundanais	`su`
Suédois	`sv`
Swahili	`sw`
Tamoul	`ta`
Télougou	`te`
Thaï	`th`
Filipino	`tl`
Turc	`tr`
Ouïgour	`ug`
Ukrainien	`uk`
Ourdou	`ur`
Ouzbek	`uz`
Vietnamien	`vi`
Xhosa	`xh`
Yiddish	`yi`
Chinois (simplifié)	`zh-hans`
Zoulou	`zu`

Partage via

Prise en charge linguistique pour la classification de texte personnalisée

Option multilingue

Langues prises en charge par la classification de texte personnalisée

Étapes suivantes

Commentaires

Ressources supplémentaires