Prise en charge linguistique pour la reconnaissance d’entités nommées personnalisées
Utilisez cet article pour en savoir plus sur les langues actuellement prises en charge par la reconnaissance d’entité nommée personnalisée.
Option multilingue
Avec les NER personnalisées, vous pouvez effectuer l’apprentissage d’un modèle dans une langue et l’utiliser pour extraire des entités à partir de documents dans une autre langue. Particulièrement intéressante, cette fonctionnalité permet d’économiser du temps et des efforts. Plutôt que de créer des projets distincts pour chaque langage, vous pouvez gérer des jeux de données multilingues au sein d’un seul projet. Il n’est pas nécessaire que tout votre jeu de données soit dans la même langue, mais vous devez activer l’option multilingue lors de la création de votre projet ou plus tard, dans les paramètres du projet. Si vous constatez que votre modèle donne de mauvais résultats dans certaines langues pendant le processus d’évaluation, envisagez d’ajouter des données dans ces langues à votre jeu d’apprentissage.
Vous pouvez entraîner entièrement votre projet avec des documents en anglais, et l’interroger en français, allemand, mandarin, japonais, coréen et d’autres langues. La reconnaissance d’entités nommées personnalisées vous permet de mettre facilement à l’échelle vos projets en plusieurs langues en utilisant la technologie multilingue pour entraîner vos modèles.
Chaque fois que vous identifiez qu’une langue particulière ne fonctionne pas aussi bien que les autres langues, vous pouvez ajouter des documents supplémentaires pour cette langue dans votre projet. Sur la page Étiquetage des données de Language Studio, vous pouvez sélectionner la langue du document que vous ajoutez. Lorsque vous introduisez de nouveaux documents pour cette langue dans le modèle, celui-ci se familiarise avec la syntaxe de cette langue et apprend à mieux la prédire.
Vous ne devez pas nécessairement ajouter le même nombre de documents pour chaque langue. Vous devez créer la majeure partie de votre projet dans une seule langue, et n’ajouter que quelques documents dans les langues les moins performantes. Si vous créez un projet qui est principalement en anglais et que vous commencez à le tester en français, en allemand et en espagnol, vous constaterez peut-être que l’allemand ne fonctionne pas aussi bien que les deux autres langues. Dans ce cas, envisagez d’ajouter 5 % de vos documents anglais d’origine en allemand, effectuez l’apprentissage d’un nouveau modèle et procédez à un nouveau test en allemand. Vous devez normalement obtenir de meilleurs résultats pour les requêtes en allemand. Plus vous ajoutez de documents étiquetés, plus les résultats sont susceptibles d’être améliorés.
Quand vous ajoutez des données dans une autre langue, vous ne devez pas redouter qu’elles aient une incidence négative sur les autres langues.
Support multilingue
La NER personnalisée prend en charge les fichiers .txt
dans les langues suivantes :
Langage | Code langue |
---|---|
Afrikaans | af |
Amharique | am |
Arabe | ar |
Assamais | as |
Azéri | az |
Biélorusse | be |
Bulgare | bg |
Bengali | bn |
Breton | br |
Bosniaque | bs |
Catalan | ca |
Tchèque | cs |
Gallois | cy |
Danois | da |
Allemand | de |
Grec | el |
Anglais (US) | en-us |
Espéranto | eo |
Espagnol | es |
Estonien | et |
Basque | eu |
Persan | fa |
Finnois | fi |
Français | fr |
Frison occidental | fy |
Irlandais | ga |
Gaélique écossais | gd |
Galicien | gl |
Goudjrati | gu |
Hausa | ha |
Hébreu | he |
Hindi | hi |
Croate | hr |
Hongrois | hu |
Arménien | hy |
Indonésien | id |
Italien | it |
Japonais | ja |
Javanais | jv |
Géorgien | ka |
Kazakh | kk |
Khmer | km |
Kannada | kn |
Coréen | ko |
Kurde (Kurmanji) | ku |
Kirghiz | ky |
Latin | la |
Lao | lo |
Lituanien | lt |
Letton | lv |
Malgache | mg |
Macédonien | mk |
Malayalam | ml |
Mongol | mn |
Marathi | mr |
Malais | ms |
Birman | my |
Népalais | ne |
Néerlandais | nl |
Norvégien (bokmål) | nb |
Odia | or |
Pendjabi | pa |
Polonais | pl |
Pachto | ps |
Portugais (Brésil) | pt-br |
Portugais (Portugal) | pt-pt |
Roumain | ro |
Russe | ru |
Sanskrit | sa |
Sindhi | sd |
Cingalais | si |
Slovaque | sk |
Slovène | sl |
Somali | so |
Albanais | sq |
Serbe | sr |
Soundanais | su |
Suédois | sv |
Swahili | sw |
Tamoul | ta |
Télougou | te |
Thaï | th |
Filipino | tl |
Turc | tr |
Ouïgour | ug |
Ukrainien | uk |
Ourdou | ur |
Ouzbek | uz |
Vietnamien | vi |
Xhosa | xh |
Yiddish | yi |
Chinois (simplifié) | zh-hans |
Zoulou | zu |