Partager via


Prise en charge des langues pour l’Analyse de texte personnalisée pour la santé

Utilisez cet article pour en savoir plus sur les langues actuellement prises en charge par l’Analyse de texte personnalisée pour la santé.

Option multilingue

Avec l’Analyse de texte personnalisée pour la santé, vous pouvez entraîner un modèle dans une langue et l’utiliser pour extraire des entités de documents dans d’autres langues. Cette fonctionnalité vous évite de devoir créer des projets distincts pour chaque langue en vous permettant de combiner vos jeux de données dans un même projet, ce qui facilite la mise à l’échelle de vos projets vers plusieurs langues. Vous pouvez entraîner votre projet entièrement avec des documents en anglais, et l’interroger en français, en allemand, en italien et dans d’autres langues. Vous pouvez activer l’option multilingue lors du processus de création du projet ou ultérieurement via les paramètres du projet.

Vous ne devez pas nécessairement ajouter le même nombre de documents pour chaque langue. Vous devez créer la majeure partie de votre projet dans une seule langue, et n’ajouter que quelques documents dans les langues les moins performantes. Si vous créez un projet qui est principalement en anglais et que vous commencez à le tester en français, en allemand et en espagnol, vous constaterez peut-être que l’allemand ne fonctionne pas aussi bien que les deux autres langues. Dans ce cas, envisagez d’ajouter 5 % de vos documents anglais d’origine en allemand, effectuez l’apprentissage d’un nouveau modèle et procédez à un nouveau test en allemand. Sur la page Étiquetage des données de Language Studio, vous pouvez sélectionner la langue du document que vous ajoutez. Vous devez normalement obtenir de meilleurs résultats pour les requêtes en allemand. Plus vous ajoutez de documents étiquetés, plus les résultats sont susceptibles d’être améliorés. Quand vous ajoutez des données dans une autre langue, vous ne devez pas redouter qu’elles aient une incidence négative sur les autres langues.

L’hébreu n’est pas pris en charge dans les projets multilingues. Si la langue principale du projet est l’hébreu, vous ne pourrez pas ajouter des données d’entraînement dans d’autres langues ou d’interroger le modèle avec d’autres langues. De même, si la langue principale du projet n’est pas l’hébreu, vous ne pourrez pas ajouter des données d’entraînement en hébreu ni interroger le modèle en hébreu.

Support multilingue

L’Analyse de texte personnalisée pour la santé prend en charge les fichiers .txt dans les langues suivantes :

Langage Code langue
Anglais en
Français fr
Allemand de
Espagnol es
Italien it
Portugais (Portugal) pt-pt
Hébreu he

Étapes suivantes