Supporto della lingua per Riconoscimento entità denominata personalizzata

Questo articolo contiene informazioni sulle lingue attualmente supportate dalla funzionalità riconoscimento entità denominata personalizzata.

Opzione multilingue

Con il riconoscimento personalizzato delle entità denominate (NER), è possibile eseguire il training di un modello in una lingua e usare per estrarre entità da documenti in un'altra lingua. Questa funzionalità è efficiente, perché consente di risparmiare tempo e lavoro. Anziché compilare progetti separati per ogni lingua, è possibile gestire un set di dati multilingue in un unico progetto. Il set di dati non deve essere interamente nella stessa lingua, ma è necessario abilitare l'opzione multilingue per il progetto durante la creazione o successivamente nelle impostazioni del progetto. Se si nota che le prestazioni del modello sono scarse in determinate lingue durante il processo di valutazione, valutare l’aggiunta di altri dati in queste lingue al set di training.

È possibile eseguire il training del progetto con documenti tutti in inglese ed eseguirne query in: francese, tedesco, mandarino, giapponese, coreano e altre lingue. Il riconoscimento entità denominata personalizzata semplifica la scalabilità dei progetti in più lingue usando una tecnologia multilingue per il training dei modelli.

Ogni volta che si identifica che una determinata lingua non funziona così come altre lingue, è possibile aggiungere altri documenti per tale lingua nel progetto. Per l'etichettatura dei dati in Microsoft Foundry, è possibile selezionare la lingua del documento che si sta aggiungendo. Quando si introducono più documenti in quella lingua nel modello, esso viene esposto a più sintassi della lingua e impara a prevedere meglio.

Non è previsto che si aggiunga lo stesso numero di documenti per ogni lingua. È consigliabile compilare la maggior parte del progetto in un linguaggio e aggiungere solo alcuni documenti nelle lingue osservate non funzionano correttamente. Se si sviluppa un progetto principalmente in inglese e quindi si inizia a testarlo in francese, tedesco e spagnolo, è possibile notare alcune differenze. In particolare, il tedesco può sottoperforma rispetto alle altre due lingue. Anche se francese e spagnolo potrebbero produrre risultati migliori, il tedesco potrebbe presentare più sfide o produrre risultati meno favorevoli durante i test. In tal caso, valutare l’aggiunta del 5% dei documenti originali in inglese in tedesco, eseguire il training di un nuovo modello e ripetere i test per il tedesco. In tal modo, i risultati per le query in tedesco dovrebbero migliorare. Maggiore è il numero di documenti etichettati aggiunti, maggiori sono le probabilità di ottenere risultati migliori.

Quando si aggiungono dati in un'altra lingua, non è previsto un impatto negativo su altre lingue.

Supporto di versioni in lingue diverse

Il Riconoscimento entità denominata personalizzato supporta file .txt nelle lingue seguenti:

Lingua	Codice lingua
Afrikaans	`af`
Amharico	`am`
arabo	`ar`
Assamese	`as`
Azero	`az`
Bielorusso	`be`
Bulgaro	`bg`
Bengalese	`bn`
Breton	`br`
Bosniaco	`bs`
Catalano	`ca`
Ceco	`cs`
Gallese	`cy`
Danese	`da`
Tedesco	`de`
Greco	`el`
Inglese (Stati Uniti)	`en-us`
Esperanto	`eo`
Spagnolo	`es`
Estone	`et`
Basco	`eu`
Persiano	`fa`
Finlandese	`fi`
Francese	`fr`
Frisone occidentale	`fy`
Irlandese	`ga`
Scozzese Gaelico	`gd`
Galiziano	`gl`
Gujarati	`gu`
Hausa	`ha`
Ebraico	`he`
Hindi	`hi`
Croato	`hr`
Ungherese	`hu`
Armeno	`hy`
Indonesiano	`id`
Italiano	`it`
Giapponese	`ja`
Giavanese	`jv`
Georgiano	`ka`
Kazako	`kk`
Khmer	`km`
Kannada	`kn`
Coreano	`ko`
Curdo (Kurmanji)	`ku`
Kirghiso	`ky`
Latino	`la`
Lao	`lo`
Lituano	`lt`
Lettone	`lv`
Malgascio	`mg`
Macedone	`mk`
Malayalam	`ml`
Mongolo	`mn`
Marathi	`mr`
Malese	`ms`
Birmano	`my`
Nepalese	`ne`
Olandese	`nl`
Norvegese (Bokmål)	`nb`
Odia	`or`
Punjabi	`pa`
Polacco	`pl`
Pashto	`ps`
Portoghese (Brasile)	`pt-br`
Portoghese (Portogallo)	`pt-pt`
Romeno	`ro`
Russo	`ru`
Sanskrit	`sa`
Sindhi	`sd`
Sinhala	`si`
Slovacco	`sk`
Sloveno	`sl`
Somalo	`so`
Albanese	`sq`
Serbo	`sr`
Sundanese	`su`
Svedese	`sv`
Swahili	`sw`
Tamil	`ta`
Telugu	`te`
Thai	`th`
Pilipino	`tl`
Turco	`tr`
Uiguro	`ug`
Ucraino	`uk`
Urdu	`ur`
Uzbeco	`uz`
Vietnamita	`vi`
Xhosa	`xh`
Yiddish	`yi`
Cinese semplificato	`zh-hans`
Zulu	`zu`

Passaggi successivi

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2025-11-18