Supporto linguistico per il riconoscimento di entità denominato personalizzato
Usare questo articolo per informazioni sulle lingue attualmente supportate dalla funzionalità di riconoscimento delle entità denominata personalizzata.
Opzione multi linguale
Con NER personalizzato, è possibile eseguire il training di un modello in una lingua e usare per estrarre entità da documenti in un'altra lingua. Questa funzionalità è potente perché consente di risparmiare tempo e sforzo. Anziché creare progetti separati per ogni lingua, è possibile gestire un set di dati multi linguale in un progetto. Il set di dati non deve essere interamente nella stessa lingua, ma è necessario abilitare l'opzione multi linguale per il progetto durante la creazione o una versione successiva nelle impostazioni del progetto. Se si nota che il modello esegue in modo scarsa in determinate lingue durante il processo di valutazione, è consigliabile aggiungere altri dati in queste lingue al set di training.
È possibile eseguire il training del progetto interamente con documenti in inglese e eseguirne una query in: francese, tedesco, mandarino, giapponese, coreano e altri. Il riconoscimento personalizzato delle entità denominato semplifica la scalabilità dei progetti in più lingue usando la tecnologia multilingue per eseguire il training dei modelli.
Ogni volta che si identifica che una determinata lingua non esegue e altre lingue, è possibile aggiungere altri documenti per tale lingua nel progetto. Nella pagina dell'etichettatura dei dati in Language Studio è possibile selezionare la lingua del documento che si sta aggiungendo. Quando si introduceno altri documenti per tale linguaggio al modello, viene introdotta una maggiore sintassi di tale linguaggio e si apprenderà per stimarla meglio.
Non è previsto aggiungere lo stesso numero di documenti per ogni lingua. È consigliabile creare la maggior parte del progetto in una lingua e aggiungere solo alcuni documenti nelle lingue che si osservano non funzionano correttamente. Se si crea un progetto che è principalmente in inglese e si inizia a testarlo in francese, tedesco e spagnolo, si potrebbe osservare che il tedesco non esegue oltre alle altre due lingue. In tal caso, è consigliabile aggiungere di nuovo il 5% dei documenti in inglese originali in tedesco, eseguire nuovamente il training di un nuovo modello e testare in tedesco. Verranno visualizzati risultati migliori per le query tedesche. Più documenti etichettati aggiunti, più probabilmente i risultati saranno migliori.
Quando si aggiungono dati in un'altra lingua, non è consigliabile che influisca negativamente su altre lingue.
Lingue supportate
Il NER personalizzato supporta .txt
i file nelle lingue seguenti:
Linguaggio | Codice lingua |
---|---|
Afrikaans | af |
Amharico | am |
Arabo | ar |
Assamese | as |
Azerbaigiano | az |
Bielorusso | be |
Bulgaro | bg |
Bengalese | bn |
Bretone | br |
Bosniaco | bs |
Catalano | ca |
Ceco | cs |
Gallese | cy |
Danese | da |
Tedesco | de |
Greco | el |
Inglese (Stati Uniti) | en-us |
Esperanto | eo |
Spagnolo | es |
Estone | et |
Basco | eu |
Persiano | fa |
Finlandese | fi |
Francese | fr |
Frisiano occidentale | fy |
Irlandese | ga |
Scozzese Gaelico | gd |
Galiziano | gl |
Gujarati | gu |
Hausa | ha |
Ebraico | he |
Hindi | hi |
Croato | hr |
Ungherese | hu |
Armeno | hy |
Indonesiano | id |
Italiano | it |
Giapponese | ja |
Giavanese | jv |
Georgiano | ka |
Kazako | kk |
Khmer | km |
Kannada | kn |
Coreano | ko |
Curdo (Kurmanji) | ku |
kirghiso | ky |
Latino | la |
Lao | lo |
Lituano | lt |
Lettone | lv |
Malgascio | mg |
Macedone | mk |
Malayalam | ml |
Mongolo | mn |
Marathi | mr |
Malese | ms |
Birmano | my |
Nepalese | ne |
Olandese | nl |
Norvegese (Bokmål) | nb |
Odia | or |
Punjabi | pa |
Polacco | pl |
Pashto | ps |
Portoghese (Brasile) | pt-br |
Portoghese (Portogallo) | pt-pt |
Romeno | ro |
Russo | ru |
Sanscrito | sa |
Sindhi | sd |
Singalese | si |
Slovacco | sk |
Sloveno | sl |
Somalo | so |
Albanese | sq |
Serbo | sr |
Sundanese | su |
Svedese | sv |
Swahili | sw |
Tamil | ta |
Telugu | te |
Thai | th |
Filippino | tl |
Turco | tr |
Uiguro | ug |
Ucraino | uk |
Urdu | ur |
Uzbeco | uz |
Vietnamita | vi |
Xhosa | xh |
Yiddish | yi |
Cinese (semplificato) | zh-hans |
Zulù | zu |