Språkstöd för anpassad namngiven entitetsigenkänning
Använd den här artikeln om du vill lära dig mer om de språk som för närvarande stöds av funktionen för anpassad namngiven entitetsigenkänning.
Flerspråkigt alternativ
Med anpassad NER kan du träna en modell på ett språk och använda för att extrahera entiteter från dokument på ett annat språk. Den här funktionen är kraftfull eftersom den hjälper till att spara tid och arbete. I stället för att skapa separata projekt för varje språk kan du hantera flerspråkig datauppsättning i ett projekt. Datamängden behöver inte vara helt på samma språk, men du bör aktivera flerspråkiga alternativ för projektet när du skapar eller senare i projektinställningarna. Om du märker att din modell presterar dåligt på vissa språk under utvärderingsprocessen kan du överväga att lägga till mer data på dessa språk i träningsuppsättningen.
Du kan träna projektet helt med engelska dokument och fråga det i: franska, tyska, mandarin, japanska, koreanska och andra. Med anpassad namngiven entitetsigenkänning kan du enkelt skala dina projekt till flera språk med hjälp av flerspråkig teknik för att träna dina modeller.
När du upptäcker att ett visst språk inte fungerar lika bra som andra språk kan du lägga till fler dokument för det språket i projektet. På sidan för dataetiketter i Language Studio kan du välja språket för dokumentet som du lägger till. När du introducerar fler dokument för det språket i modellen introduceras mer av syntaxen för det språket och lär dig att förutsäga det bättre.
Du förväntas inte lägga till samma antal dokument för varje språk. Du bör skapa större delen av projektet på ett språk och bara lägga till några dokument på språk som du ser inte fungerar bra. Om du skapar ett projekt som främst är på engelska och börjar testa det på franska, tyska och spanska kan du observera att tyska inte fungerar lika bra som de andra två språken. I så fall bör du överväga att lägga till 5 % av dina ursprungliga engelska dokument på tyska, träna en ny modell och testa på tyska igen. Du bör se bättre resultat för tyska frågor. Ju mer märkta dokument du lägger till, desto mer sannolikt blir resultatet bättre.
När du lägger till data på ett annat språk bör du inte förvänta dig att det påverkar andra språk negativt.
Språkstöd
Anpassad NER stöder .txt
filer på följande språk:
Språk | Språkkod |
---|---|
Afrikaans | af |
Amhariska | am |
Arabiska | ar |
Assamesiska | as |
Azerbajdzjanska | az |
Vitryska | be |
Bulgariska | bg |
Bengali | bn |
Bretonska | br |
Bosnian | bs |
Katalanska | ca |
Tjeckiska | cs |
Walesiska | cy |
Danska | da |
Tyska | de |
Grekiska | el |
English (US) | en-us |
Esperanto | eo |
Spanska | es |
Estniska | et |
Baskiska | eu |
Persiska | fa |
Finska | fi |
Franska | fr |
Västra frisiska | fy |
Iriska | ga |
Skotsk gäliska | gd |
Galiciska | gl |
Gujarati | gu |
Hausa | ha |
Hebreiska | he |
Hindi | hi |
Kroatiska | hr |
Ungerska | hu |
Armeniska | hy |
Indonesiska | id |
Italienska | it |
Japanska | ja |
Javanesiska | jv |
Georgiska | ka |
Kazakiska | kk |
Khmer | km |
Kannada | kn |
Koreanska | ko |
Kurdiska (Kurmanji) | ku |
Kirgisiska | ky |
Latin | la |
Laotiska | lo |
Litauiska | lt |
Lettiska | lv |
Malagassiska | mg |
Makedonska | mk |
Malayalam | ml |
Mongoliska | mn |
Marathi | mr |
Malajiska | ms |
Burmesiska | my |
Nepali | ne |
Nederländska | nl |
Norska (Bokmal) | nb |
Odia | or |
Punjabi | pa |
Polska | pl |
Pashto | ps |
Portugisiska (Brasilien) | pt-br |
Portugisiska (Portugal) | pt-pt |
Rumänska | ro |
Ryska | ru |
Sanskrit | sa |
Sindhi | sd |
Sinhala | si |
Slovakiska | sk |
Slovenska | sl |
Somali | so |
Albanska | sq |
Serbiska | sr |
Sundanese | su |
Svenska | sv |
Swahili | sw |
Tamilska | ta |
Telugu | te |
Thailändska | th |
Filipino | tl |
Turkiska | tr |
Uiguriska | ug |
Ukrainska | uk |
Urdu | ur |
Uzbekiska | uz |
Vietnamesiska | vi |
Xhosa | xh |
Jiddisch | yi |
Kinesiska (förenklad) | zh-hans |
Zulu | zu |