Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
V tomto článku se dozvíte o jazycích, které aktuálně podporuje funkce rozpoznávání vlastních pojmenovaných entit.
Vícejazyčná možnost
Pomocí vlastního rozpoznávání entit (NER) můžete vytrénovat model v jednom jazyce a použít k extrakci entit z dokumentů v jiném jazyce. Tato funkce je výkonná, protože pomáhá ušetřit čas a úsilí. Místo vytváření samostatných projektů pro každý jazyk můžete zpracovávat vícejazyčnou datovou sadu v jednom projektu. Vaše datová sada nemusí být úplně ve stejném jazyce, ale při vytváření nebo pozdějším vytváření projektu byste měli povolit vícejazyčnou možnost pro váš projekt. Pokud si během procesu vyhodnocení všimnete, že váš model funguje špatně v určitých jazycích, zvažte přidání dalších dat v těchto jazycích do trénovací sady.
Projekt můžete vytrénovat zcela s anglickými dokumenty a dotazovat se na něj v: francouzštině, němčině, mandarínštině, japonštině, korejštině a dalších. Rozpoznávání vlastních pojmenovaných entit usnadňuje škálování projektů do více jazyků pomocí vícejazyčné technologie pro trénování modelů.
Pokud zjistíte, že konkrétní jazyk nefunguje tak dobře jako jiné jazyky, můžete do projektu přidat další dokumenty pro daný jazyk. U popisků dat v Microsoft Foundry můžete vybrat jazyk dokumentu, který přidáváte. Když do modelu představíte další dokumenty pro daný jazyk, model se seznámí s více syntaxí tohoto jazyka a naučí se ho předpovědět lépe.
Neočekává se, že byste přidali stejný počet dokumentů pro každý jazyk. Většinu projektu byste měli sestavit v jednom jazyce a přidat jenom několik dokumentů v jazycích, které vidíte, nefungují dobře. Pokud vyvíjíte projekt hlavně v angličtině a pak ho začnete testovat ve francouzštině, němčině a španělštině, můžete si všimnout některých rozdílů. Konkrétně může němčina v porovnání s ostatními dvěma jazyky mít horší výkon. I když francouzština a španělština můžou přinést lepší výsledky, němčina může během testování prezentovat více výzev nebo produkovat méně příznivé výsledky. V takovém případě zvažte přidání 5 % původních anglických dokumentů v němčině, vytrénování nového modelu a testování v němčině znovu. Měli byste vidět lepší výsledky pro německé dotazy. Čím více dokumentů s popiskem přidáte, tím pravděpodobnější bude, že výsledky budou lepší.
Když přidáváte data v jiném jazyce, neměli byste očekávat, že budou mít negativní vliv na jiné jazyky.
Podpora jazyků
Vlastní NER podporuje .txt soubory v následujících jazycích:
| Jazyk | Kód jazyka |
|---|---|
| Afrikánština | af |
| Amharština | am |
| Arabština | ar |
| Ásámština | as |
| Ázerbájdžánština | az |
| Běloruština | be |
| Bulharština | bg |
| Bengálština | bn |
| Bretonština | br |
| Bosenština | bs |
| Katalánština | ca |
| Čeština | cs |
| Velština | cy |
| Dánština | da |
| Němčina | de |
| Řečtina | el |
| Angličtina (USA) | en-us |
| Esperanto | eo |
| Španělština | es |
| Estonština | et |
| Baskičtina | eu |
| Perština | fa |
| Finština | fi |
| Francouzština | fr |
| Západofríština | fy |
| Irština | ga |
| Skotská gaelština | gd |
| Galicijština | gl |
| Gudžarátština | gu |
| Hausa | ha |
| Hebrejština | he |
| Hindština | hi |
| Chorvatština | hr |
| Maďarština | hu |
| Arménština | hy |
| Indonéština | id |
| Italština | it |
| Japonština | ja |
| Jávský | jv |
| Gruzínština | ka |
| Kazaština | kk |
| Khmerština | km |
| Kannadština | kn |
| Korejština | ko |
| Kurština (Kurmanji) | ku |
| Kyrgyzština | ky |
| Latina | la |
| Laos | lo |
| Litevština | lt |
| Lotyština | lv |
| Malgaština | mg |
| Makedonština | mk |
| Malajalámština | ml |
| Mongolština | mn |
| Maráthština | mr |
| Malajština | ms |
| Barmština | my |
| Nepálština | ne |
| Nizozemština | nl |
| Norština (Bokmal) | nb |
| Odijština | or |
| Paňdžábština | pa |
| Polština | pl |
| Pashto | ps |
| Portugalština (Brazílie) | pt-br |
| portugalština (Portugalsko) | pt-pt |
| Rumunština | ro |
| Ruština | ru |
| Sanskrt | sa |
| Sindhština | sd |
| Sinhala | si |
| Slovenština | sk |
| Slovinština | sl |
| Somálijsko | so |
| Albánština | sq |
| Srbština | sr |
| Sundánština | su |
| Švédština | sv |
| Svahilština | sw |
| Tamilština | ta |
| Telugština | te |
| Thajština | th |
| Filipino | tl |
| Turečtina | tr |
| Ujgurština | ug |
| Ukrajinština | uk |
| Urdština | ur |
| Uzbečtina | uz |
| Vietnamština | vi |
| Xhoština | xh |
| Jidiš | yi |
| Čínština (zjednodušená) | zh-hans |
| Zulština | zu |