Podpora jazyka pro vlastní klasifikaci textu

Článek
12/19/2023

V tomto článku se dozvíte o jazycích aktuálně podporovaných funkcí vlastní klasifikace textu.

Vícejazyčná možnost

S vlastní klasifikací textu můžete trénovat model v jednom jazyce a používat ke klasifikaci dokumentů v jiném jazyce. Tato funkce je užitečná, protože pomáhá šetřit čas a úsilí. Místo vytváření samostatných projektů pro každý jazyk můžete zpracovávat vícejazyčnou datovou sadu v jednom projektu. Vaše datová sada nemusí být úplně ve stejném jazyce, ale při vytváření nebo později v nastavení projektu byste měli povolit možnost více jazyků pro váš projekt. Pokud si během procesu vyhodnocení všimnete, že váš model v určitých jazycích nefunguje správně, zvažte přidání dalších dat v těchto jazycích do trénovací sady.

Projekt můžete vytrénovat výhradně pomocí anglických dokumentů a dotazovat se na něj ve francouzštině, němčině, mandarínštině, japonštině, korejštině a dalších. Vlastní klasifikace textu usnadňuje škálování projektů do více jazyků pomocí vícejazyčné technologie pro trénování modelů.

Kdykoli zjistíte, že konkrétní jazyk nefunguje stejně jako jiné jazyky, můžete do projektu přidat další dokumenty pro tento jazyk. Na stránce popisků dat v nástroji Language Studio můžete vybrat jazyk dokumentu, který přidáváte. Když do modelu představíte více dokumentů pro tento jazyk, seznámí se s větší syntaxí tohoto jazyka a naučí se ho lépe předpovídat.

Neočekává se, že přidáte stejný počet dokumentů pro každý jazyk. Většinu projektu byste měli sestavit v jednom jazyce a přidat jenom několik dokumentů v jazycích, které si všimnout, že nefungují dobře. Pokud vytvoříte projekt, který je primárně v angličtině, a začnete ho testovat ve francouzštině, němčině a španělštině, můžete si všimnout, že němčina nefunguje stejně dobře jako ostatní dva jazyky. V takovém případě zvažte přidání 5 % původních anglických dokumentů v němčině, natrénování nového modelu a opětovné testování v němčině. U německých dotazů byste měli vidět lepší výsledky. Čím více dokumentů s popisky přidáte, tím pravděpodobnější je, že výsledky budou lepší.

Když přidáte data v jiném jazyce, neměli byste očekávat, že to bude mít negativní vliv na jiné jazyky.

Jazyky podporované vlastní klasifikací textu

Vlastní klasifikace textu podporuje .txt soubory v následujících jazycích:

Jazyk	Kód jazyka
Afrikánština	`af`
Amharština	`am`
Arabština	`ar`
Ásámštinu	`as`
Ázerbájdžánština	`az`
Běloruština	`be`
Bulharština	`bg`
Bengálština	`bn`
Breton	`br`
Bosenština	`bs`
Katalánština	`ca`
Čeština	`cs`
Velština	`cy`
Dánština	`da`
Němčina	`de`
Řečtina	`el`
Angličtina (USA)	`en-us`
Esperanto	`eo`
Španělština	`es`
Estonština	`et`
Baskičtina	`eu`
Perština	`fa`
Finština	`fi`
Francouzština	`fr`
Západní Fríština	`fy`
Irština	`ga`
Skotská gaelová	`gd`
Galicijština	`gl`
Gudžarátština	`gu`
Hausa	`ha`
Hebrejština	`he`
Hindština	`hi`
Chorvatština	`hr`
Maďarština	`hu`
Arménština	`hy`
Indonéština	`id`
Italština	`it`
Japonština	`ja`
Javánština	`jv`
Gruzínština	`ka`
Kazaština	`kk`
Khmer	`km`
Kannadština	`kn`
Korejština	`ko`
Kurdština (Kurmandží)	`ku`
Kyrgyzština	`ky`
Latinské	`la`
Laoskou	`lo`
Litevština	`lt`
Lotyština	`lv`
Malagasy	`mg`
Makedonština	`mk`
Malajalámština	`ml`
Mongolština	`mn`
Maráthština	`mr`
Malajština	`ms`
Barmské	`my`
Nepálština	`ne`
Nizozemština	`nl`
Norština (Bokmal)	`nb`
Odia	`or`
Paňdžábština	`pa`
Polština	`pl`
Pašto	`ps`
Portugalština (Brazílie)	`pt-br`
portugalština (Portugalsko)	`pt-pt`
Rumunština	`ro`
Ruština	`ru`
Sanskrt	`sa`
Sindhština	`sd`
Sinhala	`si`
Slovenština	`sk`
Slovinština	`sl`
Somálské	`so`
Albánština	`sq`
Srbština	`sr`
Sundánština	`su`
Švédština	`sv`
Svahilština	`sw`
Tamilština	`ta`
Telugština	`te`
Thajština	`th`
Filipino	`tl`
Turečtina	`tr`
Ujgurské	`ug`
Ukrajinština	`uk`
Urdština	`ur`
Uzbečtina	`uz`
Vietnamština	`vi`
Xhoština	`xh`
Jidiš	`yi`
Čínština (zjednodušená)	`zh-hans`
Zulština	`zu`

Sdílet prostřednictvím

Podpora jazyka pro vlastní klasifikaci textu

Vícejazyčná možnost

Jazyky podporované vlastní klasifikací textu

Další kroky

Váš názor

Váš názor

Další materiály