Obsługa języka na potrzeby niestandardowej klasyfikacji tekstu
Skorzystaj z tego artykułu, aby dowiedzieć się więcej o językach obsługiwanych obecnie przez funkcję klasyfikacji tekstu niestandardowego.
Opcja wielojęzyczna
Dzięki niestandardowej klasyfikacji tekstu można wytrenować model w jednym języku i użyć go do klasyfikowania dokumentów w innym języku. Ta funkcja jest przydatna, ponieważ pomaga zaoszczędzić czas i nakład pracy. Zamiast kompilować oddzielne projekty dla każdego języka, można obsługiwać wielojęzyczny zestaw danych w jednym projekcie. Zestaw danych nie musi być całkowicie w tym samym języku, ale należy włączyć opcję wielojęzyczną dla projektu podczas tworzenia lub późniejszego w ustawieniach projektu. Jeśli podczas procesu oceny zauważysz, że model działa słabo w niektórych językach, rozważ dodanie większej ilości danych w tych językach do zestawu treningowego.
Projekt można trenować w całości przy użyciu dokumentów w języku angielskim i wykonywać względem niego zapytania w języku francuskim, niemieckim, mandaryńskim, japońskim, koreańskim i innych. Niestandardowa klasyfikacja tekstu ułatwia skalowanie projektów do wielu języków przy użyciu technologii wielojęzycznej do trenowania modeli.
Za każdym razem, gdy zidentyfikujesz, że dany język nie działa, a także inne języki, możesz dodać więcej dokumentów dla tego języka w projekcie. Na stronie etykietowania danych w programie Language Studio możesz wybrać język dodawanego dokumentu. Po wprowadzeniu większej liczby dokumentów dla tego języka do modelu wprowadzana jest większa składnia tego języka i uczy się przewidywać go lepiej.
Nie oczekuje się dodania tej samej liczby dokumentów dla każdego języka. Większość projektu należy utworzyć w jednym języku i dodać tylko kilka dokumentów w językach, które obserwujesz, nie działają prawidłowo. Jeśli utworzysz projekt, który jest głównie w języku angielskim i zaczniesz testować go w języku francuskim, niemieckim i hiszpańskim, możesz zauważyć, że język niemiecki nie działa tak samo jak pozostałe dwa języki. W takim przypadku rozważ dodanie 5% oryginalnych dokumentów w języku angielskim w języku niemieckim, wytrenuj nowy model i ponownie przetestuj go w języku niemieckim. Powinny zostać wyświetlone lepsze wyniki dla niemieckich zapytań. Tym bardziej oznaczone dokumenty, tym bardziej prawdopodobne, że wyniki będą lepsze.
Podczas dodawania danych w innym języku nie należy oczekiwać, że negatywnie wpłynie to na inne języki.
Języki obsługiwane przez niestandardową klasyfikację tekstu
Niestandardowa klasyfikacja tekstu obsługuje .txt
pliki w następujących językach:
Język | Kod języka |
---|---|
Afrikaans | af |
Amharski | am |
Arabski | ar |
Assamese | as |
Azerski | az |
Białoruski | be |
Bułgarski | bg |
Bengalski | bn |
Breton | br |
Bośniacki | bs |
Kataloński | ca |
Czeski | cs |
Walijski | cy |
Duński | da |
Niemiecki | de |
Grecki | el |
Angielski (Stany Zjednoczone) | en-us |
Esperanto | eo |
Hiszpański | es |
Estoński | et |
Baskijski | eu |
Perski | fa |
Fiński | fi |
Francuski | fr |
Zachodni fryzyjskie | fy |
Irlandzki | ga |
Szkocki Gaelic | gd |
Galicyjski | gl |
Gudżarati | gu |
Hausa | ha |
Hebrajski | he |
Hindi | hi |
Chorwacki | hr |
Węgierski | hu |
Armeński | hy |
Indonezyjski | id |
Włoski | it |
japoński | ja |
Jawajski | jv |
Gruziński | ka |
Kazachski | kk |
Khmer | km |
Kannada | kn |
Koreański | ko |
Kurdyjski (Kurmanji) | ku |
Kirgiski | ky |
Łacińskiej | la |
Lao | lo |
Litewski | lt |
Łotewski | lv |
Madagaskaru | mg |
Macedoński | mk |
Malayalam | ml |
Mongolski | mn |
Marathi | mr |
Malajski | ms |
Birmański | my |
Nepalski | ne |
Niderlandzki | nl |
Norweski (Bokmal) | nb |
Odia | or |
Pendżabski | pa |
Polski | pl |
Paszto | ps |
Portugalski (Brazylia) | pt-br |
Portugalski (Portugalia) | pt-pt |
Rumuński | ro |
Rosyjski | ru |
Sanskryt | sa |
Sindhi | sd |
Syngaleski | si |
Słowacki | sk |
Słoweński | sl |
Somalii | so |
Albański | sq |
Serbski | sr |
Sundanese | su |
Szwedzki | sv |
Suahili | sw |
Tamilski | ta |
Telugu | te |
Tajlandzki | th |
Filipino | tl |
Turecki | tr |
Ujgurski | ug |
Ukraiński | uk |
Urdu | ur |
Uzbecki | uz |
Wietnamski | vi |
Xhosa | xh |
Jidysz | yi |
Chiński (uproszczony) | zh-hans |
Zulu | zu |