Udostępnij za pośrednictwem


Obsługa języka niestandardowego rozpoznawania nazwanych jednostek

Skorzystaj z tego artykułu, aby dowiedzieć się więcej o językach obsługiwanych obecnie przez niestandardową funkcję rozpoznawania nazwanych jednostek.

Opcja wielojęzyczna

Za pomocą niestandardowego modułu NER można wytrenować model w jednym języku i użyć go do wyodrębniania jednostek z dokumentów w innym języku. Ta funkcja jest zaawansowana, ponieważ pomaga zaoszczędzić czas i wysiłek. Zamiast tworzyć oddzielne projekty dla każdego języka, można obsługiwać zestaw danych wielojęzycznych w jednym projekcie. Zestaw danych nie musi być całkowicie w tym samym języku, ale należy włączyć opcję wielojęzyczną dla projektu podczas tworzenia lub nowszego w ustawieniach projektu. Jeśli podczas procesu oceny zauważysz, że model działa słabo w niektórych językach, rozważ dodanie większej liczby danych w tych językach do zestawu szkoleniowego.

Możesz wytrenować projekt w całości przy użyciu dokumentów angielskich i wykonywać zapytania w: francuski, niemiecki, mandaryński, japoński, koreański i inne. Niestandardowe rozpoznawanie nazwanych jednostek ułatwia skalowanie projektów do wielu języków przy użyciu technologii wielojęzycznej do trenowania modeli.

Za każdym razem, gdy określisz, że dany język nie działa, a także inne języki, możesz dodać więcej dokumentów dla tego języka w projekcie. Na stronie etykietowania danych w programie Language Studio możesz wybrać język dodawanego dokumentu. Po wprowadzeniu większej liczby dokumentów dla tego języka do modelu zostanie on wprowadzony do większej liczby składni tego języka i nauczy się przewidywać go lepiej.

Nie oczekuje się dodania tej samej liczby dokumentów dla każdego języka. Większość projektu należy utworzyć w jednym języku i dodać tylko kilka dokumentów w językach, które obserwujesz, nie działają prawidłowo. Jeśli utworzysz projekt, który jest głównie w języku angielskim i rozpoczniesz testowanie go w języku francuskim, niemieckim i hiszpańskim, możesz zauważyć, że język niemiecki nie działa, a także pozostałe dwa języki. W takim przypadku rozważ dodanie 5% oryginalnych dokumentów angielskich w języku niemieckim, wytrenuj nowy model i ponownie przetestuj go w języku niemieckim. Powinny zostać wyświetlone lepsze wyniki dla niemieckich zapytań. Tym bardziej oznaczone dokumenty, tym bardziej prawdopodobne, że wyniki będą lepsze.

Podczas dodawania danych w innym języku nie należy oczekiwać, że będzie ona negatywnie wpływać na inne języki.

Obsługa języków

Niestandardowa funkcja NER obsługuje .txt pliki w następujących językach:

Język Kod języka
Afrikaans af
Amharski am
Arabski ar
Assamese as
Azerski az
Białoruski be
Bułgarski bg
Bengalski bn
Breton br
Bośniacki bs
Kataloński ca
Czeski cs
Walijski cy
Duński da
Niemiecki de
Grecki el
Angielski (Stany Zjednoczone) en-us
Esperanto eo
Hiszpański es
Estoński et
Baskijski eu
Perski fa
Fiński fi
Francuski fr
Zachodni Frisian fy
Irlandzki ga
Szkocki Gaelic gd
Galicyjski gl
Gudżarati gu
Hausa ha
Hebrajski he
Hindi hi
Chorwacki hr
Węgierski hu
Armeński hy
Indonezyjski id
Włoski it
japoński ja
Jawajski jv
Gruziński ka
Kazachski kk
Khmer km
Kannada kn
Koreański ko
Kurdyjski (Kurmanji) ku
Kirgiski ky
Łacińskiej la
Lao lo
Litewski lt
Łotewski lv
Madagaskaru mg
Macedoński mk
Malayalam ml
Mongolski mn
Marathi mr
Malajski ms
Birmański my
Nepalski ne
Niderlandzki nl
Norweski (Bokmal) nb
Odia or
Pendżabski pa
Polski pl
Paszto ps
Portugalski (Brazylia) pt-br
Portugalski (Portugalia) pt-pt
Rumuński ro
Rosyjski ru
Sanskryt sa
Sindhi sd
Syngaleski si
Słowacki sk
Słoweński sl
Somalii so
Albański sq
Serbski sr
Sundanese su
Szwedzki sv
Suahili sw
Tamilski ta
Telugu te
Tajlandzki th
Filipino tl
Turecki tr
Ujgurski ug
Ukraiński uk
Urdu ur
Uzbecki uz
Wietnamski vi
Xhosa xh
Jidysz yi
Chiński (uproszczony) zh-hans
Zulu zu

Następne kroki