Obsługa języka niestandardowego rozpoznawania nazwanych jednostek

Artykuł
12/19/2023

Skorzystaj z tego artykułu, aby dowiedzieć się więcej o językach obsługiwanych obecnie przez niestandardową funkcję rozpoznawania nazwanych jednostek.

Opcja wielojęzyczna

Za pomocą niestandardowego modułu NER można wytrenować model w jednym języku i użyć go do wyodrębniania jednostek z dokumentów w innym języku. Ta funkcja jest zaawansowana, ponieważ pomaga zaoszczędzić czas i wysiłek. Zamiast tworzyć oddzielne projekty dla każdego języka, można obsługiwać zestaw danych wielojęzycznych w jednym projekcie. Zestaw danych nie musi być całkowicie w tym samym języku, ale należy włączyć opcję wielojęzyczną dla projektu podczas tworzenia lub nowszego w ustawieniach projektu. Jeśli podczas procesu oceny zauważysz, że model działa słabo w niektórych językach, rozważ dodanie większej liczby danych w tych językach do zestawu szkoleniowego.

Możesz wytrenować projekt w całości przy użyciu dokumentów angielskich i wykonywać zapytania w: francuski, niemiecki, mandaryński, japoński, koreański i inne. Niestandardowe rozpoznawanie nazwanych jednostek ułatwia skalowanie projektów do wielu języków przy użyciu technologii wielojęzycznej do trenowania modeli.

Za każdym razem, gdy określisz, że dany język nie działa, a także inne języki, możesz dodać więcej dokumentów dla tego języka w projekcie. Na stronie etykietowania danych w programie Language Studio możesz wybrać język dodawanego dokumentu. Po wprowadzeniu większej liczby dokumentów dla tego języka do modelu zostanie on wprowadzony do większej liczby składni tego języka i nauczy się przewidywać go lepiej.

Nie oczekuje się dodania tej samej liczby dokumentów dla każdego języka. Większość projektu należy utworzyć w jednym języku i dodać tylko kilka dokumentów w językach, które obserwujesz, nie działają prawidłowo. Jeśli utworzysz projekt, który jest głównie w języku angielskim i rozpoczniesz testowanie go w języku francuskim, niemieckim i hiszpańskim, możesz zauważyć, że język niemiecki nie działa, a także pozostałe dwa języki. W takim przypadku rozważ dodanie 5% oryginalnych dokumentów angielskich w języku niemieckim, wytrenuj nowy model i ponownie przetestuj go w języku niemieckim. Powinny zostać wyświetlone lepsze wyniki dla niemieckich zapytań. Tym bardziej oznaczone dokumenty, tym bardziej prawdopodobne, że wyniki będą lepsze.

Podczas dodawania danych w innym języku nie należy oczekiwać, że będzie ona negatywnie wpływać na inne języki.

Obsługa języków

Niestandardowa funkcja NER obsługuje .txt pliki w następujących językach:

Język	Kod języka
Afrikaans	`af`
Amharski	`am`
Arabski	`ar`
Assamese	`as`
Azerski	`az`
Białoruski	`be`
Bułgarski	`bg`
Bengalski	`bn`
Breton	`br`
Bośniacki	`bs`
Kataloński	`ca`
Czeski	`cs`
Walijski	`cy`
Duński	`da`
Niemiecki	`de`
Grecki	`el`
Angielski (Stany Zjednoczone)	`en-us`
Esperanto	`eo`
Hiszpański	`es`
Estoński	`et`
Baskijski	`eu`
Perski	`fa`
Fiński	`fi`
Francuski	`fr`
Zachodni Frisian	`fy`
Irlandzki	`ga`
Szkocki Gaelic	`gd`
Galicyjski	`gl`
Gudżarati	`gu`
Hausa	`ha`
Hebrajski	`he`
Hindi	`hi`
Chorwacki	`hr`
Węgierski	`hu`
Armeński	`hy`
Indonezyjski	`id`
Włoski	`it`
japoński	`ja`
Jawajski	`jv`
Gruziński	`ka`
Kazachski	`kk`
Khmer	`km`
Kannada	`kn`
Koreański	`ko`
Kurdyjski (Kurmanji)	`ku`
Kirgiski	`ky`
Łacińskiej	`la`
Lao	`lo`
Litewski	`lt`
Łotewski	`lv`
Madagaskaru	`mg`
Macedoński	`mk`
Malayalam	`ml`
Mongolski	`mn`
Marathi	`mr`
Malajski	`ms`
Birmański	`my`
Nepalski	`ne`
Niderlandzki	`nl`
Norweski (Bokmal)	`nb`
Odia	`or`
Pendżabski	`pa`
Polski	`pl`
Paszto	`ps`
Portugalski (Brazylia)	`pt-br`
Portugalski (Portugalia)	`pt-pt`
Rumuński	`ro`
Rosyjski	`ru`
Sanskryt	`sa`
Sindhi	`sd`
Syngaleski	`si`
Słowacki	`sk`
Słoweński	`sl`
Somalii	`so`
Albański	`sq`
Serbski	`sr`
Sundanese	`su`
Szwedzki	`sv`
Suahili	`sw`
Tamilski	`ta`
Telugu	`te`
Tajlandzki	`th`
Filipino	`tl`
Turecki	`tr`
Ujgurski	`ug`
Ukraiński	`uk`
Urdu	`ur`
Uzbecki	`uz`
Wietnamski	`vi`
Xhosa	`xh`
Jidysz	`yi`
Chiński (uproszczony)	`zh-hans`
Zulu	`zu`

Udostępnij za pośrednictwem

Obsługa języka niestandardowego rozpoznawania nazwanych jednostek

Opcja wielojęzyczna

Obsługa języków

Następne kroki

Opinia

Opinia

Dodatkowe zasoby