Obsługa języka niestandardowego rozpoznawania nazwanych jednostek
Skorzystaj z tego artykułu, aby dowiedzieć się więcej o językach obsługiwanych obecnie przez niestandardową funkcję rozpoznawania nazwanych jednostek.
Opcja wielojęzyczna
Za pomocą niestandardowego modułu NER można wytrenować model w jednym języku i użyć go do wyodrębniania jednostek z dokumentów w innym języku. Ta funkcja jest zaawansowana, ponieważ pomaga zaoszczędzić czas i wysiłek. Zamiast tworzyć oddzielne projekty dla każdego języka, można obsługiwać zestaw danych wielojęzycznych w jednym projekcie. Zestaw danych nie musi być całkowicie w tym samym języku, ale należy włączyć opcję wielojęzyczną dla projektu podczas tworzenia lub nowszego w ustawieniach projektu. Jeśli podczas procesu oceny zauważysz, że model działa słabo w niektórych językach, rozważ dodanie większej liczby danych w tych językach do zestawu szkoleniowego.
Możesz wytrenować projekt w całości przy użyciu dokumentów angielskich i wykonywać zapytania w: francuski, niemiecki, mandaryński, japoński, koreański i inne. Niestandardowe rozpoznawanie nazwanych jednostek ułatwia skalowanie projektów do wielu języków przy użyciu technologii wielojęzycznej do trenowania modeli.
Za każdym razem, gdy określisz, że dany język nie działa, a także inne języki, możesz dodać więcej dokumentów dla tego języka w projekcie. Na stronie etykietowania danych w programie Language Studio możesz wybrać język dodawanego dokumentu. Po wprowadzeniu większej liczby dokumentów dla tego języka do modelu zostanie on wprowadzony do większej liczby składni tego języka i nauczy się przewidywać go lepiej.
Nie oczekuje się dodania tej samej liczby dokumentów dla każdego języka. Większość projektu należy utworzyć w jednym języku i dodać tylko kilka dokumentów w językach, które obserwujesz, nie działają prawidłowo. Jeśli utworzysz projekt, który jest głównie w języku angielskim i rozpoczniesz testowanie go w języku francuskim, niemieckim i hiszpańskim, możesz zauważyć, że język niemiecki nie działa, a także pozostałe dwa języki. W takim przypadku rozważ dodanie 5% oryginalnych dokumentów angielskich w języku niemieckim, wytrenuj nowy model i ponownie przetestuj go w języku niemieckim. Powinny zostać wyświetlone lepsze wyniki dla niemieckich zapytań. Tym bardziej oznaczone dokumenty, tym bardziej prawdopodobne, że wyniki będą lepsze.
Podczas dodawania danych w innym języku nie należy oczekiwać, że będzie ona negatywnie wpływać na inne języki.
Obsługa języków
Niestandardowa funkcja NER obsługuje .txt
pliki w następujących językach:
Język | Kod języka |
---|---|
Afrikaans | af |
Amharski | am |
Arabski | ar |
Assamese | as |
Azerski | az |
Białoruski | be |
Bułgarski | bg |
Bengalski | bn |
Breton | br |
Bośniacki | bs |
Kataloński | ca |
Czeski | cs |
Walijski | cy |
Duński | da |
Niemiecki | de |
Grecki | el |
Angielski (Stany Zjednoczone) | en-us |
Esperanto | eo |
Hiszpański | es |
Estoński | et |
Baskijski | eu |
Perski | fa |
Fiński | fi |
Francuski | fr |
Zachodni Frisian | fy |
Irlandzki | ga |
Szkocki Gaelic | gd |
Galicyjski | gl |
Gudżarati | gu |
Hausa | ha |
Hebrajski | he |
Hindi | hi |
Chorwacki | hr |
Węgierski | hu |
Armeński | hy |
Indonezyjski | id |
Włoski | it |
japoński | ja |
Jawajski | jv |
Gruziński | ka |
Kazachski | kk |
Khmer | km |
Kannada | kn |
Koreański | ko |
Kurdyjski (Kurmanji) | ku |
Kirgiski | ky |
Łacińskiej | la |
Lao | lo |
Litewski | lt |
Łotewski | lv |
Madagaskaru | mg |
Macedoński | mk |
Malayalam | ml |
Mongolski | mn |
Marathi | mr |
Malajski | ms |
Birmański | my |
Nepalski | ne |
Niderlandzki | nl |
Norweski (Bokmal) | nb |
Odia | or |
Pendżabski | pa |
Polski | pl |
Paszto | ps |
Portugalski (Brazylia) | pt-br |
Portugalski (Portugalia) | pt-pt |
Rumuński | ro |
Rosyjski | ru |
Sanskryt | sa |
Sindhi | sd |
Syngaleski | si |
Słowacki | sk |
Słoweński | sl |
Somalii | so |
Albański | sq |
Serbski | sr |
Sundanese | su |
Szwedzki | sv |
Suahili | sw |
Tamilski | ta |
Telugu | te |
Tajlandzki | th |
Filipino | tl |
Turecki | tr |
Ujgurski | ug |
Ukraiński | uk |
Urdu | ur |
Uzbecki | uz |
Wietnamski | vi |
Xhosa | xh |
Jidysz | yi |
Chiński (uproszczony) | zh-hans |
Zulu | zu |
Następne kroki
Opinia
https://aka.ms/ContentUserFeedback.
Dostępne już wkrótce: W 2024 r. będziemy stopniowo wycofywać zgłoszenia z serwisu GitHub jako mechanizm przesyłania opinii na temat zawartości i zastępować go nowym systemem opinii. Aby uzyskać więcej informacji, sprawdź:Prześlij i wyświetl opinię dla