Dukungan bahasa untuk pengenalan entitas bernama kustom

Artikel
12/19/2023

Gunakan artikel ini untuk mempelajari tentang bahasa yang saat ini didukung oleh fitur pengenalan entitas bernama kustom.

Opsi multibahasa

Dengan NER khusus, Anda dapat melatih model dalam satu bahasa dan menggunakannya untuk mengekstrak entitas dari dokumen dalam bahasa lain. Fitur ini sangat kuat karena membantu menghemat waktu dan usaha. Alih-alih membangun proyek terpisah untuk setiap bahasa, Anda dapat menangani set data multibahasa dalam satu proyek. Himpunan data Anda tidak harus sepenuhnya dalam bahasa yang sama tetapi Anda harus mengaktifkan opsi multibahasa untuk proyek Anda saat membuat atau nanti di pengaturan proyek. Jika Anda melihat model Anda berperforma buruk dalam bahasa tertentu selama proses evaluasi, pertimbangkan untuk menambahkan lebih banyak data dalam bahasa ini ke set pelatihan Anda.

Anda dapat melatih proyek Anda sepenuhnya dengan dokumen bahasa Inggris, dan menanyakannya dalam bahasa: Prancis, Jerman, Mandarin, Jepang, Korea, dan lainnya. Pengenalan entitas bernama kustom memudahkan Anda menskalakan proyek ke berbagai bahasa dengan menggunakan teknologi multibahasa untuk melatih model Anda.

Setiap kali Anda mengidentifikasi bahwa bahasa tertentu tidak berperforma sebaik bahasa lain, Anda dapat menambahkan lebih banyak dokumen untuk bahasa itu di proyek Anda. Di halaman pelabelan data di Language Studio, Anda dapat memilih bahasa dokumen yang Anda tambahkan. Saat Anda memperkenalkan lebih banyak dokumen untuk bahasa itu ke model, itu diperkenalkan ke lebih banyak sintaks bahasa itu, dan belajar untuk memprediksinya dengan lebih baik.

Anda tidak diharapkan untuk menambahkan jumlah dokumen yang sama untuk setiap bahasa. Anda harus membangun sebagian besar proyek Anda dalam satu bahasa, dan hanya menambahkan beberapa dokumen dalam bahasa yang Anda amati tidak berperforma baik. Jika Anda membuat proyek yang terutama dalam bahasa Inggris, dan mulai mengujinya dalam bahasa Prancis, Jerman, dan Spanyol, Anda mungkin mengamati bahwa bahasa Jerman tidak memiliki performa sebaik dua bahasa lainnya. Dalam hal ini, pertimbangkan untuk menambahkan 5% dari dokumen asli bahasa Inggris Anda dalam bahasa Jerman, latih model baru dan uji dalam bahasa Jerman lagi. Seharusnya hasilnya menjadi lebih baik untuk kueri Jerman. Semakin banyak dokumen berlabel yang Anda tambahkan, semakin besar kemungkinan hasilnya akan menjadi lebih baik.

Ketika Anda menambahkan data dalam bahasa lain, Anda seharusnya tidak mengharapkannya berdampak negatif terhadap bahasa lain.

Dukungan bahasa

NER kustom mendukung file .txt dalam bahasa berikut:

Bahasa	Kode bahasa
Afrikaans	`af`
Amharik	`am`
Arab	`ar`
Assam	`as`
Azerbaijani	`az`
Belarusia	`be`
Bulgaria	`bg`
Bengali	`bn`
Breton	`br`
Bosnia	`bs`
Katalan	`ca`
Cheska	`cs`
Wales	`cy`
Dansk	`da`
Jerman	`de`
Yunani	`el`
Inggris (US)	`en-us`
Esperanto	`eo`
Spanyol	`es`
Esti	`et`
Basque	`eu`
Persia	`fa`
Suomi	`fi`
Prancis	`fr`
Frisia Barat	`fy`
Irlandia	`ga`
Gaelik Skotlandia	`gd`
Galisia	`gl`
Gujarat	`gu`
Hausa	`ha`
Ibrani	`he`
Hindi	`hi`
Kroasia	`hr`
Hungaria	`hu`
Armenia	`hy`
Indonesia	`id`
Italia	`it`
Jepang	`ja`
Jawa	`jv`
Georgia	`ka`
Kazakh	`kk`
Khmer	`km`
Kannada	`kn`
Korea	`ko`
Kurdi (Kurmanji)	`ku`
Kirgiz	`ky`
Latin	`la`
Laos	`lo`
Lituavi	`lt`
Latvi	`lv`
Malagasi	`mg`
Makedonia	`mk`
Malayalam	`ml`
Mongolia	`mn`
Marathi	`mr`
Melayu	`ms`
Birma	`my`
Nepal	`ne`
Belanda	`nl`
Norwegia (Bokmal)	`nb`
Odia	`or`
Punjabi	`pa`
Polski	`pl`
Pashto	`ps`
Portugis (Brasil)	`pt-br`
Portugis (Portugal)	`pt-pt`
Rumania	`ro`
Rusia	`ru`
Sanskrit	`sa`
Sindhi	`sd`
Sinhala	`si`
Slovak	`sk`
Sloven	`sl`
Somali	`so`
Albania	`sq`
Serbia	`sr`
Sunda	`su`
Swedia	`sv`
Swahili	`sw`
Tamil	`ta`
Telugu	`te`
Thailand	`th`
Filipino	`tl`
Turki	`tr`
Uyghur	`ug`
Ukraina	`uk`
Urdu	`ur`
Uzbek	`uz`
Vietnam	`vi`
Xhosa	`xh`
Yiddi	`yi`
Tionghoa (Aksara Sederhana)	`zh-hans`
Zulu	`zu`

Dukungan bahasa untuk pengenalan entitas bernama kustom

Opsi multibahasa

Dukungan bahasa

Langkah berikutnya

Sumber Daya Tambahan: