自訂具名實體辨識的語言支援
使用此文章來了解自訂具名實體辨識功能目前支援的語言。
多語言選項
您可以透過自訂 NER 對某種語言的模型定型,並用來從另一種語言的文件擷取實體。 這項功能十分強大,因為其有助於節省時間和精力。 您可以在一個專案中處理多語言的資料集,而不需要為每種語言建立個別的專案。 您的資料集不需要完全使用相同的語言,但您應該在建立或稍後在專案設定時,為專案啟用多語系選項。 如果您注意到在評估程序期間,模型在某些語言的效能不佳,請考慮將更多這些語言的資料新增至定型集。
您可以完全使用英文文件定型專案,並用下列語言查詢:法文、德文、中文、日文、韓文及其他語言。 自訂具名實體辨識可讓您使用多語系技術來定型模型,以便您輕鬆地將專案調整為多種語言。
當您發現特定語言未和其他語言一同執行時,您可以在專案中新增該語言的更多文件。 在 Language Studio 的資料標記頁面中,您可以選取要新增文件的語言。 當您在模型中導入該語言的更多文件時,將會導入更多該語言的語法,並學習如何更有效地進行預測。
您不應為每種語言新增相同數量的文件。 您應該以一種語言建立大部分的專案,並只在您觀察到效能不佳的語言中新增一些文件。 如果您建立的專案主要是英文版,並以法文、德文和西班牙文開始測試,您可能會發現德文的執行結果不如他兩種語言。 在該案例下,請考慮在德文中新增 5% 的原始英文文件、定型新模型,然後再以德文進行測試。 您應該會看到德文查詢得到更好的結果。 您新增的標記文件愈多,得到更好結果的可能性就越高。
當您以其他語言加入資料時,不應預期會對其他語言造成負面影響。
語言支援
自訂 NER 支援下列語言的 .txt
檔案:
語言 | 語言代碼 |
---|---|
南非荷蘭文 | af |
阿姆哈拉文 | am |
阿拉伯文 | ar |
阿薩姆文 | as |
亞塞拜然文 | az |
白俄羅斯文 | be |
保加利亞文 | bg |
孟加拉文 | bn |
布列塔尼文 | br |
波士尼亞文 | bs |
卡達隆尼亞文 | ca |
捷克文 | cs |
威爾斯文 | cy |
丹麥文 | da |
德文 | de |
希臘文 | el |
英文 (美國) | en-us |
世界文 | eo |
西班牙文 | es |
愛沙尼亞文 | et |
巴斯克文 | eu |
波斯文 | fa |
芬蘭文 | fi |
法文 | fr |
西弗里西亞文 | fy |
愛爾蘭文 | ga |
蘇格蘭蓋爾文 | gd |
加利西亞文 | gl |
古吉拉特文 | gu |
豪撒文 | ha |
希伯來文 | he |
Hindi | hi |
克羅埃西亞文 | hr |
匈牙利文 | hu |
亞美尼亞文 | hy |
印尼文 | id |
義大利文 | it |
日文 | ja |
爪哇文 | jv |
喬治亞文 | ka |
哈薩克文 | kk |
高棉文 | km |
坎那達文 | kn |
韓文 | ko |
庫德文 (北庫爾德語) | ku |
吉爾吉斯文 | ky |
拉丁文 | la |
寮文 | lo |
立陶宛文 | lt |
拉脫維亞文 | lv |
馬達加斯加文 | mg |
馬其頓文 | mk |
馬來亞拉姆文 | ml |
蒙古文 | mn |
馬拉地文 | mr |
馬來文 | ms |
緬甸文 | my |
尼泊爾文 | ne |
荷蘭文 | nl |
挪威文 (巴克摩) | nb |
歐迪亞文 | or |
旁遮普文 | pa |
波蘭文 | pl |
普什圖文 | ps |
葡萄牙文 (巴西) | pt-br |
葡萄牙文 (葡萄牙) | pt-pt |
羅馬尼亞文 | ro |
俄文 | ru |
梵文 | sa |
信德文 | sd |
僧伽羅文 | si |
斯洛伐克文 | sk |
斯洛維尼亞文 | sl |
索馬利文 | so |
阿爾巴尼亞文 | sq |
塞爾維亞文 | sr |
巽他文 | su |
瑞典文 | sv |
史瓦西里文 | sw |
坦米爾文 | ta |
泰盧固文 | te |
泰文 | th |
菲律賓文 | tl |
土耳其文 | tr |
維吾爾文 | ug |
烏克蘭文 | uk |
烏都文 | ur |
烏玆別克文 | uz |
越南文 | vi |
科薩語 | xh |
意第緒文 | yi |
中文 (簡體) | zh-hans |
袓魯文 | zu |