自訂具名實體辨識的語言支援

發行項
09/03/2024

使用此文章來了解自訂具名實體辨識功能目前支援的語言。

多語言選項

您可以透過自訂 NER 對某種語言的模型定型，並用來從另一種語言的文件擷取實體。這項功能十分強大，因為其有助於節省時間和精力。您可以在一個專案中處理多語言的資料集，而不需要為每種語言建立個別的專案。您的資料集不需要完全使用相同的語言，但您應該在建立或稍後在專案設定時，為專案啟用多語系選項。如果您注意到在評估程序期間，模型在某些語言的效能不佳，請考慮將更多這些語言的資料新增至定型集。

您可以完全使用英文文件定型專案，並用下列語言查詢：法文、德文、中文、日文、韓文及其他語言。自訂具名實體辨識可讓您使用多語系技術來定型模型，以便您輕鬆地將專案調整為多種語言。

當您發現特定語言未和其他語言一同執行時，您可以在專案中新增該語言的更多文件。在 Language Studio 的資料標記頁面中，您可以選取要新增文件的語言。當您在模型中導入該語言的更多文件時，將會導入更多該語言的語法，並學習如何更有效地進行預測。

您不應為每種語言新增相同數量的文件。您應該以一種語言建立大部分的專案，並只在您觀察到效能不佳的語言中新增一些文件。如果您建立的專案主要是英文版，並以法文、德文和西班牙文開始測試，您可能會發現德文的執行結果不如他兩種語言。在該案例下，請考慮在德文中新增 5% 的原始英文文件、定型新模型，然後再以德文進行測試。您應該會看到德文查詢得到更好的結果。您新增的標記文件愈多，得到更好結果的可能性就越高。

當您以其他語言加入資料時，不應預期會對其他語言造成負面影響。

語言支援

自訂 NER 支援下列語言的 .txt 檔案：

語言	語言代碼
南非荷蘭文	`af`
阿姆哈拉文	`am`
阿拉伯文	`ar`
阿薩姆文	`as`
亞塞拜然文	`az`
白俄羅斯文	`be`
保加利亞文	`bg`
孟加拉文	`bn`
布列塔尼文	`br`
波士尼亞文	`bs`
卡達隆尼亞文	`ca`
捷克文	`cs`
威爾斯文	`cy`
丹麥文	`da`
德文	`de`
希臘文	`el`
英文 (美國)	`en-us`
世界文	`eo`
西班牙文	`es`
愛沙尼亞文	`et`
巴斯克文	`eu`
波斯文	`fa`
芬蘭文	`fi`
法文	`fr`
西弗里西亞文	`fy`
愛爾蘭文	`ga`
蘇格蘭蓋爾文	`gd`
加利西亞文	`gl`
古吉拉特文	`gu`
豪撒文	`ha`
希伯來文	`he`
Hindi	`hi`
克羅埃西亞文	`hr`
匈牙利文	`hu`
亞美尼亞文	`hy`
印尼文	`id`
義大利文	`it`
日文	`ja`
爪哇文	`jv`
喬治亞文	`ka`
哈薩克文	`kk`
高棉文	`km`
坎那達文	`kn`
韓文	`ko`
庫德文 (北庫爾德語)	`ku`
吉爾吉斯文	`ky`
拉丁文	`la`
寮文	`lo`
立陶宛文	`lt`
拉脫維亞文	`lv`
馬達加斯加文	`mg`
馬其頓文	`mk`
馬來亞拉姆文	`ml`
蒙古文	`mn`
馬拉地文	`mr`
馬來文	`ms`
緬甸文	`my`
尼泊爾文	`ne`
荷蘭文	`nl`
挪威文 (巴克摩)	`nb`
歐迪亞文	`or`
旁遮普文	`pa`
波蘭文	`pl`
普什圖文	`ps`
葡萄牙文 (巴西)	`pt-br`
葡萄牙文 (葡萄牙)	`pt-pt`
羅馬尼亞文	`ro`
俄文	`ru`
梵文	`sa`
信德文	`sd`
僧伽羅文	`si`
斯洛伐克文	`sk`
斯洛維尼亞文	`sl`
索馬利文	`so`
阿爾巴尼亞文	`sq`
塞爾維亞文	`sr`
巽他文	`su`
瑞典文	`sv`
史瓦西里文	`sw`
坦米爾文	`ta`
泰盧固文	`te`
泰文	`th`
菲律賓文	`tl`
土耳其文	`tr`
維吾爾文	`ug`
烏克蘭文	`uk`
烏都文	`ur`
烏玆別克文	`uz`
越南文	`vi`
科薩語	`xh`
意第緒文	`yi`
中文 (簡體)	`zh-hans`
袓魯文	`zu`

共用方式為

自訂具名實體辨識的語言支援

多語言選項

語言支援

下一步

意見反應

其他資源