自訂文字分類的語言支援

使用本文瞭解自訂文字分類功能目前所支援的語言。

多語系選項

您可以透過自訂文字分類,對某種語言的模型定型,並用來對另一種語言的文件分類。 這項功能很有用,因為其有助於節省時間和精力。 您可以在一個專案中處理多語言的資料集,而不需要為每種語言建立個別的專案。 您的資料集不需要完全使用相同的語言,但您應該在建立或稍後在專案設定時,為專案啟用多語系選項。 如果您注意到在評估程序期間,模型在某些語言的效能不佳,請考慮將更多這些語言的資料新增至定型集。

您可以完全使用英文文件定型專案,並用下列語言查詢:法文、德文、中文、日文、韓文及其他語言。 自訂文字分類可讓您使用多語系技術來定型模型,以便您輕鬆地將專案調整為多種語言。

當您發現特定語言未和其他語言一同執行時,您可以在專案中新增該語言的更多文件。 在 Language Studio 的資料標記頁面中,您可以選取要新增文件的語言。 當您在模型中引進該語言的更多文件時,將會導入更多該語言的語法,並學習如何更有效地進行預測。

您不應為每種語言新增相同數量的文件。 您應該以一種語言建立大部分的專案,並只在您觀察到效能不佳的語言中加入一些文件。 如果您建立的專案主要是英文版,並以法文、德文和西班牙文開始測試,您可能會發現德文的執行結果不如他兩種語言。 在該案例下,請考慮在德文中新增 5% 的原始英文文件、定型新模型,然後再以德文進行測試。 您應該會看到德文查詢得到更好的結果。 您新增的標記文件愈多,越有可能得到更好的結果。

當您以其他語言加入資料時,不應預期會對其他語言造成負面影響。

自訂文字分類支援的語言

自訂文字分類支援下列語言的 .txt 檔案:

語言 語言代碼
南非荷蘭文 af
阿姆哈拉文 am
阿拉伯文 ar
阿薩姆文 as
亞塞拜然文 az
白俄羅斯文 be
保加利亞文 bg
孟加拉文 bn
布列塔尼文 br
波士尼亞文 bs
卡達隆尼亞文 ca
捷克文 cs
威爾斯文 cy
丹麥文 da
德文 de
希臘文 el
英文 (美國) en-us
世界文 eo
西班牙文 es
愛沙尼亞文 et
巴斯克文 eu
波斯文 fa
芬蘭文 fi
法文 fr
西弗里西亞文 fy
愛爾蘭文 ga
蘇格蘭蓋爾文 gd
加里斯亞文 gl
古吉拉特文 gu
豪撒文 ha
Hebrew he
Hindi hi
克羅埃西亞文 hr
匈牙利文 hu
亞美尼亞文 hy
印尼文 id
義大利文 it
日文 ja
爪哇文 jv
喬治亞文 ka
哈薩克文 kk
高棉文 km
坎那達文 kn
韓文 ko
庫德文 (北庫爾德語) ku
吉爾吉斯文 ky
拉丁文 la
寮文 lo
立陶宛文 lt
拉脫維亞文 lv
馬達加斯加文 mg
馬其頓文 mk
馬來亞拉姆文 ml
蒙古文 mn
馬拉地文 mr
馬來文 ms
緬甸文 my
尼泊爾文 ne
荷蘭文 nl
挪威文 (巴克摩) nb
歐迪亞文 or
旁遮普文 pa
波蘭文 pl
普什圖文 ps
葡萄牙文 (巴西) pt-br
葡萄牙文 (葡萄牙) pt-pt
羅馬尼亞文 ro
俄文 ru
梵文 sa
信德文 sd
僧伽羅文 si
斯洛伐克文 sk
斯洛維尼亞文 sl
索馬利文 so
阿爾巴尼亞文 sq
塞爾維亞文 sr
巽丹文 su
瑞典文 sv
史瓦西里文 sw
坦米爾文 ta
泰盧固文 te
泰文 th
菲律賓文 tl
土耳其文 tr
維吾爾文 ug
烏克蘭文 uk
烏都文 ur
烏玆別克文 uz
越南文 vi
科薩文 xh
意第緒文 yi
簡體中文 zh-hans
祖魯文 zu

下一步