Windows 搜尋支援的語言

發行項
06/13/2023

本主題描述 Windows 搜尋如何支援多種語言。

Tokenization、Wordbreakers 和 Language Resources

Windows 搜尋與語言無關，但跨語言的搜尋精確度可能會因為斷詞工具權杖化文字的方式而有所不同。斷詞工具會針對語言實作各種標記化規則，並將文字分成個別標記或要編制索引或搜尋的文字。

索引文字和查詢字串的語言都會分成標記。由於權杖化規則會因語言而異，因此每個語言或語言系列都有個別的斷詞工具。如果查詢語言與索引語言不符，則結果可能會無法預期。

Windows 搜尋隨附一組定義完善的斷詞工具。 Windows Vista 和更新版本中支援傳統斷詞工具和字幹分析器元件。如果無法判斷檔的語言，Windows 搜尋會嘗試偵測語言來識別最適當的斷詞工具。 Windows 搜尋會藉由呼叫 GetSystemPreferredUILanguages 函式來嘗試偵測語言，以判斷 MUI (MUI) 語言的第一個使用者介面 (，除非安裝 MUI 語言套件) 。如果該呼叫成功，則會使用第一個 MUI 語言的斷詞工具。如果 呼叫 GetSystemPreferredUILanguages 失敗，Windows 搜尋會呼叫 GetSystemDefaultLCID 函式來擷取系統地區設定，並使用與該地區設定相關聯的斷詞工具。

如果未針對語言安裝任何斷詞工具，Windows 搜尋會使用中性斷詞工具在空白字元上中斷。

您可以透過登錄移除語言，如下列範例所示。

HKEY_LOCAL_MACHINE
   SYSTEM
      CurrentControlSet
         Control
            ContentIndex
               Language
                  Dutch_Dutch
                     (Default)
                     Locale
                     NoiseFile
                     StemmerClass = CLSID
                     WBreakerClass = CLSID

提示

如果您變更登錄，請重新開機 Windows 搜尋。

當 Windows 搜尋需要新的斷詞工具時，會讀取 CLSID) (類別識別碼，並快取具現化的斷詞工具。

您可以藉由實作 IWordBreaker 介面來建立語言的自訂斷詞工具。 Windows 搜尋接著會在建置內容索引並執行查詢時呼叫 IWordBreaker 方法。

系統會從內容來源擷取索引內容的地區設定資訊。如果來源實作者不知道已編制索引內容的地區設定，則應將地區設定設定設為 LOCALE_NEUTRAL。

例如，如果您實作篩選處理常式 (IFilter 介面的實作) 、屬性處理常式或通訊協定處理常式，您應該將索引內容的地區設定設定為 LOCALE_NEUTRAL ，除非您有特定的地區設定資訊，而且確信其精確度。

提示

如果索引查詢是以使用者輸入為基礎，地區設定應該符合使用者輸入的語言。您可以呼叫 GetKeyboardLayout 函式來判斷此地區設定。

Wordbreakers 支援的語言

Windows 搜尋包含可支援下列語言的斷詞工具。

登錄機碼	語言 (子語言)	LCID
Arabic_SaudiArabia	阿拉伯文 (中性)	0x0001
Bengali_Default	孟加拉國文 (中性)	0x0045
Bulgarian_Default	保加利亞文 (保加利亞)	0x0402
Catalan_Default	加泰蘭文 (加泰蘭)	0x0403
Chinese_HongKong	中文 (香港特別行政區、中國)	0x0C04
Chinese_Simplified	簡體中文	0x0804
Chinese_Traditional	繁體中文	0x0404
Croatian_Default	克羅埃西亞文 (克羅埃西亞)	0x041A
Czech_Default	捷克文 (捷克共和國)	0x0405
Danish_Default	丹麥文 (丹麥)	0x0406
Dutch_Dutch	荷蘭文 (荷蘭)	0x0413
English_UK	英文 (英國)	0x0809
English_US	英文 (美國)	0x0409
Finnish_Default	芬蘭文 (芬蘭)	0x040B
French_French	法文 (法國)	0x040C
German_German	德文 (德國)	0x0407
Greek_Default	希臘文 (希臘)	0x0408
Gujarati_Default	古吉拉特文 (印度)	0x0447
Hebrew_Default	希伯來文 (中性)	0x000D
Hindi_Default	印度文 (印度)	0x0439
Hungarian_Default	匈牙利文 (匈牙利)	0x040E
Icelandic_Default	冰島文 (冰島)	0x040F
Indonesian_Default	印尼文 (印尼)	0x0421
Italian_Italian	義大利文 (義大利)	0x0410
Japanese_Default	日文 (日本)	0x0411
Kannada_Default	坎那達文 (印度)	0x044B
Korean_Default	韓文 (韓國)	0x0412
Latvian_Default	拉脫維亞文 (拉脫維亞)	0x0426
Lithuanian_Default	立陶宛文 (立陶宛文)	0x0427
Malay_Malaysia	馬來文 (馬來西亞)	0x043E
Malayalam_Default	馬來亞 (中性)	0x004C
Marathi_Default	馬拉提文 (印度)	0x044E
Norwegian_Bokmal	挪威文 (巴克摩，挪威)	0x0414
Polish_Default	波蘭文 (波蘭)	0x0415
Portuguese_Portugal	葡萄牙文 (葡萄牙)	0x0816
Portuguese_Brazil	葡萄牙文 (巴西)	0x0416
Punjabi_Default	旁遮普語 (印度)	0x0446
Romanian_Default	羅馬尼亞文 (羅馬尼亞)	0x0418
Russian_Default	俄文 (中性)	0x0019
塞爾維亞文_斯拉夫	塞爾維亞 (塞爾維亞和塞爾維亞、前文、斯拉夫文)	0x0C1A
塞爾維亞文_拉丁	塞爾維亞 (塞爾維亞和塞爾維亞，前者、拉丁文)	0x081A
Slovak_Default	斯洛伐克文 (斯洛伐克)	0x041B
Slovenian_Default	斯洛維尼亞文 (斯洛維尼亞)	0x0424
Spanish_Modern	西班牙文 (西班牙、新式排序)	0x0C0A
Swedish_Default	瑞典文 (瑞典)	0x041D
Tamil_Default	坦米爾文 (印度)	0x0449
Telugu_Default	特拉古文 (印度)	0x044A
Thai_Default	泰文 (泰國)	0x041E
Turkish_Default	土耳其文 (Türkiye)	0x041F
Ukrainian_Default	烏克蘭文 (烏克蘭)	0x0422
Urdu_Default	烏都文 (巴基斯坦)	0x0420
Vietnamese_Default	越南文 (越南)	0x042A

注意

資料表中某些語言的 LCID 是使用語言識別項、子語言識別項和排序識別碼來產生。

如需語言和相關識別碼的詳細資訊，請參閱語言識別項常數和字串。

注意

不保證所有語言登錄機碼都會出現在任何指定的電腦上。任何指定語言的斷詞工具可能或可能不會安裝在電腦中，視使用者設定而定。

從Windows 8.1開始，使用斷詞工具的慣用方式是透過 WinRT API WordsSegmenter 類別。

其他資源

如需如何針對其他語言和地區設定實作和使用自訂斷詞工具和字幹分析器的資訊，請參閱擴充 Windows 搜尋中的語言資源。
如果您需要識別文字片段的語言，您可以使用語言自動偵測 (LAD) ，這適用于 Windows 7 和更新版本。如需詳細資訊，請參閱擴充語言服務 (ELS) 。
如需管理、查詢及擴充索引的相關資訊，請參閱 Windows 搜尋開發人員指南。

Windows Search 概觀
Windows Search 做為開發平台
搭配 Shell 資料和 Windows Search 使用 Managed 程式碼

Share via

Windows 搜尋支援的語言

Tokenization、Wordbreakers 和 Language Resources

Wordbreakers 支援的語言

其他資源

意見反應

意見反應

其他資源

Share via

Windows 搜尋支援的語言

Tokenization、Wordbreakers 和 Language Resources

Wordbreakers 支援的語言

其他資源

相關主題

意見反應

意見反應

其他資源