LUIS 的語言和區域支援

發行項
09/01/2024

重要

LUIS 將於 2025 年 10 月 1 日淘汰，而自 2023 年 4 月 1 日開始，您將無法建立新的 LUIS 資源。建議移轉 LUIS 應用程式至交談語言理解，以享有產品持續支援和多語言功能的優點。

LUIS 在服務內有各種不同的功能。並非所有功能都有相同的語言地位。請確定您有興趣的功能支援您所針對的語言文化特性。 LUIS 應用程式是特定文化特性，一旦設定，就無法變更。

多語系 LUIS 應用程式

如果您需要多語系 LUIS 用戶端應用程式，例如聊天機器人，您有幾個選項。如果 LUIS 支援所有語言，您就會為每個語言開發 LUIS 應用程式。每個 LUIS 應用程式都有唯一的應用程式識別碼和端點記錄。如果您需要提供語言 LUIS 不支援的語言理解，您可以使用翻譯工具服務將語句翻譯成支持的語言、將語句提交至 LUIS 端點，以及接收產生的分數。

注意

適用於語言的 Azure AI 服務現提供較新版的語言理解功能。如需詳細資訊，請參閱 Azure AI 語言文件。如需支援語言服務內多種語言的語言理解功能，請參閱對話式 Language Understanding。

支援的語言

LUIS 會瞭解下列語言的語句：

語言	地區設定	預建網域	預建實體	片語清單建議	**情感分析和關鍵片語擷取
阿拉伯文 (預覽 - 新式標準阿拉伯文)	`ar-AR`	-	-	-	-
*中文	`zh-CN`	✔	✔	✔	-
荷蘭文	`nl-NL`	✔	-	-	✔
英文 (美國)	`en-US`	✔	✔	✔	✔
英文 (英國)	`en-GB`	✔	✔	✔	✔
法文 (加拿大)	`fr-CA`	-	-	-	✔
法文 (法國)	`fr-FR`	✔	✔	✔	✔
德文	`de-DE`	✔	✔	✔	✔
古吉拉蒂（預覽）	`gu-IN`	-	-	-	-
印度文（預覽）	`hi-IN`	-	✔	-	-
義大利文	`it-IT`	✔	✔	✔	✔
*日文	`ja-JP`	✔	✔	✔	僅限關鍵片語
韓文	`ko-KR`	✔	-	-	僅限關鍵片語
馬拉蒂（預覽）	`mr-IN`	-	-	-	-
葡萄牙文 (巴西)	`pt-BR`	✔	✔	✔	並非所有的次文化特性
西班牙文 (墨西哥)	`es-MX`	-	✔	✔	✔
西班牙文 (西班牙)	`es-ES`	✔	✔	✔	✔
泰米爾文（預覽）	`ta-IN`	-	-	-	-
Telugu （預覽）	`te-IN`	-	-	-	-
土耳其文	`tr-TR`	✔	✔	-	僅限情感

預先建置實體和預先建置網域的語言支援會有所不同。

*中文支援附註

在 zh-CN 文化特性中，LUIS 預期會有簡體中文字元集，而不是繁體字元集。
意圖、實體、功能和規則運算式的名稱可能採用中文或羅馬字元。
如需 zh-CN 文化特性中支援哪些預建網域的相關資訊，請參閱預建網域參考。

*日文支援附註

由於 LUIS 不提供語法分析，而且不會瞭解 Keigo 與非正式日文之間的差異，因此您必須將不同層級的型別納入為應用程式的訓練範例。
- でございます与です不同。
- です與だ不同。

**語言服務支援附註

語言服務包含 keyPhrase 預建實體和情感分析。只有葡萄牙文支援次文化特性：pt-PT 和 pt-BR。主要文化特性層級支援其他所有的文化特性。

語音 API 支援的語言

如需語音聽寫模式語言，請參閱語音支援的語言。

Bing 拼字檢查支持的語言

如需支援的語言和狀態清單，請參閱 Bing 拼字檢查支援的語言。

應用程式中的罕見或外文字

在文化特性中 en-us ，LUIS 會學習區分大多數英文文字，包括俚語。在文化特性中 zh-cn ，LUIS 會學習區分大多數漢字。如果您在中使用 en-us 中的罕見單字或字元 zh-cn，而且您看到 LUIS 似乎無法區分該單字或字元，您可以將該單字或字元新增至詞組清單功能。例如，應用程式文化特性以外的單字應該新增至片語清單功能。

混合式語言

混合式語言結合了兩種文化特性的文字，例如英文和中文。 LUIS 不支援這些語言，因為應用程式是以單一文化特性為基礎。

語彙基元化

為了執行機器學習，LUIS 會根據文化特性將語句分成令牌。

語言	每個空格或特殊字元	字元層級	複合字
阿拉伯文	✔
中文		✔
荷蘭文	✔		✔
英文 (en-us)	✔
英文（en-GB）	✔
法文 (fr-FR)	✔
法文（fr-CA）	✔
德文	✔		✔
古吉拉特文	✔
印度文	✔
義大利文	✔
日文			✔
韓文		✔
馬拉地文	✔
葡萄牙文 (巴西)	✔
西班牙文 (es-ES)	✔
西班牙文（es-MX）	✔
坦米爾文	✔
泰盧固文	✔
土耳其文	✔

自定義令牌化程式版本

下列文化特性具有自定義Tokenizer版本：

文化特性	版本	目的
德文 `de-de`	1.0.0	使用以機器學習為基礎的Tokenizer來分割單字，以將單字分割為標記化，以嘗試將複合字分解成其單一元件。如果使用者輸入 `Ich fahre einen krankenwagen` 做為語句，則會轉換成 `Ich fahre einen kranken wagen`。允許將和 `wagen` 獨立標示`kranken`為不同的實體。
德文 `de-de`	1.0.2	在空格上分割字組，以標記字組。如果使用者輸入 `Ich fahre einen krankenwagen` 做為語句，它仍然是單一令牌。因此 `krankenwagen` 會標示為單一實體。
荷蘭文 `nl-nl`	1.0.0	使用以機器學習為基礎的Tokenizer來分割單字，以將單字分割為標記化，以嘗試將複合字分解成其單一元件。如果使用者輸入 `Ik ga naar de kleuterschool` 做為語句，則會轉換成 `Ik ga naar de kleuter school`。允許將和 `school` 獨立標示`kleuter`為不同的實體。
荷蘭文 `nl-nl`	1.0.1	在空格上分割字組，以標記字組。如果使用者輸入 `Ik ga naar de kleuterschool` 做為語句，它仍然是單一令牌。因此 `kleuterschool` 會標示為單一實體。

在 Tokenizer 版本之間移轉

令牌化會在應用程式層級發生。不支援版本層級的令牌化。

將檔案匯入為新的應用程式，而不是版本。此動作表示新應用程式有不同的應用程式識別碼，但會使用檔案中指定的Tokenizer版本。

共用方式為