表達
重要
LUIS 將於 2025 年 10 月 1 日淘汰,而自 2023 年 4 月 1 日開始,您將無法建立新的 LUIS 資源。 建議移轉 LUIS 應用程式至交談語言理解,以享有產品持續支援和多語言功能的優點。
語句是應用程式需要解譯的使用者輸入。 若要將 LUIS 定型以從這些輸入中擷取意圖和實體,務必要針對每個意圖擷取各種不同的範例語句。 主動學習或持續將新語句定型的程序,對 LUIS 提供的機器學習智慧非常重要。
收集您認為使用者會輸入的語句。 包括意義相同但各種結構的語句:
- 語句長度 - 適用於您用戶端應用程式的短、中和長句子
- 字組與片語長度
- 字組位置 - 位於語句開頭、中間與結尾的實體
- 文法
- 複數表示
- 詞幹分析
- 名詞和動詞的選擇
- 標點符號 - 同時使用正確和不正確的文法
選擇各種語句
當您開始為 LUIS 模型新增範例語句時,請將以下幾個原則謹記在心:
語句不見得格式正確
您的應用程式可能需要處理句子,如「為我預訂飛往巴黎的機票」,或句子片段,如「預訂」或「巴黎的班機」。使用者也常發生拼字錯誤。 規劃應用程式時,請考慮是否要先使用 Bing 拼字檢查更正使用者輸入,再將其傳遞至 LUIS。
如果未檢查使用者語句的拼字,您應該針對包含錯字與拼字錯誤的語句將 LUIS 定型。
使用使用者的代表語言
選擇語句時,請注意您認為是常見的字詞或片語,對於用戶端應用程式的一般使用者而言可能並不常見。 其可能沒有網域體驗,或使用不同的術語。 使用只有當使用者是專家時才會用的字詞與片語時,請小心謹慎。
選擇不同的術語和片語
您將會發現即使努力建立各種的句子模式,有些詞彙仍會不斷重複。 例如,下列語句具有相似的涵義,但術語和片語不同:
- 「如何取得電腦?」
- 「在哪裡可取得電腦?」
- 「我想要取得電腦,如何著手呢?」
- 「我何時可擁有電腦?」
此處不變的核心字詞為「電腦」。 可使用桌上型電腦、膝上型電腦、工作站,甚至只稱為機器來替代。 LUIS 可運用智慧從上下文推斷出同義字,但當在建立用於定型的語句時,請一律更改用字。
每個意圖的範例語句
每個意圖都必須至少要有 15 個範例語句。 如果是沒有任何範例語句的意圖,則無法將 LUIS 定型。 如果是有一個或少數範例語句的意圖,LUIS 可能無法準確地預測該意圖。
新增一小群語句
每次您逐一查看模型以改善模型時,請勿新增大量語句。 請考慮新增 15 個語句。 再次定型、發佈並測試。
LUIS 會利用由 LUIS 模型建立者精挑細選的語句來建置有效的模型。 新增太多語句只會導致產生混淆,並沒有用。
最好從少量語句開始,然後檢閱端點語句,以正確地預測意圖和擷取實體。
語句正常化
語句正常化是在定型和預測期間忽略文字類型 (例如標點符號和變音符號) 效果的程序。
語句正常化設定預設為關閉。 這些設定包括:
- 單字形式
- 變音符號
- 標點符號
如果您開啟正常化設定,則會針對該正常化設定的所有語句變更 [測試] 窗格中的分數、批次測試和端點查詢。
當您在 LUIS 入口網站中複製版本時,版本設定會持續使用新複製的版本。
在應用程式設定頁面中,從頂端導覽功能表中選取 [管理],使用 LUIS 入口網站設定應用程式的版本設定。 您也可以使用更新版本設定 API。 如需詳細資訊,請參閱參考文件。
單字形式
將 [單字形式] 正常化會忽略在根以外所擴充單字的差異。
變音符號
變音符號是文字內的標記或記號,例如:
İ ı Ş Ğ ş ğ ö ü
標點符號
[標點符號] 正常化的意義在於,在您的模型進行定型之前,以及在您的端點查詢受到預測之前,會從語句中移除標點符號。
標點符號在 LUIS 中是個別的語彙基元。 結尾包含句點的語句與結尾未包含句點的語句是兩個不同的語句,且可能會得到兩個不同的預測。
如果標點符號未正常化,根據預設,LUIS 不會忽略標點符號,因為某些用戶端應用程式的這些標點可能有其重要性。 請務必包含使用標點符號的範例語句,以及兩個樣式都不要的語句,讓兩個樣式都傳回相同的相對分數。
請確定模型會在範例語句 (含標點符號和不含標點符號) 或在更容易忽略標點符號的模式中處理標點符號。 例如:我正在申請 {Job} 位置[.]
如果標點符號在您的用戶端應用程式中沒有特定意義,請考慮藉由正常化標點符號忽略標點符號。
忽略單字和標點符號
若您想要忽略模式中的特定字組或標點符號,請搭配使用方括弧的模式與忽略語法,[]
。
使用所有語句進行定型
定型不具決定性:版本或應用程式間的語句預測會稍微不同。 您可以更新版本設定 API,以 UseAllTrainingData 名稱/值配對來使用所有定型資料,藉此移除不具決定性的定型。
測試語句
開發人員應該透過將語句傳送至預測端點 URL,以實際資料測試其 LUIS 應用程式。 這些語句可用來改善使用檢閱語句的意圖和實體效能。 使用 LUIS 入口網站中測試窗格提交的測試,不會透過端點傳送,因此也不會提供給主動學習。
檢閱語句
在將模型定型、發佈及接收端點查詢之後,請檢閱 LUIS 所建議的語句。 LUIS 會選取對意圖或實體而言分數低的端點語句。
最佳作法
單字意義的標籤
如果字組選擇或字組排列相同,但意義不同,請勿以實體將其標記。
在下列語句中,「fair」是同形異義字,表示這個字拼字相同但意義不同:
- 「今年夏天西雅圖地區會舉辦哪些種類的農業博覽會?」
- 「Is the current 2-star rating for the restaurant fair?」
如果您想要讓事件實體尋找所有事件資料,請標記第一個語句中的「fair」一字,但不要標記第二個語句中的該字。
請勿忽略可能的語句變化
LUIS 會預期意圖的語句中有所變化。 語句可以在改變的同時仍保有相同的整體意義。 變化可以包括語句長度、單字選擇,以及單字位置。
請勿使用相同的格式 | 請務必使用變化格式 |
---|---|
購買一張到西雅圖的機票 | 購買 1 張到西雅圖的機票 |
購買一張到巴黎的機票 | 預約兩張下週一飛往巴黎的紅眼機票 |
購買一張到奧蘭多的機票 | 我想要預訂 3 張到奧蘭多的春假機票 |
第二欄使用不同的動詞 (購買、預約、預訂)、不同的量詞 (1、和「兩」、3) 及不同的字組排列,但全都具有購買旅遊機票的相同意圖。
請勿將太多範例語句新增至意圖
發佈應用程式之後,請只從開發生命週期程序中的主動式學習新增語句。 如果語句太類似,則請新增模式。