將您的交談語言理解模型定型

完成標記表達之後,您就可以開始定型模型。 定型是模型從標記表達中學習的流程。

若要定型模型,請啟動定型作業。 只有成功完成的作業才能建立模型。 定型作業會在七天後到期,您在此時間後無法擷取作業詳細資料。 如果您的定型作業順利完成,且已建立模型,模型將不會受到作業到期的影響。 您一次只能執行一個定型作業,而且您無法在同一個專案中啟動其他作業。

定型時間的範圍可以從處理協調流程工作流程專案時的幾秒鐘,一直到觸及表達上限的幾小時。

成功完成定型之後,就會自動觸發模型評估。 評估流程一開始會使用已定型的模型,在測試集中的表達上執行預測,並比較預測的結果與提供的標籤 (以建立事實基準)。

必要條件

平衡定型資料

在定型資料方面,您應該嘗試讓您的架構保持良好平衡。 包含大量的一個意圖,而另一個意圖非常少,將會導致對特定意圖高度偏差的模型。

若要解決此問題,您可能需要縮小訓練集的取樣,或將其新增至其中。 您可以透過下列任一方式完成向下取樣:

  • 隨機移除定型資料的特定百分比。
  • 藉由分析資料集,以及移除過度代表的重複專案,以更系統的方式進行。

您也可以在 Language Studio 的 [資料標籤] 索引標籤中選取 [建議語句] 來新增至定型集。 交談式Language Understanding會將呼叫傳送給Azure OpenAI,以產生類似的語句。

顯示 Language Studio 中語句建議的螢幕擷取畫面。

您也應該在定型集中尋找非預期的「模式」。 例如,如果特定意圖的定型集全部是小寫,或以特定片語開頭。 在這種情況下,您定型的模型可能會在定型集中學習這些非預期的偏差,而不是能夠一般化。

建議您在訓練集中引進大小寫和標點符號多樣性。 如果您的模型預期要處理變化,請務必有一個也反映該多樣性的定型集。 例如,在適當的大小寫中包含一些語句,以及全部小寫的語句。

資料分割

開始定型程序之前,專案中加上標籤的表達會分成定型集和測試集。 每一種都提供不同的功能。 定型集用於定型模型,模型從此定型集學習加上標籤的表達。 該測試集是一個盲集,不會在定型期間 (而是只在評估期間) 引入模型。

成功定型模型之後,會用來從測試集中的表達進行預測。 這些預測用來計算評估計量。 建議您確定所有意圖和實體都已充分呈現在定型和測試集中。

交談語言理解支援兩種資料分割方法:

  • 從定型資料自動分割測試集:系統會根據選擇的百分比,在定型與測試集之間分割標記的資料。 建議的百分比分割是 80% 用於定型,20% 用於測試。

注意

如果您選擇 [從定型資料自動分割測試集] 選項,則只會根據提供的百分比來分割向定型集指派的資料。

  • 使用手動分割定型和測試資料:此方法可讓使用者定義哪些表達應該屬於哪個集合。 只有在您已在標記期間將表達新增至測試集時,才會啟用此步驟。

定型模式

CLU 支援兩種定型模型的模式

  • 標準定型會使用快速的機器學習演算法,以相對快速的方式來定型您的模型。 此模式目前僅支援英文,針對未以英文 (美國) 或英文 (英國) 為其主要語言的任何專案,則為停用。 這個定型選項是免費的。 標準定型可讓您新增表達,並快速進行測試。 顯示的評估分數應可引導您了解專案哪些位置需進行變更,並新增更多表達。 在逐一查看數次並進行漸進式改進之後,您就可以考慮使用進階定型來定型其他版本的模型。

  • 進階定型會使用最新的機器學習技術,以利用您的資料自訂模型。 此模式預期會為您的模型顯示較佳效能分數,也可讓您使用 CLU 的多語系功能。 進階定型採不同定價方式。 如需詳細資料,請參閱定價資訊

使用評估分數來引導決策。 有時候,相較於使用標準定型模式,特定範例在進階定型中的預測反而不正確。 不過,如果使用進階定型的整體評估結果較佳,則建議您使用最終模型。 如果不是這種情況,而且您不想使用任何多語系功能,則可以繼續使用以標準模式定型的模型。

注意

當每個演算法以不同的方式校正其分數時,您應該會看到各定型模式間意圖信賴分數的行為差異。

定型模型

若要從 Language Studio 內開始定型模型:

  1. 從左側功能表中選取 [定型模型]。

  2. 從頂端功能表中選取 [開始定型作業]。

  3. 選取 [定型新模型],然後在文字輸入框中輸入模型名稱。 否則,若要以在新資料上定型的模型取代現有的模型,請選取 [覆寫現有的模型],然後選取現有的模型。 覆寫定型的模型是無法復原的,但在您部署新模型之前,不會影響已部署的模型。

  4. 選取定型模式。 您可以選擇 [標準定型] 來加快定型速度,但僅適用於英文。 或者,您可以選擇支援其他語言和多語系專案的 [進階定型],但需要較長的定型時間。 深入瞭解模型定型

  5. 選取資料分割方法。 您可以選擇 [從定型資料自動分割測試集],使用此方法時,系統會根據指定的百分比,將您的表達分割為定型集與測試集。 或者,您可以選擇 [使用手動分割定型和測試資料],但只有在表達已新增至測試集,且您標記表達時,才會啟用此選項。

  6. 選取 [定型] 按鈕。

    顯示 Language Studio 中 [定型] 頁面的螢幕擷取畫面。

  7. 選取清單中的定型作業識別碼。 隨即顯示窗格,您可以在其中檢查此作業的定型進度、作業狀態及其他詳細資料。

    注意

    • 只有成功完成的定型作業才會產生模型。
    • 根據表達的計數,定型可能需要幾分鐘到幾小時的時間。
    • 您一次只能執行一個定型作業。 除非執行中的作業完成,否則無法在同一個專案內啟動其他定型作業。
    • 用來定型模型的機器學習會定期更新。 若要在先前的設定版本上定型,請從 [開始定型作業] 頁面選取 [選取這裡以變更],然後選擇舊版。

取消定型作業

若要從 Language Studio 內取消定型作業

  1. 在 [定型模型] 頁面中,選取您想要取消的定型作業,然後選取頂端功能表中的 [取消]。

後續步驟