測試及評估您的自訂摘要模型

發行項
12/19/2023

當您建立自訂摘要模型時，請務必確定您最終會有品質模型。您必須測試及評估自訂摘要模型，以確保其效能良好。

分割測試和定型集的指引

建立自訂摘要模型的重要階段是驗證建立的模型在品質方面滿意，並如預期般產生摘要。該驗證程式必須使用一組個別的範例來執行， (稱為測試範例) ，而不是用於定型的範例。將可用資料分割成定型和測試時，我們建議遵循三個重要的指導方針：

大小：若要對模型的品質建立足夠的信賴度，測試集的大小應為合理的。在少數範例上測試模型可能會造成誤導的結果評估時間。建議您評估數百個範例。當有大量的檔/交談可供使用時，建議您保留至少 10% 的檔/交談以供測試。
沒有重迭：請務必確定相同的檔不會同時用於定型和測試。測試應該在從未用於任何階段的定型檔上執行，否則模型的品質將會高度過度擷取。
多樣性：測試集應該涵蓋盡可能多的輸入特性。例如，最好包含不同長度、主題、樣式、.. 的檔。等。適用時。同樣地，對於交談摘要，最好包含不同回合數和說話者數目的交談。

評估自訂摘要模型的指引

評估自訂模型時，建議您同時使用自動和手動評估。自動評估有助於快速判斷針對整個測試集產生的摘要品質，因此涵蓋各種不同的輸入變化。不過，自動評估可提供品質的近似值，而且本身不足以建立模型品質的信賴度。因此，我們也建議您盡可能檢查針對許多測試檔案所產生的摘要。

自動評估

目前，我們會使用名為 ROUGE 的計量 (針對 Azure AzureTing 評估) 的召回率導向底線。這項技術包含藉由比較摘要與人類所建立的理想摘要，來自動判斷摘要品質的量值。量值會計算要評估的電腦產生摘要和理想摘要之間的重迭單位數目，例如 n-gram、字序列和字組。若要深入瞭解 Rouge，請參閱 ROUGE Wikipedia 專案和 ROUGE 套件上的檔。

手動評估

當您手動檢查摘要品質時，除了自訂模型已定型以遵守樣式、格式或長度等預期之外，建議您檢查摘要的一般品質。我們建議檢查的一般品質如下：

流暢：摘要應該沒有格式化問題、大寫錯誤或非文法句子。
一致性：摘要應妥善結構化且組織良好。摘要不應只是相關資訊的堆積，而是應該從句子到句子建置成主題相關資訊的一致性主體。
涵蓋範圍：摘要應涵蓋檔/交談中的所有重要資訊。
相關性：摘要應該只包含來源文件/交談中的重要資訊，而不需要備援。
Hallucinations：摘要不包含原始檔案/交談不支援的錯誤資訊。

若要深入瞭解摘要評估，請參閱 MIT Press 文章關於 SummEval。

共用方式為

測試及評估您的自訂摘要模型

分割測試和定型集的指引

評估自訂摘要模型的指引

自動評估

手動評估

其他資源