共用方式為


測試及評估您的自訂摘要模型

當您建立自訂摘要模型時,請務必確定您最終會有品質模型。 您必須測試及評估自訂摘要模型,以確保其效能良好。

分割測試和定型集的指引

建立自訂摘要模型的重要階段是驗證建立的模型在品質方面滿意,並如預期般產生摘要。 該驗證程式必須使用一組個別的範例來執行, (稱為測試範例) ,而不是用於定型的範例。 將可用資料分割成定型和測試時,我們建議遵循三個重要的指導方針:

  • 大小:若要對模型的品質建立足夠的信賴度,測試集的大小應為合理的。 在少數範例上測試模型可能會造成誤導的結果評估時間。 建議您評估數百個範例。 當有大量的檔/交談可供使用時,建議您保留至少 10% 的檔/交談以供測試。
  • 沒有重迭:請務必確定相同的檔不會同時用於定型和測試。 測試應該在從未用於任何階段的定型檔上執行,否則模型的品質將會高度過度擷取。
  • 多樣性:測試集應該涵蓋盡可能多的輸入特性。 例如,最好包含不同長度、主題、樣式、.. 的檔。 等。適用時。 同樣地,對於交談摘要,最好包含不同回合數和說話者數目的交談。

評估自訂摘要模型的指引

評估自訂模型時,建議您同時使用自動和手動評估。 自動評估有助於快速判斷針對整個測試集產生的摘要品質,因此涵蓋各種不同的輸入變化。 不過,自動評估可提供品質的近似值,而且本身不足以建立模型品質的信賴度。 因此,我們也建議您盡可能檢查針對許多測試檔案所產生的摘要。

自動評估

目前,我們會使用名為 ROUGE 的計量 (針對 Azure AzureTing 評估) 的召回率導向底線。 這項技術包含藉由比較摘要與人類所建立的理想摘要,來自動判斷摘要品質的量值。 量值會計算要評估的電腦產生摘要和理想摘要之間的重迭單位數目,例如 n-gram、字序列和字組。 若要深入瞭解 Rouge,請參閱 ROUGE Wikipedia 專案ROUGE 套件上的檔

手動評估

當您手動檢查摘要品質時,除了自訂模型已定型以遵守樣式、格式或長度等預期之外,建議您檢查摘要的一般品質。 我們建議檢查的一般品質如下:

  • 流暢:摘要應該沒有格式化問題、大寫錯誤或非文法句子。
  • 一致性:摘要應妥善結構化且組織良好。 摘要不應只是相關資訊的堆積,而是應該從句子到句子建置成主題相關資訊的一致性主體。
  • 涵蓋範圍:摘要應涵蓋檔/交談中的所有重要資訊。
  • 相關性:摘要應該只包含來源文件/交談中的重要資訊,而不需要備援。
  • Hallucinations:摘要不包含原始檔案/交談不支援的錯誤資訊。

若要深入瞭解摘要評估,請參閱 MIT Press 文章關於 SummEval