本文說明評估集及其如何協助確保應用程式的品質。
什麼是評估集?
為了測量品質,Databricks 建議建立人為標記的評估集。 評估測試集是一組策劃且具代表性的查詢,連同標準答案及可能需要檢索的正確支援檔。 人類輸入在這個程序中非常重要,因為它可確保評估集能準確地反映終端使用者的期望和需求。
策劃人類標籤可能是一個耗時的過程。 您可以從建立一個僅包含問題的評估集開始,並隨著時間的推移新增標準答案。 馬賽克 AI 代理程式評估 可以評估您的鏈結品質,但沒有地面真相,不過,如果地面真相可用,它會計算其他計量,例如答案正確性。
良好評估集的要素
良好的評估集具有下列特性:
- 代表: 準確地反映應用程式在生產環境中遇到的各種要求。
- 挑戰: 集合應包含困難且多樣化的案例,以有效測試模型的功能。 在理想情況下,它包括對抗樣本,例如那些嘗試進行提示注入的問題,或那些試圖從 LLM 生成不當回應的問題。
- 持續更新: 必須定期更新此集合,以反映應用程式在生產環境中使用的方式、索引數據的變更本質,以及應用程式需求的任何變更。
Databricks 建議評估題目集至少包含 30 個問題,理想上是 100 到 200 個。 最佳的評估集會隨著時間成長,最終包含數千個問題。
訓練、測試和驗證集
為了避免過度擬合,Databricks 建議將您的數據集分割成訓練集、測試集和驗證集:
- 訓練集:含有約 ~70% 的問題。 用於初步評估每個實驗,以識別具最高潛力的實驗。
- 測試集: 約 20% 的問題。 用來評估在訓練集中表現最好的實驗。
- 驗證集: 大約 10% 的問題。 用於將實驗部署到生產環境之前的最終驗證檢查。
Mosaic AI 代理評估幫助您建立評估集,透過網頁聊天介面讓利害關係人提供應用程式輸出的意見反應。 鏈結的輸出和專案關係人意見反應會儲存在 Delta 數據表中,然後可以策劃成評估集。 如需範例程式代碼的實作指示,請參閱本操作手冊的實作一節中 策劃評估集。