本文涵蓋測量 RAG 應用程式的效能,以取得擷取、回應和系統效能的品質。
擷取、回應和效能
使用評估集,您可以測量RAG應用程式在不同維度上的效能,包括:
- 擷取品質: 擷取計量會評估RAG應用程式擷取相關支持數據的成功程度。 精確度和召回率是兩個主要擷取計量。
- 回應品質: 回應品質計量會評估RAG應用程式回應使用者要求的方式。 例如,回應指標可以測量生成的答案是否準確,例如是否符合事實根據、根據擷取的內容,回應的基礎如何(例如,LLM 是否出現幻想情況?),或者回應有多安全(換句話說,即沒有毒性言論)。
- 系統效能(成本和延遲): 計量會擷取RAG應用程式的整體成本和效能。 整體延遲和令牌耗用量是鏈結效能計量的範例。
收集回應和擷取計量非常重要。 儘管擷取到正確的上下文,RAG 應用程式的回應可能仍然不理想;另一方面,即使擷取出錯,它也能提供良好的回應。 只有藉由測量這兩個元件,我們才能準確地診斷和解決應用程式中的問題。
測量效能的方法
有兩個主要方法可測量這些計量的效能:
- 決定性度量: 成本與延遲計量可以根據應用程式的輸出,以決定性方式計算。 如果您的評估集包含包含問題答案的檔案清單,則擷取計量的子集也可以具決定性地計算。
- LLM 判斷型度量: 在這種方法中,個別 的 LLM 會作為判斷者 來評估 RAG 應用程式擷取和回應的品質。 某些 LLM 判定標準,例如答案正確性,會比較人類標記的標準答案與應用程式的輸出進行對比。 其他 LLM 評委,如有根據性,不需要人工標記的真實數據來評估他們的應用程式輸出。
重要
若要讓 LLM 模型有效發揮作用,必須經過調整,才能瞭解使用情境。 要做到這一點,需要仔細注意,瞭解法官在哪些方面可以運作良好,哪些方面效果不佳,然後調整法官以改善失敗案例的情況。
馬賽克 AI 代理程式評估 針對此頁面所討論的每個指標,提供即開即用的實作,使用託管的 LLM 評估模型。 代理程式評估的文件會討論如何實作這些計量和評委的詳細內容,並提供功能以資料調整評委,以提高其準確性。
計量概觀
以下是 Databricks 建議用來測量 RAG 應用程式品質、成本和延遲的計量摘要。 這些計量是在馬賽克 AI 代理程式評估中實作。
維度 | 度量名稱 | 問題 | 由...測量 | 需要基礎事實嗎? |
---|---|---|---|---|
檢索 | 塊相關性/精確度 | 擷取的區塊與要求相關百分比為何? | LLM 法官 | 否 |
檢索 | 文件召回 | 擷取的區塊中有多少百分比代表基準真實文件? | 具決定性 | 是的 |
檢索 | 情境適足性 | 擷取的區塊是否足夠產生預期的回應? | LLM 法官 | 是的 |
回應 | 正確性 | 整體而言,代理程式是否會產生正確的回應? | LLM 法官 | 是的 |
回應 | 查詢的相關性 | 回覆是否與要求相關? | LLM 法官 | 否 |
回應 | 基礎性 | 回覆是幻覺或以內容為根據嗎? | LLM 法官 | 否 |
回應 | 安全性 | 回覆中有有害內容嗎? | LLM 法官 | 否 |
成本 | 總計token數量、輸入token總數、輸出token總數 | LLM 世代的令牌總數為何? | 具決定性 | 否 |
延遲 | 延遲秒數 | 執行應用程式的延遲為何? | 具決定性 | 否 |
檢索指標的運作方式
擷取計量可協助您瞭解擷取器是否提供相關結果。 檢索評估標準是以精確度和召回率為基礎。
度量名稱 | 已回答問題 | 詳細資料 |
---|---|---|
精確度 | 擷取的區塊與要求相關百分比為何? | 精確度是擷取到的文件中實際與使用者要求相關的比例。 LLM 判斷可用來評估每個擷取區塊與使用者要求之間的相關性。 |
召回 | 擷取的區塊中有多少百分比代表基準真實文件? | 回想是擷取的區塊中所代表之基礎真相檔的比例。 這是結果完整性的量值。 |
精確度和召回率
以下是從優秀的維基百科文章中改編的精準度和召回率的簡介。
精確公式
精確度量值「我擷取的區塊中,這些專案 % 實際上與用戶的查詢相關? 計算精度不需要知道所有相關項目。
召回公式
想想「在我知道與使用者查詢相關的所有文件中,我擷取了 % 的什麼區塊?」 計算召回率需要您的真實標記以便包含所有相關項目。 項目可以是整份文件或文件的一部分。
在下列範例中,三個擷取結果中有兩個與使用者的查詢相關,因此精確度為0.66 (2/3)。 擷取的檔共包含四份相關文件中的兩個,因此召回率是0.5(2/4)。