分享方式:


評估效能:重要的計量

本文涵蓋測量 RAG 應用程式的效能,以取得擷取、回應和系統效能的品質。

擷取、回應和效能

使用評估集,您可以測量RAG應用程式在不同維度上的效能,包括:

  • 擷取品質: 擷取計量會評估RAG應用程式擷取相關支持數據的成功程度。 精確度和召回率是兩個主要擷取計量。
  • 回應品質: 回應品質計量會評估RAG應用程式回應使用者要求的方式。 例如,回應指標可以測量生成的答案是否準確,例如是否符合事實根據、根據擷取的內容,回應的基礎如何(例如,LLM 是否出現幻想情況?),或者回應有多安全(換句話說,即沒有毒性言論)。
  • 系統效能(成本和延遲): 計量會擷取RAG應用程式的整體成本和效能。 整體延遲和令牌耗用量是鏈結效能計量的範例。

收集回應和擷取計量非常重要。 儘管擷取到正確的上下文,RAG 應用程式的回應可能仍然不理想;另一方面,即使擷取出錯,它也能提供良好的回應。 只有藉由測量這兩個元件,我們才能準確地診斷和解決應用程式中的問題。

測量效能的方法

有兩個主要方法可測量這些計量的效能:

  • 決定性度量: 成本與延遲計量可以根據應用程式的輸出,以決定性方式計算。 如果您的評估集包含包含問題答案的檔案清單,則擷取計量的子集也可以具決定性地計算。
  • LLM 判斷型度量: 在這種方法中,個別 的 LLM 會作為判斷者 來評估 RAG 應用程式擷取和回應的品質。 某些 LLM 判定標準,例如答案正確性,會比較人類標記的標準答案與應用程式的輸出進行對比。 其他 LLM 評委,如有根據性,不需要人工標記的真實數據來評估他們的應用程式輸出。

重要

若要讓 LLM 模型有效發揮作用,必須經過調整,才能瞭解使用情境。 要做到這一點,需要仔細注意,瞭解法官在哪些方面可以運作良好,哪些方面效果不佳,然後調整法官以改善失敗案例的情況。

馬賽克 AI 代理程式評估 針對此頁面所討論的每個指標,提供即開即用的實作,使用託管的 LLM 評估模型。 代理程式評估的文件會討論如何實作這些計量和評委的詳細內容,並提供功能以資料調整評委,以提高其準確性。

計量概觀

以下是 Databricks 建議用來測量 RAG 應用程式品質、成本和延遲的計量摘要。 這些計量是在馬賽克 AI 代理程式評估中實作。

維度 度量名稱 問題 由...測量 需要基礎事實嗎?
檢索 塊相關性/精確度 擷取的區塊與要求相關百分比為何? LLM 法官
檢索 文件召回 擷取的區塊中有多少百分比代表基準真實文件? 具決定性 是的
檢索 情境適足性 擷取的區塊是否足夠產生預期的回應? LLM 法官 是的
回應 正確性 整體而言,代理程式是否會產生正確的回應? LLM 法官 是的
回應 查詢的相關性 回覆是否與要求相關? LLM 法官
回應 基礎性 回覆是幻覺或以內容為根據嗎? LLM 法官
回應 安全性 回覆中有有害內容嗎? LLM 法官
成本 總計token數量、輸入token總數、輸出token總數 LLM 世代的令牌總數為何? 具決定性
延遲 延遲秒數 執行應用程式的延遲為何? 具決定性

檢索指標的運作方式

擷取計量可協助您瞭解擷取器是否提供相關結果。 檢索評估標準是以精確度和召回率為基礎。

度量名稱 已回答問題 詳細資料
精確度 擷取的區塊與要求相關百分比為何? 精確度是擷取到的文件中實際與使用者要求相關的比例。 LLM 判斷可用來評估每個擷取區塊與使用者要求之間的相關性。
召回 擷取的區塊中有多少百分比代表基準真實文件? 回想是擷取的區塊中所代表之基礎真相檔的比例。 這是結果完整性的量值。

精確度和召回率

以下是從優秀的維基百科文章中改編的精準度和召回率的簡介。

精確公式

精確度量值「我擷取的區塊中,這些專案 % 實際上與用戶的查詢相關? 計算精度不需要知道所有相關項目。

計算精確度的公式。

召回公式

想想「在我知道與使用者查詢相關的所有文件中,我擷取了 % 的什麼區塊?」 計算召回率需要您的真實標記以便包含所有相關項目。 項目可以是整份文件或文件的一部分。

計算召回率的公式。

在下列範例中,三個擷取結果中有兩個與使用者的查詢相關,因此精確度為0.66 (2/3)。 擷取的檔共包含四份相關文件中的兩個,因此召回率是0.5(2/4)。

顯示精確度和召回量測的圖表。