共用方式為


評估與監控 AI 代理

MLflow 提供全面的代理程式評估和 LLM 評估功能,協助您測量、改善和維護 AI 應用程式的品質。 MLflow 支援 LLM、代理程式、RAG 系統或其他 GenAI 應用程式的整個開發生命週期,從測試到生產監控。

評估 AI 代理和 LLM 比傳統的 ML 模型評估更複雜。 這些應用程式涉及多個組件、多輪對話和細緻入微的品質標準。 定性和定量指標都需要專門的評估方法來準確評估績效。

MLflow 3 的評估與監控部分旨在幫助你反覆優化生成式 AI 應用程式的品質。 評估與監控建立在 MLflow 追蹤之上,該技術在開發、測試及生產階段提供即時追蹤記錄。 痕跡可在開發過程中使用內建或自訂的 LLM 評審與評分器進行評估生產監控則可重複使用相同的評審與評分器,確保整個應用程式生命週期的評估一致性。 領域專家可利用整合的 審核應用程式 收集人工回饋,產生評估數據以供後續迭代。

圖示顯示了這個高層次的迭代工作流程。

MLflow 3 評估和監視的概觀圖

特徵 / 功能 Description
10 分鐘示範:評估 GenAI 應用程式 運行一個快速的示範 Notebook,介紹如何使用簡單的 GenAI 應用程式進行 MLflow 評估。
教學課程:評估和改善 GenAI 應用程式 透過模擬 RAG 應用程式,逐步完成完整評估工作流程的教學。 利用評估資料集和大型語言模型評審來評估品質、找出問題,並反覆改進你的應用程式。
評分員和法學碩士評委 利用 內建的 LLM 評審自訂 LLM 評審自訂評分器,為你的應用程式定義品質指標。 開發和製作都使用相同的指標。
開發過程中的評估 在評估資料集上測試你的生成式人工智慧應用,使用評分工具和大型語言模型判定。 比較應用程式版本、追蹤改進並分享結果。
監控生產中的應用程式Beta 版 自動在你的生產生成式人工智慧應用程式追蹤中執行評分器與大型語言模型評審,持續監控品質。
收集人類回饋 使用 Review App 收集專家回饋並建立評估資料集。

備註

代理程式評估已與管理的 MLflow 3 進行整合。 代理程式評估 SDK 方法現已可透過 mlflow[databricks]>=3.1 SDK 使用。 請參閱 從代理程式評估移轉至 MLflow 3 ,以更新 MLflow 2 代理程式評估程式碼以使用 MLflow 3。