Von Bedeutung
このページでは、MLflow 2 でのエージェント評価バージョン 0.22
の使用方法について説明します。 Databricks では、エージェント評価 >1.0
と統合された MLflow 3 を使用することをお勧めします。 MLflow 3 では、エージェント評価 API が mlflow
パッケージの一部になりました。
このトピックの詳細については、「 評価と監視」を参照してください。
次のノートブックは、Agent Evaluation の独自の LLM ジャッジ、カスタム メトリック、およびドメイン エキスパートのラベルを使用して、Gen AI アプリを評価する方法を示しています。 次の例を示します。
- 運用ログ (トレース) を評価データセットに読み込む方法。
- 評価を実行し、根本原因分析を行う方法。
- 品質の問題を自動的に検出するカスタム メトリックを作成する方法。
- 評価データセットにラベルを付けて進化させるために、中小企業の運用ログを送信する方法。
エージェントを実稼働前に準備するには、 Mosaic AI エージェントのデモ ノートブックを参照してください。 一般的な情報については、「 モザイク AI エージェントの評価 (MLflow 2)」を参照してください。