モザイク AI エージェント評価チュートリアルノートブック (MLflow 2)

2025-06-29

Von Bedeutung

このページでは、MLflow 2 でのエージェント評価バージョン 0.22 の使用方法について説明します。 Databricks では、エージェント評価 >1.0と統合された MLflow 3 を使用することをお勧めします。 MLflow 3 では、エージェント評価 API が mlflow パッケージの一部になりました。

このトピックの詳細については、「評価と監視」を参照してください。

次のノートブックは、Agent Evaluation の独自の LLM ジャッジ、カスタムメトリック、およびドメインエキスパートのラベルを使用して、Gen AI アプリを評価する方法を示しています。次の例を示します。

運用ログ (トレース) を評価データセットに読み込む方法。
評価を実行し、根本原因分析を行う方法。
品質の問題を自動的に検出するカスタムメトリックを作成する方法。
評価データセットにラベルを付けて進化させるために、中小企業の運用ログを送信する方法。

エージェントを実稼働前に準備するには、 Mosaic AI エージェントのデモノートブックを参照してください。一般的な情報については、「モザイク AI エージェントの評価 (MLflow 2)」を参照してください。

Agent Evaluation のカスタムメトリック、ガイドライン、ドメインエキスパートラベルノートブック

ノートブックを入手

次の方法で共有

モザイク AI エージェント評価チュートリアル ノートブック (MLflow 2)

Agent Evaluation のカスタム メトリック、ガイドライン、ドメイン エキスパート ラベル ノートブック

フィードバック

その他のリソース

モザイク AI エージェント評価チュートリアルノートブック (MLflow 2)

Agent Evaluation のカスタムメトリック、ガイドライン、ドメインエキスパートラベルノートブック