AI アプリケーションのライフサイクルには、AI システムが正確で関連性の高い信頼性の高い出力を確実に提供するために、堅牢な評価フレームワークが必要です。 厳密な評価がないと、AI システムは、不正確、一貫性がない、根拠が不十分、または有害な可能性のある応答を生成するリスクがあります。 可観測性により、チームは、モデルの選択から運用監視まで、開発ライフサイクル全体を通じて AI 出力の品質と安全性の両方を測定および改善できます。
可観測性とは
AI 可観測性とは、AI システムのライフサイクル全体を通じて監視、理解、トラブルシューティングを行う機能を指します。 自動化された品質ゲートをトレース、評価、CI/CD パイプラインに統合し、評価メトリック、ログ、トレース、モデル出力などの信号を収集して、パフォーマンス、品質、安全性、運用の正常性を可視化できます。
核心的可観測性機能
Microsoft Foundry には、AI アプリケーション ライフサイクル全体で包括的な可観測性を実現するために連携する 3 つのコア機能が用意されています。
Evaluation
エバリュエーターは、開発全体にわたる AI 応答の品質、安全性、信頼性を測定します。 Microsoft Foundry には、汎用品質メトリック (一貫性、流暢性)、RAG 固有のメトリック (接地性、関連性)、安全性とセキュリティ (ヘイト/不公平性、暴力、保護された素材)、エージェント固有のメトリック (ツール呼び出しの精度、タスク完了) などの組み込みのエバリュエーターが用意されています。 また、ドメイン固有の要件に合わせてカスタマイズされたカスタム エバリュエーターを構築することもできます。
組み込みのエバリュエーターの完全な一覧については、 組み込みのエバリュエーターリファレンスを参照してください。
モニタリング
運用環境の監視により、デプロイされた AI アプリケーションは、実際の状況で品質とパフォーマンスを維持できます。 Azure Monitor Application Insights と統合された Microsoft Foundry は、運用メトリック、トークンの消費量、待機時間、エラー率、品質スコアを追跡するリアルタイムダッシュボードを提供します。 出力が品質しきい値に失敗したり、有害なコンテンツを生成したりしたときにアラートを設定して、迅速な問題の解決を可能にすることができます。
運用監視の設定の詳細については、「 エージェントの監視ダッシュボード」を参照してください。
Tracing
分散トレースは、AI アプリケーションの実行フローをキャプチャし、LLM 呼び出し、ツール呼び出し、エージェントの決定、サービス間の依存関係を可視化します。 OpenTelemetry 標準に基づいて構築され、Azure Monitor Application Insights と統合されたトレースにより、複雑なエージェントの動作のデバッグ、パフォーマンスのボトルネックの特定、複数ステップの推論チェーンの理解が可能になります。 Microsoft Foundry では、LangChain、LangGraph、OpenAI Agents SDK、Microsoft Agent Framework などの一般的なフレームワークのトレースがサポートされています。
トレースの実装に関するガイダンスについては、「 トレース エージェントの概要」を参照してください。
エバリュエーターとは
エバリュエーターは、開発ライフサイクル全体にわたる AI 応答の品質、安全性、信頼性を測定する特殊なツールです。
組み込みのエバリュエーターの完全な一覧については、 組み込みのエバリュエーターリファレンスを参照してください。
エバリュエーターは、信頼性、安全性、有効性を確保するために、AI ライフサイクルの各段階に統合されます。
AI アプリケーションライフサイクル評価の 3 つの段階
基本モデルの選択
異なるモデル間で品質、タスクのパフォーマンス、倫理的な考慮事項、および安全プロファイルを比較することで、適切な基盤モデルを選択します。
利用可能なツール: Microsoft Foundry benchmark を使用して、公開データセットまたは独自のデータでモデルを比較し、Azure AI Evaluation SDK を使用して特定のモデルエンドポイントをテストできます。
運用前の評価
デプロイの前に、徹底的なテストにより、AI エージェントまたはアプリケーションの運用準備が整っていることを確認します。 このステージでは、評価データセットを使用してパフォーマンスを検証し、エッジ ケースを識別し、堅牢性を評価し、タスクの準拠性、接地性、関連性、安全性などの主要なメトリックを測定します。 複数ターンの会話、ツールの呼び出し、状態管理を使用して運用対応エージェントを構築する方法については、 Foundry Agent Service を参照してください。
評価ツールとアプローチ:
独自のデータを取り込む: 品質、安全性、または カスタム エバリュエーターを使用して、独自のデータを使用して AI アプリケーションを評価します。 Foundry ポータル評価ウィザードまたは Foundry SDK を使用し、Foundry ポータルで結果を表示します。
AI red teaming agent: AI red teaming agent はMicrosoftの PyRIT フレームワークを使用して複雑な攻撃をシミュレートし、デプロイ前に安全性とセキュリティの脆弱性を特定します。 人間参加型プロセスでの使用に最適です。
運用後の監視
デプロイ後、 継続的な監視 により、AI アプリケーションは実際の条件下で品質を維持できます。
- 運用メトリック: 主要な AI エージェントの運用メトリックの定期的な測定
- 継続的な評価: サンプリングレートでの生産トラフィックの品質と安全性の評価
- スケジュールされた評価: テスト データセットを使用してシステムドリフトを検出するスケジュールされた品質と安全性の評価
- スケジュールされたレッドチーミング: 安全性とセキュリティの脆弱性を調査するために計画的に実施される対抗テスト
- Azure Monitor アラート: 出力が品質しきい値に失敗した場合や有害なコンテンツが生成された場合の通知
Azure Monitor Application Insights と統合された Foundry Observability ダッシュボードは、パフォーマンス、安全性、品質のメトリックに関するリアルタイムの分析情報を提供し、迅速な問題解決とユーザー信頼の維持を可能にします。
評価クイック リファレンス
| 目的 | プロセス | パラメーター、ガイダンス、およびサンプル |
|---|---|---|
| トレースを設定する方法 | 分散トレースを構成する |
トレースの概要 Agents SDK を使用したトレース |
| 何について評価しますか? | 関連するエバリュエータを特定または構築する |
組み込みのエバリュエーター カスタム エバリュエーター Python SDK サンプル C# SDK サンプル |
| どのようなデータを使用する必要がありますか? | 関連するデータセットをアップロードまたは生成する | データセットを選択または作成する |
| 評価を実行する方法 | 評価の実行 |
エージェント評価の実施 リモート クラウドの実行 |
| 私のモデル/AI アプリケーションはどのようにパフォーマンスしましたか? | 分析結果 |
評価結果を表示する クラスター分析 |
| どのように改善できますか? | 結果の分析とエージェントの最適化 | クラスター分析を使用して評価エラーを 分析します。 エージェントを最適化し、 再評価します。 評価結果を確認します。 |
リージョンのサポート、レート制限、仮想ネットワークのサポート
AI 支援エバリュエーターをサポートするリージョン、評価実行に適用されるレート制限、およびネットワーク分離用の仮想ネットワーク サポートを構成する方法については、 リージョンのサポート、レート制限、評価のための仮想ネットワークのサポートに関するページを参照してください。
Pricing
エージェントプレイグラウンドでのリスクと安全性の評価や評価などの監視機能は、Azure価格ページに記載されている使用量に基づいて課金されます。
Important
エージェントプレイグラウンドの評価は、すべての Foundry プロジェクトに対して既定で有効になり、従量課金ベースの課金に含まれます。 プレイグラウンドの評価をオフにするには、エージェントプレイグラウンドの右上にあるメトリックを選択し、すべてのエバリュエーターの選択を解除します。