次の方法で共有


生成 AI の可観測性

Important

この記事で "(プレビュー)" と付記されている項目は、現在、パブリック プレビュー段階です。 このプレビューはサービス レベル アグリーメントなしで提供されており、運用環境ではお勧めしません。 特定の機能はサポート対象ではなく、機能が制限されることがあります。 詳細については、「 Microsoft Azure プレビューの追加使用条件」を参照してください。

AI アプリケーションのライフサイクルには、AI システムが正確で関連性の高い信頼性の高い出力を確実に提供するために、堅牢な評価フレームワークが必要です。 厳密な評価がないと、AI システムは、不正確、一貫性がない、根拠が不十分、または有害な可能性のある応答を生成するリスクがあります。 可観測性により、チームは、モデルの選択から運用監視まで、開発ライフサイクル全体を通じて AI 出力の品質と安全性の両方を測定および改善できます。

Microsoft Foundry SDK for evaluation および Foundry ポータルはパブリック プレビュー段階ですが、API はモデルとデータセットの評価で一般提供されています (エージェントの評価はパブリック プレビューのままです)。 この記事でマークされているエバリュエーター (プレビュー) は、現在、あらゆる場所でパブリック プレビュー段階にあります。

可観測性とは

AI 可観測性とは、AI システムのライフサイクル全体を通じて監視、理解、トラブルシューティングを行う機能を指します。 Teams は、自動化された品質ゲートを追跡、評価、CI/CD パイプラインに統合し、評価メトリック、ログ、トレース、モデル出力などのシグナルを収集して、パフォーマンス、品質、安全性、運用の正常性を可視化できます。

核心的可観測性機能

Microsoft Foundry には、AI アプリケーション ライフサイクル全体にわたって包括的な可観測性を実現するために連携する 3 つのコア機能が用意されています。

Evaluation

エバリュエーターは、開発全体にわたる AI 応答の品質、安全性、信頼性を測定します。 Microsoft Foundry には、汎用品質メトリック (一貫性、流暢性)、RAG 固有のメトリック (接地性、関連性)、安全性とセキュリティ (ヘイト/不公平性、暴力、保護された素材)、エージェント固有のメトリック (ツール呼び出しの精度、タスク完了) の組み込みエバリュエーターが用意されています。 Teams では、ドメイン固有の要件に合わせて調整されたカスタム エバリュエーターを構築することもできます。

組み込みのエバリュエーターの完全な一覧については、 組み込みのエバリュエーターリファレンスを参照してください

モニタリング

運用環境の監視により、デプロイされた AI アプリケーションは、実際の状況で品質とパフォーマンスを維持できます。 Azure Monitor Application Insights と統合された Microsoft Foundry は、運用メトリック、トークン使用量、待機時間、エラー率、品質スコアを追跡するリアルタイムダッシュボードを提供します。 Teams は、出力が品質しきい値に失敗した場合や有害なコンテンツを生成した場合にアラートを設定し、迅速な問題解決を可能にします。

運用監視の設定の詳細については、「 エージェントの監視ダッシュボード」を参照してください。

追跡

分散トレースは、AI アプリケーションの実行フローをキャプチャし、LLM 呼び出し、ツール呼び出し、エージェントの決定、サービス間の依存関係を可視化します。 OpenTelemetry 標準に基づいて構築され、Application Insights と統合されたトレースにより、複雑なエージェントの動作のデバッグ、パフォーマンスのボトルネックの特定、マルチステップ推論チェーンの理解が可能になります。 Microsoft Foundry では、LangChain、セマンティック カーネル、OpenAI Agents SDK などの一般的なフレームワークのトレースがサポートされています。

トレースの実装に関するガイダンスについては、「 アプリケーションのトレース 」および 「エージェント SDK を使用したトレース」を参照してください。

エバリュエーターとは

エバリュエーターは、開発ライフサイクル全体にわたる AI 応答の品質、安全性、信頼性を測定する特殊なツールです。

組み込みのエバリュエーターの完全な一覧については、 組み込みのエバリュエーターリファレンスを参照してください

エバリュエーターは、信頼性、安全性、有効性を確保するために、AI ライフサイクルの各段階に統合されます。

AI アプリケーションのライフサイクル、モデルの選択、AI アプリケーションの構築、運用化を示す図。

AI アプリケーションライフサイクル評価の 3 つの段階

基本モデルの選択

異なるモデル間で品質、タスクのパフォーマンス、倫理的な考慮事項、および安全プロファイルを比較することで、適切な基盤モデルを選択します。

使用可能なツール: パブリック データセットまたは独自のデータのモデルを比較するための Microsoft Foundry ベンチマーク と、 特定のモデル エンドポイントをテストするための Azure AI Evaluation SDK。

運用前の評価

デプロイの前に、徹底的なテストにより、AI エージェントまたはアプリケーションの運用準備が整っていることを確認します。 このステージでは、評価データセットを使用してパフォーマンスを検証し、エッジ ケースを識別し、堅牢性を評価し、タスクの準拠性、接地性、関連性、安全性などの主要なメトリックを測定します。 複数ターンの会話、ツールの呼び出し、状態管理を使用して運用対応エージェントを構築する方法については、 Foundry Agent Service を参照してください。

6 つの手順を使用したモデルとアプリケーションの実稼働前評価の図。

評価ツールとアプローチ:

運用後の監視

デプロイ後、 継続的な監視 により、AI アプリケーションは実際の条件下で品質を維持できます。

  • 運用メトリック: 主要な AI エージェントの運用メトリックの定期的な測定
  • 継続的な評価: サンプリングレートでの生産トラフィックの品質と安全性の評価
  • スケジュールされた評価: テスト データセットを使用してシステムドリフトを検出するスケジュールされた品質と安全性の評価
  • スケジュールされたレッドチーミング: 安全性とセキュリティの脆弱性を調査するための予定された敵対的テスト
  • Azure Monitor アラート: 出力が品質しきい値に失敗した場合や有害なコンテンツが生成された場合の通知

Azure Monitor Application Insights と統合された Foundry Observability ダッシュボードは、パフォーマンス、安全性、品質のメトリックに関するリアルタイムの分析情報を提供し、迅速な問題の解決とユーザー信頼の維持を可能にします。

評価のクイック ガイド

目的 プロセス パラメーター、ガイダンス、およびサンプル
トレースを設定する方法 分散トレースを構成する トレースの概要

Agents SDK を使用したトレース
何について評価しますか? 関連するエバリュエータを特定または構築する 組み込みのエバリュエーター

カスタム エバリュエーター

Python SDK のサンプル

C# SDK のサンプル
どのようなデータを使用する必要がありますか? 関連するデータセットをアップロードまたは生成する データセットを選択または作成する
評価を実行する方法 評価の実行 エージェント評価の実施

リモート クラウドの実行
私のモデル/AI アプリケーションはどのようにパフォーマンスしましたか? 分析結果 評価結果を表示する

クラスター分析
どのように改善できますか? 結果の分析とエージェントの最適化 クラスター分析を使用して評価エラーを 分析します

エージェントを最適化し、 再評価します。

評価結果を確認します。

リージョンのサポート、レート制限、仮想ネットワークのサポート

AI 支援エバリュエーターをサポートするリージョン、評価実行に適用されるレート制限、およびネットワーク分離用の仮想ネットワーク サポートを構成する方法については、 リージョンのサポート、レート制限、評価のための仮想ネットワークのサポートに関するページを参照してください。

Pricing

エージェントプレイグラウンドのリスクや安全性の評価や評価などの監視機能は、 Azure の価格ページに記載されている使用量に基づいて課金されます。

Important

エージェントプレイグラウンドの評価は、すべての Foundry プロジェクトに対して既定で有効になり、従量課金ベースの課金に含まれます。 プレイグラウンドの評価をオフにするには、エージェントプレイグラウンドの右上にあるメトリックを選択し、すべてのエバリュエーターの選択を解除します。

メトリックが選択されたエージェントプレイグラウンドを示す Foundry ポータルのスクリーンショット。