Azure DevOps で評価を実行する方法 (プレビュー)

Important

この記事で "(プレビュー)" と付記されている項目は、現在、パブリックプレビュー段階です。このプレビューはサービスレベルアグリーメントなしで提供されており、運用環境ではお勧めしません。特定の機能はサポート対象ではなく、機能が制限されることがあります。詳細については、「 Microsoft Azure プレビューの追加使用条件」を参照してください。

この Azure DevOps 拡張機能を使用すると、CI/CD パイプライン内で Microsoft Foundry Agents をオフラインで評価できます。オフライン評価プロセスが効率化されるため、運用環境に更新プログラムをリリースする前に潜在的な問題を特定し、改善することができます。

この拡張機能を使用するには、テストクエリとエバリュエーターの一覧を含むデータセットを提供します。このタスクは、クエリを使用してエージェントを呼び出し、それらを評価して、概要レポートを生成します。

Features

エージェント評価: CI/CD ワークフローで Microsoft Foundry エージェントの実稼働前評価を自動化します。
エバリュエーター: Foundryのエバリュエーターカタログからエバリュエーターを使用します。
統計分析: 評価結果には信頼区間が含まれており、統計的有意性をテストして、ランダムな変動による変化ではなく意味があるかどうかを判断します。

エバリュエーターのカテゴリ

エージェントエバリュエーター: エージェントワークフローのプロセスとシステムレベルのエバリュエーター。
RAG エバリュエーター: RAG システムでエンドツーエンドのプロセスと取得プロセスを評価します。
リスクと安全の評価者: 対応に関するリスクと安全上の懸念を評価します。
汎用エバリュエーター: 一貫性や流暢性などの品質評価。
OpenAI ベースの採点者: 文字列チェック、テキストの類似性、スコア/ラベルモデルを含む OpenAI 採点者を使用します。
カスタムエバリュエーター: Python コードまたは LLM の判断パターンを使用して、独自のカスタムエバリュエーターを定義します。

[前提条件]

プロジェクト。詳細については、「プロジェクトの作成」を参照してください。
AI エージェント AI 評価拡張機能をインストールします。

入力

パラメーター

氏名	必須ですか？	[説明]
azure-ai-project-endpoint	イエス	Microsoft Foundry プロジェクトのエンドポイント。
デプロイメント名	イエス	評価に使用する Azure AI モデルデプロイの名前。
data-path	イエス	評価用のエバリュエーターと入力クエリを含むデータファイルへのパス。
エージェントID	イエス	形式 `agent-name:version` で評価する 1 つ以上のエージェントの ID ( `my-agent:1` や `my-agent:1,my-agent:2`など)。複数のエージェントがコンマで区切られ、統計的なテスト結果と比較されます。
ベースライン・エージェント・ID	いいえ	複数のエージェントを評価するときに比較するベースラインエージェントの ID。指定しない場合は、最初のエージェントが使用されます。

データファイル

入力データファイルは、次の構造の JSON ファイルである必要があります。

フィールド	タイプ	必須ですか？	[説明]
名前	文字列	イエス	評価データセットの名前。
エバリュエータ	string[]	イエス	使用するエバリュエーター名の一覧。 Foundry ポータルのプロジェクトのエバリュエーターカタログで使用可能なエバリュエーターの一覧を確認します。Build > Evaluations > Evaluator catalog.
データ	object[]	イエス	`query`とオプションのエバリュエーターフィールド (`ground_truth`、`context` など) を含む入力オブジェクトの配列。エバリュエーターに自動マップされます。 `data_mapping` を使用してオーバーライドします。
オープンAIグレーダーズ	オブジェクト	いいえ	OpenAI ベースのエバリュエーター (label_model、score_model、string_checkなど) の構成。
評価者パラメータ	オブジェクト	いいえ	エバリュエーター固有の初期化パラメーター (しきい値、カスタム設定など)。
data_mapping	オブジェクト	いいえ	ユーザー設定のデータフィールドマッピング (指定されていない場合はデータから自動生成されます)。

基本的なサンプルデータファイル


{
  "name": "test-data",
  "evaluators": [
    "builtin.fluency",
    "builtin.task_adherence",
    "builtin.violence",
  ],
  "data": [
    {
      "query": "Tell me about Tokyo disneyland"
    },
    {
      "query": "How do I install Python?"
    }
  ]
}

その他のサンプルデータファイル

Filename	[説明]
dataset-tiny.json	テストクエリとエバリュエーターの数が少ないデータセット。
dataset.json	サポートされているすべてのエバリュエーター型と、信頼区間の計算と統計テストのための十分なクエリを含むデータセット。
dataset-builtin-evaluators.json	組み込みの Foundry エバリュエーターの例 (一貫性、流暢さ、関連性、接地性、メトリックなど)。
dataset-openai-graders.json	OpenAI ベースの採点者の例 (ラベルモデル、スコアモデル、テキストの類似性、文字列チェック)。
dataset-custom-evaluators.json	エバリュエーターパラメーターを用いたカスタムエバリュエーターの例。
dataset-data-mapping.json	自動フィールドマッピングをカスタムデータ列名でオーバーライドする方法を示すデータマッピングの例。

サンプルパイプライン

この Azure DevOps 拡張機能を使用するには、タスクを Azure Pipeline に追加し、Microsoft Foundry プロジェクトにアクセスするための認証を構成します。

steps:
  - task: AIAgentEvaluation@2
    displayName: "Evaluate AI Agents"
    inputs:
      azure-ai-project-endpoint: "$(AzureAIProjectEndpoint)"
      deployment-name: "$(DeploymentName)"
      data-path: "$(System.DefaultWorkingDirectory)/path/to/your/dataset.json"
      agent-ids: "$(AgentIds)"

評価結果と出力

評価結果は、Azure DevOps パイプラインの概要に表示され、複数のエージェントが評価される際に、詳細なメトリックと比較が示されます。

評価結果は、Azure DevOps パイプラインで実行される各 AI 評価タスクの概要セクションに出力されます。

次のスクリーンショットは、2 つのエージェントを比較するためのサンプルレポートです。

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-02-28

次の方法で共有

Azure DevOps で評価を実行する方法 (プレビュー)

Features

エバリュエーターのカテゴリ

[前提条件]

入力

パラメーター

データ ファイル

基本的なサンプル データ ファイル

その他のサンプル データ ファイル

サンプル パイプライン