Microsoft Foundry SDK を使用してクラウドで評価を実行する

この記事では、テストデータセットでデプロイ前テストのためにクラウドで評価を実行する方法について説明します。

ほとんどのシナリオでクラウド評価を使用します。特に、大規模なテスト、継続的インテグレーションと継続的デリバリー (CI/CD) パイプラインへの評価の統合、またはデプロイ前テストの実行を行う場合。クラウドで評価を実行すると、ローカルコンピューティングインフラストラクチャを管理する必要がなくなり、大規模な自動テストワークフローがサポートされます。評価を定期的に実行するようにスケジュールしたり、運用環境でサンプリングされたエージェントの応答を自動的に評価するように継続的な評価を設定したりすることもできます。

クラウド評価結果は Foundry プロジェクトに格納されます。ポータルで結果を確認したり、SDK を使用して結果を取得したり、接続されている場合は Application Insights にルーティングしたりできます。クラウド評価では、Microsoftキュレーションされたすべての組み込みエバリュエーターと独自のcustom エバリュエーターがサポートされます。エバリュエーターは、同じプロジェクトスコープのロールベースのアクセス制御を使用してエバリュエーターカタログで管理されます。

ヒント

実行可能な完全な例については、GitHubの Python SDK 評価サンプルを参照してください。

クラウド評価のしくみ

クラウド評価には、次の 3 つの手順があります。

評価対象を定義します。 データシェイプ ( data_source_config) と、それをスコア付けするエバリュエーター (テスト基準) について説明します。
評価を作成します。 openai_client.evals.create()を使用して定義を送信します。
それを実行し、結果を読み取る。 openai_client.evals.runs.create()を使用して実行を開始し、完了するまでポーリングし、スコア付けされた結果を読み取ります。結果スキーマの結果の取得を参照してください。

このセクションの残りの部分では、手順 1 の入力について説明します。シナリオを選択してから、エバリュエーターを選択します。

出発点を選択する

既存のデータセット

クエリと応答がすでにファイルに保存されている場合（またはクエリに正解データが付いている場合）で、Foundry にそれらをスコアリングさせるだけでよいときは、この方法を使用します。 JSONL では、ターンレベルの行と会話レベルの入力の両方がサポートされます。CSV はターンレベルのみです。

シナリオ	使用するタイミング	データソースの種類
ターンレベルのデータセット評価	各行は 1 つの `query`/`response` ペアで、必要に応じて `context` または `ground_truth`。	`jsonl` または `csv`
会話レベルのデータセット評価 (プレビュー)	各行は、 `messages` 配列として表される会話です。	`jsonl`

Foundry または Application Insights のデータ

エージェントが既に実行されていて、実際に何が起こったかを評価する場合は、このパスを使用します。データを移動する代わりに、Foundry 応答 ID や Application Insights のトレース ID または会話 ID を使って、データがすでに存在する場所を Foundry から参照します。

シナリオ	使用するタイミング	データソースの種類
エージェントの応答の評価	あなたのエージェントは Foundry で実行され、スコア付け対象の応答 ID があります。	`azure_ai_responses`
ターンレベルのトレース評価 (プレビュー)	エージェントが Application Insights に OpenTelemetry トレースを出力します。これには、LangChain などの Foundry 以外のフレームワークや、カスタムの OpenTelemetry インストルメント化されたエージェントが含まれます。各トレースは個別にスコア付けされます。	`azure_ai_trace_data_source_preview`
会話レベルのトレース評価 (プレビュー)	同じトレースソースですが、会話 ID またはサンプリングを使用したエージェントフィルターによって、完全な会話をスコア付けします。	`azure_ai_trace_data_source_preview`

応答のない入力

入力はあるが応答がない場合は、このパスを使用します。 Foundry は、評価時にモデルまたはエージェントターゲットに対して応答を生成し、スコアを付けます。入力が クエリ (個々のターンとして送信) か シナリオの説明 (会話レベルの対話を促進するために使用) かに基づいて行を選択します。

シナリオ	使用するタイミング	データソース/ターゲット
モデル対象の補完	クエリがあり、モデルデプロイからの応答を評価する必要がある。	`azure_ai_target_completions` → `azure_ai_model`
エージェントターゲットの完了	クエリがあり、Foundry エージェントからの応答を評価する必要がある。	`azure_ai_target_completions` → `azure_ai_agent`
会話シミュレーション (プレビュー)	シナリオの説明がある (クエリなし)。Foundry は、エージェントとの会話レベルの対話を実行するユーザーをシミュレートします。	`azure_ai_target_completions` → `azure_ai_agent`

データがまだない

新しいモデルまたはエージェントを構築していて、入力を収集していない場合は、このパスを使用します。 Foundry は、テストデータをゼロから生成します。広範な品質カバレッジを得るための合成クエリを選択するか、安全性テストを求める敵対的なプロンプトを選択します。

シナリオ	使用するタイミング	データソース/ターゲット
合成データの評価 (プレビュー)	手作業で記述する場合を上回る、質の高い網羅性が必要です。 Foundry はテストクエリを生成し、ターゲットに送信し、応答をスコア付けします。	`azure_ai_synthetic_data_gen_preview` → `azure_ai_model` または `azure_ai_agent`
赤いチームの評価	敵対的なテストを自動化する - Foundry は脱獄と有害なコンテンツのプロンプトを生成し、ターゲットの応答方法をスコア付けします。	`azure_ai_red_team` → `azure_ai_model` または `azure_ai_agent`

エバリュエーターの選択

各シナリオでは、列マッピングを使用して、エバリュエーターをデータ内 のフィールドにバインドします。使用可能なフィールドは、データソースによって異なります。データセットのシナリオではカスタム項目フィールドが公開されますが、ターゲット生成のシナリオでは、サンプルスキーマを介してモデルまたはエージェントの応答も公開されます。この記事で後述するシナリオごとのサブセクションでは、各ケースの列マッピングを示します。

使用可能なエバリュエーターの概要と選択方法については、組み込みのエバリュエーターとカスタムエバリュエーターに関するページを参照してください。

前提条件

ファウンドリー・プロジェクト。
チャットの完了をサポートする GPT モデルを使用した Azure OpenAI デプロイ (たとえば、gpt-5-mini)。
Foundry プロジェクトのFoundry Userロール。

重要

Foundry RBAC ロールの名前が最近変更されました。 Foundry User, Foundry Owner, Foundry Account Owner、および Foundry Project Manager は、以前は、AZURE AI ユーザー、Azure AI 所有者、Azure AI アカウント所有者、および AZURE AI Project Manager という名前でした。名前の変更がロールアウトされている間、以前の名前が表示される場合があります。ロール ID とコアアクセス許可は、名前の変更によって変更されません。
必要に応じて、独自のストレージアカウントを使用して評価を実行できます。

メモ

一部の評価機能には、地域的な制限があります。詳細については、サポートされているリージョンを参照してください。

概要

SDK をインストールし、クライアントを設定します。

pip install "azure-ai-projects>=2.2.0"

import os
from azure.identity import DefaultAzureCredential 
from azure.ai.projects import AIProjectClient 
from openai.types.eval_create_params import DataSourceConfigCustom
from openai.types.evals.create_eval_jsonl_run_data_source_param import (
    CreateEvalJSONLRunDataSourceParam,
    SourceFileContent,
    SourceFileContentContent,
    SourceFileID,
)

# Azure AI Project endpoint
# Example: https://<account_name>.services.ai.azure.com/api/projects/<project_name>
endpoint = os.environ["AZURE_AI_PROJECT_ENDPOINT"]

# Model deployment name (for AI-assisted evaluators)
# Example: gpt-5-mini
model_deployment_name = os.environ.get("AZURE_AI_MODEL_DEPLOYMENT_NAME", "")

# Dataset details (optional, for reusing existing datasets)
dataset_name = os.environ.get("DATASET_NAME", "")
dataset_version = os.environ.get("DATASET_VERSION", "1")

# Create the project client
project_client = AIProjectClient( 
    endpoint=endpoint, 
    credential=DefaultAzureCredential(), 
)

# Get the OpenAI client for evaluation API
openai_client = project_client.get_openai_client()

入力データを準備する

ほとんどの評価シナリオでは、入力データが必要です。データは、次の 2 つの方法で提供できます。

データセットをアップロードする (推奨)

JSONL または CSV ファイルをアップロードして、Foundry プロジェクトにバージョン管理されたデータセットを作成します。データセットでは、複数の評価実行でのバージョン管理と再利用がサポートされています。このアプローチは、運用テストと CI/CD ワークフローに使用します。

エバリュエーターが必要とするフィールドを含む JSON オブジェクトを 1 行に 1 つ含む JSONL ファイルを準備します。

{"query": "What is machine learning?", "response": "Machine learning is a subset of AI.", "ground_truth": "Machine learning is a type of AI that learns from data."}
{"query": "Explain neural networks.", "response": "Neural networks are computing systems inspired by biological neural networks.", "ground_truth": "Neural networks are a set of algorithms modeled after the human brain."}

または、エバリュエーターフィールドに一致する列ヘッダーを含む CSV ファイルを準備します。

query,response,ground_truth
What is machine learning?,Machine learning is a subset of AI.,Machine learning is a type of AI that learns from data.
Explain neural networks.,Neural networks are computing systems inspired by biological neural networks.,Neural networks are a set of algorithms modeled after the human brain.

# Upload a local JSONL file. Skip this step if you already have a dataset registered.
data_id = project_client.datasets.upload_file(
    name=dataset_name,
    version=dataset_version,
    file_path="./evaluate_test_data.jsonl",
).id

データをインラインで提供する

小規模なテストセットを使用して迅速に実験を行う場合は、 file_contentを使用して評価要求に直接データを提供します。

source = SourceFileContent(
    type="file_content",
    content=[
        SourceFileContentContent(
            item={
                "query": "How can I safely de-escalate a tense situation?",
                "ground_truth": "Encourage calm communication, seek help if needed, and avoid harm.",
            }
        ),
        SourceFileContentContent(
            item={
                "query": "What is the largest city in France?",
                "ground_truth": "Paris",
            }
        ),
    ],
)

実行の作成時にデータリソース構成で source フィールドとして "source" を渡します。以下のシナリオセクションでは、既定で file_id を使用します。

データセットの評価

jsonl データソースの種類を使用して、JSONL ファイルで事前に計算された応答を評価します。このシナリオは、モデルの出力が既にあり、その品質を評価する場合に便利です。

ヒント

開始する前に、「はじめに」と「入力データを準備する」を完了してください。

データスキーマとエバリュエーターを定義する

JSONL フィールドに一致するスキーマを指定し、実行するエバリュエーター (テスト条件) を選択します。 data_mapping パラメーターを使用して、入力データのフィールドを、{{item.field}}構文を使用してエバリュエーターパラメーターに接続します。各エバリュエーターに必要な入力フィールドを含む data_mapping を常に含めます。フィールド名は JSONL ファイル内の名前と一致する必要があります。たとえば、データに"question"ではなく"query"がある場合は、マッピングで"{{item.question}}"を使用します。エバリュエーターごとに必要なパラメーターについては、組み込みのエバリュエーターを参照してください。

Python
cURL

data_source_config = DataSourceConfigCustom(
    type="custom",
    item_schema={
        "type": "object",
        "properties": {
            "query": {"type": "string"},
            "response": {"type": "string"},
            "ground_truth": {"type": "string"},
        },
        "required": ["query", "response", "ground_truth"],
    },
)

testing_criteria = [
    {
        "type": "azure_ai_evaluator",
        "name": "coherence",
        "evaluator_name": "builtin.coherence",
        "initialization_parameters": {
            "model": model_deployment_name
        },
        "data_mapping": {
            "query": "{{item.query}}",
            "response": "{{item.response}}",
        },
    },
    {
        "type": "azure_ai_evaluator",
        "name": "violence",
        "evaluator_name": "builtin.violence",
        "initialization_parameters": {
            "model": model_deployment_name
        },
        "data_mapping": {
            "query": "{{item.query}}",
            "response": "{{item.response}}",
        },
    },
    {
        "type": "azure_ai_evaluator",
        "name": "f1",
        "evaluator_name": "builtin.f1_score",
        "data_mapping": {
            "response": "{{item.response}}",
            "ground_truth": "{{item.ground_truth}}",
        },
    },
]

curl --request POST \
  --url "https://${ACCOUNT}.services.ai.azure.com/api/projects/${PROJECT}/openai/v1/evals" \
  --header "Authorization: Bearer ${TOKEN}" \
  --header "Content-Type: application/json" \
  --data '{
    "name": "dataset-evaluation",
    "data_source_config": {
      "type": "custom",
      "item_schema": {
        "type": "object",
        "properties": {
          "query": { "type": "string" },
          "response": { "type": "string" },
          "ground_truth": { "type": "string" }
        },
        "required": ["query", "response", "ground_truth"]
      }
    },
    "testing_criteria": [
      {
        "type": "azure_ai_evaluator",
        "name": "coherence",
        "evaluator_name": "builtin.coherence",
        "initialization_parameters": {"model": "gpt-5-mini"},
        "data_mapping": {
          "query": "{{item.query}}",
          "response": "{{item.response}}"
        }
      },
      {
        "type": "azure_ai_evaluator",
        "name": "violence",
        "evaluator_name": "builtin.violence",
        "initialization_parameters": {"model": "gpt-5-mini"},
        "data_mapping": {
          "query": "{{item.query}}",
          "response": "{{item.response}}"
        }
      },
      {
        "type": "azure_ai_evaluator",
        "name": "f1",
        "evaluator_name": "builtin.f1_score",
        "data_mapping": {
          "response": "{{item.response}}",
          "ground_truth": "{{item.ground_truth}}"
        }
      }
    ]
  }'

評価を作成して実行する

評価を作成し、アップロードしたデータセットに対して実行を開始します。この実行では、データセット内のすべての行に対して各エバリュエーターが実行されます。

Python
cURL

# Create the evaluation
eval_object = openai_client.evals.create(
    name="dataset-evaluation",
    data_source_config=data_source_config,
    testing_criteria=testing_criteria,
)

# Create a run using the uploaded dataset
eval_run = openai_client.evals.runs.create(
    eval_id=eval_object.id,
    name="dataset-run",
    data_source=CreateEvalJSONLRunDataSourceParam(
        type="jsonl",
        source=SourceFileID(
            type="file_id",
            id=data_id,
        ),
    ),
)

# Step 1: Create the evaluation
EVAL_ID=$(curl --silent --request POST \
  --url "https://${ACCOUNT}.services.ai.azure.com/api/projects/${PROJECT}/openai/v1/evals" \
  --header "Authorization: Bearer ${TOKEN}" \
  --header "Content-Type: application/json" \
  --data '{
    "name": "dataset-evaluation",
    "data_source_config": {
      "type": "custom",
      "item_schema": {
        "type": "object",
        "properties": {
          "query": { "type": "string" },
          "response": { "type": "string" },
          "ground_truth": { "type": "string" }
        },
        "required": ["query", "response", "ground_truth"]
      }
    },
    "testing_criteria": [
      {
        "type": "azure_ai_evaluator",
        "name": "coherence",
        "evaluator_name": "builtin.coherence",
        "initialization_parameters": { "model": "gpt-5-mini" },
        "data_mapping": {
          "query": "{{item.query}}",
          "response": "{{item.response}}"
        }
      },
      {
        "type": "azure_ai_evaluator",
        "name": "violence",
        "evaluator_name": "builtin.violence",
        "initialization_parameters": { "model": "gpt-5-mini" },
        "data_mapping": {
          "query": "{{item.query}}",
          "response": "{{item.response}}"
        }
      },
      {
        "type": "azure_ai_evaluator",
        "name": "f1",
        "evaluator_name": "builtin.f1_score",
        "data_mapping": {
          "response": "{{item.response}}",
          "ground_truth": "{{item.ground_truth}}"
        }
      }
    ]
  }' | jq -r '.id')

# Step 2: Create a run against your dataset
curl --request POST \
  --url "https://${ACCOUNT}.services.ai.azure.com/api/projects/${PROJECT}/openai/v1/evals/${EVAL_ID}/runs" \
  --header "Authorization: Bearer ${TOKEN}" \
  --header "Content-Type: application/json" \
  --data '{
    "name": "dataset-run",
    "data_source": {
      "type": "jsonl",
      "source": {
        "type": "file_id",
        "id": "YOUR_DATASET_ID"
      }
    }
  }'

実行可能な完全な例については、GitHubsample_evaluations_builtin_with_dataset_id.py を参照してください。完了を確認して結果を解釈するには、「結果を取得する」を参照してください。

CSV データセットの評価

csv データソースの種類を使用して、CSV ファイル内の事前計算済み応答を評価します。このシナリオはデータセットの評価と同じように動作しますが、JSONL ではなく CSV ファイルを受け入れます。データが既にスプレッドシートまたは表形式である場合は、CSV を使用します。

ヒント

開始する前に、「はじめに」と「入力データを準備する」を完了してください。

CSV ファイルを準備する

エバリュエーターが必要とするフィールドに一致する列ヘッダーを含む CSV ファイルを作成します。各行は 1 つのテストケースを表します。

query,response,context,ground_truth
What is cloud computing?,Cloud computing delivers computing services over the internet.,Cloud computing is a technology for on-demand resource delivery.,Cloud computing is the delivery of computing services including servers storage and databases over the internet.
What is machine learning?,Machine learning is a subset of AI that learns from data.,Machine learning is a branch of artificial intelligence.,Machine learning is a type of AI that enables computers to learn from data without being explicitly programmed.
Explain neural networks.,Neural networks are computing systems inspired by biological neural networks.,Neural networks are used in deep learning.,Neural networks are a set of algorithms modeled after the human brain designed to recognize patterns.

アップロードして実行する

CSV ファイルをデータセットとしてアップロードします。次に、 csv データソース型を使用して評価を作成します。スキーマ定義とエバリュエーターの構成は、JSONL 評価の場合と同じです。唯一の違いは、データソースの "type": "csv" です。

# Upload the CSV file
data_id = project_client.datasets.upload_file(
    name="eval-csv-data",
    version="1",
    file_path="./evaluation_data.csv",
).id

# Define the schema matching your CSV columns
data_source_config = DataSourceConfigCustom(
    type="custom",
    item_schema={
        "type": "object",
        "properties": {
            "query": {"type": "string"},
            "response": {"type": "string"},
            "context": {"type": "string"},
            "ground_truth": {"type": "string"},
        },
        "required": [],
    },
    include_sample_schema=True,
)

# Define evaluators with data mappings to CSV columns
testing_criteria = [
    {
        "type": "azure_ai_evaluator",
        "name": "coherence",
        "evaluator_name": "builtin.coherence",
        "data_mapping": {
            "query": "{{item.query}}",
            "response": "{{item.response}}",
        },
        "initialization_parameters": {"model": model_deployment_name},
    },
    {
        "type": "azure_ai_evaluator",
        "name": "violence",
        "evaluator_name": "builtin.violence",
        "data_mapping": {
            "query": "{{item.query}}",
            "response": "{{item.response}}",
        },
        "initialization_parameters": {"model": model_deployment_name},
    },
    {
        "type": "azure_ai_evaluator",
        "name": "f1",
        "evaluator_name": "builtin.f1_score",
    },
]

# Create the evaluation
eval_object = openai_client.evals.create(
    name="CSV evaluation with built-in evaluators",
    data_source_config=data_source_config,
    testing_criteria=testing_criteria,
)

# Create a run using the CSV data source type
eval_run = openai_client.evals.runs.create(
    eval_id=eval_object.id,
    name="csv-evaluation-run",
    data_source={
        "type": "csv",
        "source": {
            "type": "file_id",
            "id": data_id,
        },
    },
)

完了を確認して結果を解釈するには、「結果を取得する」を参照してください。

モデル対象の評価

実行時にデプロイされたモデルにクエリを送信します。 azure_ai_target_completions データソースの種類とazure_ai_modelターゲットを使用して、応答を評価します。入力データにはクエリが含まれています。モデルによって応答が生成され、評価されます。

ヒント

開始する前に、「はじめに」と「入力データを準備する」を完了してください。

メッセージテンプレートとターゲットを定義する

input_messages テンプレートは、クエリをモデルに送信する方法を制御します。入力データからフィールドを参照するには、 {{item.query}} を使用します。評価するモデルと省略可能なサンプリングパラメーターを指定します。

input_messages = {
    "type": "template",
    "template": [
        {
            "type": "message",
            "role": "user",
            "content": {
                "type": "input_text",
                "text": "{{item.query}}"
            }
        }
    ]
}

target = {
    "type": "azure_ai_model",
    "model": "gpt-5-mini",
    "sampling_params": {
        "top_p": 1.0,
        "max_completion_tokens": 2048,
    },
}

エバリュエーターとデータマッピングを設定する

モデルが実行時に応答を生成する場合は、{{sample.output_text}}のdata_mappingを使用してモデルの出力を参照します。入力データからフィールドを参照するには、 {{item.field}} を使用します。

data_source_config = DataSourceConfigCustom(
    type="custom",
    item_schema={
        "type": "object",
        "properties": {
            "query": {"type": "string"},
        },
        "required": ["query"],
    },
    include_sample_schema=True,
)

testing_criteria = [
    {
        "type": "azure_ai_evaluator",
        "name": "coherence",
        "evaluator_name": "builtin.coherence",
        "initialization_parameters": {
            "model": model_deployment_name,
        },
        "data_mapping": {
            "query": "{{item.query}}",
            "response": "{{sample.output_text}}",
        },
    },
    {
        "type": "azure_ai_evaluator",
        "name": "violence",
        "evaluator_name": "builtin.violence",
        "data_mapping": {
            "query": "{{item.query}}",
            "response": "{{sample.output_text}}",
        },
    },
]

eval_object = openai_client.evals.create(
    name="Model Target Evaluation",
    data_source_config=data_source_config,
    testing_criteria=testing_criteria,
)

data_source = {
    "type": "azure_ai_target_completions",
    "source": {
        "type": "file_id",
        "id": data_id,
    },
    "input_messages": input_messages,
    "target": target,
}

eval_run = openai_client.evals.runs.create(
    eval_id=eval_object.id,
    name="model-target-evaluation",
    data_source=data_source,
)

curl --request POST \
  --url "https://${ACCOUNT}.services.ai.azure.com/api/projects/${PROJECT}/openai/v1/evals/${EVAL_ID}/runs" \
  --header "Authorization: Bearer ${TOKEN}" \
  --header "Content-Type: application/json" \
  --data '{
    "name": "model-target-evaluation",
    "data_source": {
      "type": "azure_ai_target_completions",
      "source": {
        "type": "file_id",
        "id": "YOUR_DATASET_ID"
      },
      "input_messages": {
        "type": "template",
        "template": [
          {
            "type": "message",
            "role": "user",
            "content": {
              "type": "input_text",
              "text": "{{item.query}}"
            }
          }
        ]
      },
      "target": {
        "type": "azure_ai_model",
        "model": "gpt-5-mini",
        "sampling_params": {
          "top_p": 1.0,
          "max_completion_tokens": 2048
        }
      }
    }
  }'

実行可能な完全な例については、GitHubの sample_model_evaluation.py を参照してください。完了を確認して結果を解釈するには、「結果を取得する」を参照してください。

ヒント

別の評価実行を追加するには、同じコードを使用します。

エージェントの目標評価

実行時に Foundry エージェントにクエリを送信し、azure_ai_target_completionsターゲットでazure_ai_agentデータソースの種類を使用して応答を評価します。このシナリオは、プロンプトエージェントとホステッドエージェントの両方で機能します。

ヒント

開始する前に、「はじめに」と「入力データを準備する」を完了してください。

ヒント

応答プロトコルを使用するホスト型エージェントは、次に示すのと同じコードサンプルで動作します。呼び出しプロトコルを使用するホステッドエージェントの場合、 input_messages 形式は異なります。詳細については、ホストされるエージェント呼び出しプロトコルを参照してください。

メッセージテンプレートとターゲットを定義する

input_messages テンプレートは、エージェントにクエリを送信する方法を制御します。入力データからフィールドを参照するには、 {{item.query}} を使用します。名前で評価するエージェントを指定します。

input_messages = {
    "type": "template",
    "template": [
        {
            "type": "message",
            "role": "developer",
            "content": {
                "type": "input_text",
                "text": "You are a helpful assistant. Answer clearly and safely."
            }
        },
        {
            "type": "message",
            "role": "user",
            "content": {
                "type": "input_text",
                "text": "{{item.query}}"
            }
        }
    ]
}

target = {
    "type": "azure_ai_agent",
    "name": "my-agent",
    "version": "1"  # Optional. Uses latest version if omitted.
}

エバリュエーターとデータマッピングを設定する

エージェントが実行時に応答を生成する場合は、{{sample.*}}data_mapping変数を使用してエージェントの出力を参照します。

変数	説明	利用目的
`{{sample.output_text}}`	エージェントのプレーンテキスト応答。	文字列応答を期待するエバリュエーター (たとえば、 `coherence`、 `violence`)。
`{{sample.output_items}}`	ツール呼び出しを含む、エージェントの構造化された JSON 出力。	完全な対話コンテキスト (たとえば、 `task_adherence`) を必要とするエバリュエーター。
`{{item.field}}`	入力データのフィールド。	`query`や`ground_truth`などの入力フィールド。

ヒント

query フィールドには、システムメッセージや会話履歴など、構造化された JSON を含めることができます。 task_adherenceなどの一部のエージェントエバリュエーターは、より正確なスコア付けにこのコンテキストを使用します。クエリの書式設定の詳細については、エージェントエバリュエーターを参照してください。

data_source_config = DataSourceConfigCustom(
    type="custom",
    item_schema={
        "type": "object",
        "properties": {
            "query": {"type": "string"},
        },
        "required": ["query"],
    },
    include_sample_schema=True,
)

testing_criteria = [
    {
        "type": "azure_ai_evaluator",
        "name": "coherence",
        "evaluator_name": "builtin.coherence",
        "initialization_parameters": {
            "model": model_deployment_name,
        },
        "data_mapping": {
            "query": "{{item.query}}",
            "response": "{{sample.output_text}}",
        },
    },
    {
        "type": "azure_ai_evaluator",
        "name": "violence",
        "evaluator_name": "builtin.violence",
        "data_mapping": {
            "query": "{{item.query}}",
            "response": "{{sample.output_text}}",
        },
    },
    {
        "type": "azure_ai_evaluator",
        "name": "task_adherence",
        "evaluator_name": "builtin.task_adherence",
        "initialization_parameters": {
            "model": model_deployment_name,
        },
        "data_mapping": {
            "query": "{{item.query}}",
            "response": "{{sample.output_items}}",
        },
    },
]

評価を作成して実行する

Python
cURL

eval_object = openai_client.evals.create(
    name="Agent Target Evaluation",
    data_source_config=data_source_config,
    testing_criteria=testing_criteria,
)

data_source = {
    "type": "azure_ai_target_completions",
    "source": {
        "type": "file_id",
        "id": data_id,
    },
    "input_messages": input_messages,
    "target": target,
}

agent_eval_run = openai_client.evals.runs.create(
    eval_id=eval_object.id,
    name="agent-target-evaluation",
    data_source=data_source,
)

curl --request POST \
  --url "https://${ACCOUNT}.services.ai.azure.com/api/projects/${PROJECT}/openai/v1/evals/${EVAL_ID}/runs" \
  --header "Authorization: Bearer ${TOKEN}" \
  --header "Content-Type: application/json" \
  --data '{
    "name": "agent-target-evaluation",
    "data_source": {
      "type": "azure_ai_target_completions",
      "source": {
        "type": "file_id",
        "id": "YOUR_DATASET_ID"
      },
      "input_messages": {
        "type": "template",
        "template": [
          {
            "type": "message",
            "role": "developer",
            "content": {
              "type": "input_text",
              "text": "You are a helpful assistant. Answer clearly and safely."
            }
          },
          {
            "type": "message",
            "role": "user",
            "content": {
              "type": "input_text",
              "text": "{{item.query}}"
            }
          }
        ]
      },
      "target": {
        "type": "azure_ai_agent",
        "name": "my-agent",
        "version": "1"
      }
    }
  }'

実行可能な完全な例については、GitHubのsample_agent_evaluation.pyを参照してください。完了を確認して結果を解釈するには、「結果を取得する」を参照してください。

ホストされるエージェント呼び出しプロトコル

呼び出しプロトコルを使用するホストエージェントは、同じazure_ai_agentターゲットの種類をサポートしますが、フリーフォームのinput_messages形式を使用します。構造化されたテンプレート形式の代わりに、エージェントの /invocations 要求本文に直接マップする JSON オブジェクトを指定します。 {{item.*}}プレースホルダーを使用して、入力データのフィールドを置き換えます。

ホストされるエージェントが応答プロトコルと呼び出しプロトコルの両方をサポートしている場合、サービスは既定で呼び出しプロトコルを使用します。

メッセージの形式とターゲットを定義する

input_messages = {"message": "{{item.query}}"}

target = {
    "type": "azure_ai_agent",
    "name": "my-hosted-agent",  # Replace with your hosted agent name
    "version": "1",
}

評価を作成して実行する

Python
cURL

eval_object = openai_client.evals.create(
    name="Hosted Agent Invocations Evaluation",
    data_source_config=data_source_config,
    testing_criteria=testing_criteria,
)

data_source = {
    "type": "azure_ai_target_completions",
    "source": {
        "type": "file_id",
        "id": data_id,
    },
    "input_messages": input_messages,
    "target": target,
}

eval_run = openai_client.evals.runs.create(
    eval_id=eval_object.id,
    name="hosted-agent-invocations-evaluation",
    data_source=data_source,
)

curl --request POST \
  --url "https://${ACCOUNT}.services.ai.azure.com/api/projects/${PROJECT}/openai/v1/evals/${EVAL_ID}/runs" \
  --header "Authorization: Bearer ${TOKEN}" \
  --header "Content-Type: application/json" \
  --data '{
    "name": "hosted-agent-invocations-evaluation",
    "data_source": {
      "type": "azure_ai_target_completions",
      "source": {
        "type": "file_id",
        "id": "YOUR_DATASET_ID"
      },
      "input_messages": {
        "message": "{{item.query}}"
      },
      "target": {
        "type": "azure_ai_agent",
        "name": "my-hosted-agent",
        "version": "1"
      }
    }
  }'

エバリュエーターのセットアップとデータマッピングは、プロンプトエージェントの評価の場合と同じです。エージェントのテキスト応答には {{sample.output_text}} を使用し、ツール呼び出しを含む完全な構造化出力には {{sample.output_items}} を使用します。

エージェントの応答の評価

azure_ai_responses データソースの種類を使用して、応答 ID によって Foundry エージェントの応答を取得および評価します。このシナリオを使用して、特定のエージェントの相互作用が発生した後で評価します。

ヒント

開始する前に、「はじめに」を完了してください。

応答 ID は、Foundry エージェントが応答を生成するたびに返される一意の識別子です。応答 API を使用して、またはアプリケーションのトレースログから、エージェントの対話から応答 ID を収集できます。 ID をファイルコンテンツとしてインラインで指定するか、データセットとしてアップロードします ( 「入力データの準備」を参照)。

応答 ID を収集する

Responses API を呼び出すたびに、一意の id フィールドを持つ応答オブジェクトが返されます。アプリケーションの対話からこれらの ID を収集するか、直接生成します。

# Generate response IDs by calling a model through the Responses API
response = openai_client.responses.create(
    model=model_deployment_name,
    input="What is machine learning?",
)
print(response.id)  # Example: resp_abc123

また、アプリケーションのトレースログまたは監視パイプラインのエージェント操作から応答 ID を収集することもできます。各応答 ID は、評価サービスが取得できる格納された応答を一意に識別します。

評価を作成して実行する

Python
cURL

data_source_config = {"type": "azure_ai_source", "scenario": "responses"}

testing_criteria = [
    {
        "type": "azure_ai_evaluator",
        "name": "coherence",
        "evaluator_name": "builtin.coherence",
        "initialization_parameters": {
            "model": model_deployment_name,
        },
    },
    {
        "type": "azure_ai_evaluator",
        "name": "violence",
        "evaluator_name": "builtin.violence",
    },
]

eval_object = openai_client.evals.create(
    name="Agent Response Evaluation",
    data_source_config=data_source_config,
    testing_criteria=testing_criteria,
)

data_source = {
    "type": "azure_ai_responses",
    "item_generation_params": {
        "type": "response_retrieval",
        "data_mapping": {"response_id": "{{item.resp_id}}"},
        "source": {
            "type": "file_content",
            "content": [
                {"item": {"resp_id": "resp_abc123"}},
                {"item": {"resp_id": "resp_def456"}},
            ]
        },
    },
}

eval_run = openai_client.evals.runs.create(
    eval_id=eval_object.id,
    name="agent-response-evaluation",
    data_source=data_source,
)

curl --request POST \
  --url "https://${ACCOUNT}.services.ai.azure.com/api/projects/${PROJECT}/openai/v1/evals/${EVAL_ID}/runs" \
  --header "Authorization: Bearer ${TOKEN}" \
  --header "Content-Type: application/json" \
  --data '{
    "name": "agent-response-evaluation",
    "data_source": {
      "type": "azure_ai_responses",
      "item_generation_params": {
        "type": "response_retrieval",
        "data_mapping": {"response_id": "{{item.resp_id}}"},
        "source": {
          "type": "file_content",
          "content": [
            {"item": {"resp_id": "resp_abc123"}},
            {"item": {"resp_id": "resp_def456"}}
          ]
        }
      }
    }
  }'

実行可能な完全な例については、GitHubの sample_agent_response_evaluation.py を参照してください。完了を確認して結果を解釈するには、「結果を取得する」を参照してください。

トレース評価 (プレビュー)

Application Insights によって既にキャプチャされたエージェントの相互作用を評価します。 azure_ai_traces データソースの種類を使用します。このシナリオは、実稼働トラフィックのデプロイ後の評価に役立ちます。監視パイプラインからトレースを選択し、リクエストを再生することなく、それらに対して評価を実行できます。

重要

トレース評価は、LangChain やカスタムフレームワークなど、Microsoft Foundry Agent Service でビルドされていないagent を評価する場合に推奨されるアプローチです。エージェントが、GenAI のセマンティック規約に従う OpenTelemetry スパンを Application Insights に送信している限り、トレース評価では、Foundry エージェントで利用できるものと同じ評価器を使用して、そのやり取りを評価できます。

トレース評価では、次の 2 つのモードがサポートされます。

トレース ID による - Application Insights から operation_Id 値を指定して、特定のエージェントの相互作用を評価します。
エージェントフィルターによる - トレース ID を手動で収集することなく、特定のエージェントの最近のトレースを自動的に検出して評価します。

ヒント

開始する前に、「はじめに」を完了してください。このシナリオでは、 Foundry プロジェクトに接続されている Application Insights リソースも必要です。

インテリジェントサンプリング

トレース評価では、インテリジェントサンプリングがサポートされています。これは、キャプチャされたすべてのトレースを評価する代わりに、評価のためにトレースの代表的なサブセットを選択します。トレース評価の実行を構成するときに Foundry ポータルで [インテリジェントサンプリング ] トグルをオンにして、この機能を有効にします。インテリジェントサンプリングを使用すると、トレースの多様性を維持しながら評価コストを削減できます。これにより、エッジケース、エラーパス、および多様な会話パターンが評価セットに確実に含まれます。

インテリジェントサンプリングのしくみ

サンプリングアルゴリズムでは、複数のステージで実行される MinHash の最も遠い最初の多様性アプローチが使用されます。

正確な重複除去 - 重複するトレースをプールから削除します。
ハードフィルター - 破損したセッション、切り捨てられたトレース、および評価に適さない形式のツール呼び出しを削除します。
集計 - トレースレベルのシグナルを統合された表現に結合します。
MinHash の最も遠い最初の選択 - ユーザーテキストの局所性に依存するハッシュ (MinHash シグネチャ) を計算してトレース間の類似性を推定し、残りのプールから最も類似していないトレースを繰り返し選択します。次に選択される各トレースは、それまでに選択されたすべてのトレースからの距離が最大になるように選ばれます。

このアプローチでは、ランダムサンプリングと比較して、字句の多様性が大幅に高くなり、ボキャブラリカバレッジが広がります。つまり、評価されたセットは、ランダムサンプリングが見逃されがちなまれなケース、ハードケース、新しいケースなど、エージェントの相互作用の全範囲をより適切に表します。

インテリジェントサンプリングは、次の場合に特に有効です。

評価とベンチマーク - 入力分布のカバレッジを最大化し、評価スコアが実際の多様性を反映します。
ルーブリック生成 - 多様な会話パターンを公開することで、より集中して実用的なルーブリックを生成します。
データセットキュレーションの微調整 - モデルの学習効率を高めるのに役立つトレースを選択します。

このアルゴリズムは、追加の API 呼び出しなしでローカルコンピューティング上で完全に実行されるため、評価自体を超える追加のモデル推論コストは発生しません。

インテリジェントサンプリングの例

# Eval group for trace-based evaluations
data_source_config = {
    "type": "azure_ai_source",
    "scenario": "traces",
}

print("Creating trace-based evaluation group")
eval_object = client.evals.create(
    name="Trace Evaluation (Agent Smart Filter)",
    data_source_config=data_source_config,  # type: ignore
    testing_criteria=testing_criteria,
)
print(f"Evaluation created (id: {eval_object.id})")

# Compute time window in unix seconds
# Pad end_time by +600s (10 min) to avoid ingestion-delay edge exclusion
now_unix = int(time.time())
end_time = now_unix + 600
start_time = now_unix - (args.lookback_hours * 3600)

# Build trace_source based on mode
trace_source: dict = {
    "type": "agent_filter",
    "start_time": start_time,
    "end_time": end_time,
    "max_traces": args.max_traces,
    "filter_strategy": "smart_filtering"
}

# Add agent name/version or agent id
trace_source["agent_name"] = agent_name
trace_source["agent_version"] = agent_version
## trace_source["agent_id"] = args.agent_id

data_source = {
    "type": "azure_ai_trace_data_source_preview",
    "trace_source": trace_source,
}

eval_run = client.evals.runs.create(
    eval_id=eval_object.id,
    name="trace-evaluation-agent-smart-filter-run",
    data_source=data_source,  # type: ignore
)

トレースデータの要件

トレース評価では、エージェントが生成 AI の OpenTelemetry セマンティック規則に従うスパンを出力する必要があります。具体的には、評価サービスは Application Insights から invoke_agent スパン を読み取り、その属性から会話データを抽出します。

次のスパン属性が使用されます。

属性	必須	説明
`gen_ai.operation.name`	はい	`"invoke_agent"`と等しい必要があります。サービスは、他のすべてのスパンを無視します。
`gen_ai.agent.id`	エージェントフィルターモードの場合	一意のエージェント識別子 (形式: `agent-name:version`)。
`gen_ai.agent.name`	エージェントフィルターモードの場合	人間が判読できるエージェント名。
`gen_ai.input.messages`	エバリュエーターのクエリ入力の場合	GenAI セマンティック規則メッセージ形式に従った入力メッセージの JSON 配列。ロール `user` または `system` を持つメッセージは、 `query`にマップされます。ロール `assistant` または `tool` を持つメッセージは、 `response`にマップされます。
`gen_ai.output.messages`	エバリュエーターのクエリ入力の場合	モデルによって生成された出力メッセージの JSON 配列。すべての出力メッセージが `response`にマップされます。出力に tool_call または type: tool_result も含まれている場合は、 `tool_calls`にマップされます。
`gen_ai.tool.definitions`	オプション	エージェントで使用できるツールスキーマの JSON 配列。存在しない場合、サービスはツール呼び出しメッセージからツール定義を推論しようとしますが、推論されたスキーマが不完全である可能性があります。
`gen_ai.conversation.id`	オプション	相関関係のために評価結果に渡される会話識別子。

メモ

gen_ai.input.messagesとgen_ai.output.messagesが空または不足している場合、品質エバリュエーター (コヒーレンス、流暢さ、関連性、意図の解決) はscore=Noneを返します。安全評価者 (暴力、自傷行為、性的、嫌悪、不公平) は、部分的なデータでスコアを生成できますが、意味のある結果が得られない可能性があります。

Azure AI Agent Server SDK を使用して構築されたPythonエージェントの場合は、[tracing] を追加して、自動スパンエミッションを有効にします。

pip install "azure-ai-agentserver-core[tracing]"

トレース評価の前提条件

トレースの評価には、一般的な前提条件に加えて、次のものが必要です。

Foundry プロジェクトに接続されている Application Insights リソース。「Microsoft Foundry でのトレース設定について」を参照してください。
プロジェクトのマネージド ID には、Application Insights リソースとそのリンクされた Log Analytics ワークスペースの両方で、Log Analytics 閲覧者 ロールが必要です。
azure-monitor-query Python パッケージ (トレース ID を手動で収集する場合にのみ必要)。

pip install "azure-ai-projects>=2.2.0" azure-monitor-query

次の環境変数を設定します。

APPINSIGHTS_RESOURCE_ID — Application Insights リソース ID (例: /subscriptions/<subscription_id>/resourceGroups/<rg_name>/providers/Microsoft.Insights/components/<resource_name>)。
AGENT_ID — トレースのフィルター処理に使用されるトレース統合 (gen_ai.agent.id 属性) によって出力されるエージェント識別子。形式: agent-name:version。
TRACE_LOOKBACK_HOURS — (省略可能) トレースのクエリを実行するときに振り返る時間数。デフォルトは 1です。

オプション A: エージェントフィルターによる評価

最も簡単な方法は、サービスが特定のエージェントの最近のトレースを自動的に検出して評価できるようにすることです。手動トレース ID の収集は必要ありません。

import os

agent_id = os.environ["AGENT_ID"]  # e.g., "my-weather-agent:1"
trace_lookback_hours = int(os.environ.get("TRACE_LOOKBACK_HOURS", "1"))

# Create the evaluation
data_source_config = {
    "type": "azure_ai_source",
    "scenario": "traces",
}

eval_object = openai_client.evals.create(
    name="Agent Trace Evaluation (by agent)",
    data_source_config=data_source_config,
    testing_criteria=testing_criteria,  # See "Set up evaluators" below
)

# Create a run — the service queries App Insights for matching traces
data_source = {
    "type": "azure_ai_traces",
    "agent_id": agent_id,
    "max_traces": 50,           # Maximum number of traces to evaluate
    "lookback_hours": trace_lookback_hours,
}

eval_run = openai_client.evals.runs.create(
    eval_id=eval_object.id,
    name="agent-trace-eval-run",
    data_source=data_source,
)

print(f"Evaluation run started: {eval_run.id}")

サービスはinvoke_agentgen_ai.agent.id属性でスパンをフィルター処理し、最大max_traces一意のトレース ID をサンプリングし、それらのトレースからのすべてのスパンを評価します。

オプション B: トレース ID による評価

より詳細な制御を行う場合は、Application Insights から特定のトレース ID を収集して評価します。この方法は、アラートによってフラグ付けされたトレースや品質レビュー用にサンプリングされたトレースなど、精選された一連の対話を評価する場合に便利です。

Application Insights からトレース ID を収集する

Application Insights にクエリを実行して、エージェントのトレースから operation_Id 値を取得します。各 operation_Id は、完全なエージェント操作を表します。

import os
from datetime import datetime, timedelta, timezone
from azure.identity import DefaultAzureCredential
from azure.monitor.query import LogsQueryClient, LogsQueryStatus

appinsights_resource_id = os.environ["APPINSIGHTS_RESOURCE_ID"]
agent_id = os.environ["AGENT_ID"]
trace_query_hours = int(os.environ.get("TRACE_LOOKBACK_HOURS", "1"))

end_time = datetime.now(timezone.utc)
start_time = end_time - timedelta(hours=trace_query_hours)

query = f"""dependencies
| where timestamp between (datetime({start_time.isoformat()}) .. datetime({end_time.isoformat()}))
| extend agent_id = tostring(customDimensions["gen_ai.agent.id"])
| where agent_id == "{agent_id}"
| distinct operation_Id"""

credential = DefaultAzureCredential()
logs_client = LogsQueryClient(credential)
response = logs_client.query_resource(
    appinsights_resource_id,
    query=query,
    timespan=None,  # Time range is specified in the query itself
)

trace_ids = []
if response.status == LogsQueryStatus.SUCCESS:
    for table in response.tables:
        for row in table.rows:
            trace_ids.append(row[0])

print(f"Found {len(trace_ids)} trace IDs")

評価を作成し、トレース ID を使用して実行する

# Create the evaluation
data_source_config = {
    "type": "azure_ai_source",
    "scenario": "traces",
}

eval_object = openai_client.evals.create(
    name="Agent Trace Evaluation (by trace IDs)",
    data_source_config=data_source_config,
    testing_criteria=testing_criteria,  # See "Set up evaluators" below
)

# Create a run using the collected trace IDs
data_source = {
    "type": "azure_ai_traces",
    "trace_ids": trace_ids,
    "lookback_hours": trace_query_hours,
}

eval_run = openai_client.evals.runs.create(
    eval_id=eval_object.id,
    name="agent-trace-eval-run",
    metadata={
        "agent_id": agent_id,
        "start_time": start_time.isoformat(),
        "end_time": end_time.isoformat(),
    },
    data_source=data_source,
)

print(f"Evaluation run started: {eval_run.id}")

エバリュエーターとデータマッピングを設定する

トレースを評価すると、サービスは OpenTelemetry スパン属性から会話データを自動的に抽出します。これらのフィールド名は、 data_mapping で直接使用します (他のシナリオで使用される item. または sample. プレフィックスは使用しません)。

変数	ソース属性	説明
`{{item.query}}`	`gen_ai.input.messages` (ユーザー/システムロール)	トレースから抽出されたユーザークエリ。
`{{item.response}}`	`gen_ai.input.messages` (アシスタント/ツールロール) + `gen_ai.output.messages`	トレースから抽出されたエージェントの応答。
`{{item.tool_definitions}}`	`gen_ai.tool.definitions`	エージェントで使用できるツールスキーマ。ツール関連のエバリュエーターにのみ必要です。
`{{item.tool_calls}}`	内のアシスタントメッセージから抽出 `gen_ai.input.messages` / `gen_ai.output.messages`	対話中にエージェントによって行われたツール呼び出し。ツールエバリュエーターによって使用されます。ツール関連のエバリュエーターにのみ必要です。

testing_criteria = [
    # Quality evaluators — require query and response from trace data
    {
        "type": "azure_ai_evaluator",
        "name": "intent_resolution",
        "evaluator_name": "builtin.intent_resolution",
        "data_mapping": {
            "query": "{{item.query}}",
            "response": "{{item.response}}",
            "tool_definitions": "{{item.tool_definitions}}",
        },
        "initialization_parameters": {
            "model": model_deployment_name,
        },
    },
    # Tool evaluators — assess tool usage quality
    {
        "type": "azure_ai_evaluator",
        "name": "tool_call_accuracy",
        "evaluator_name": "builtin.tool_call_accuracy",
        "data_mapping": {
            "query": "{{item.query}}",
            "response": "{{item.response}}",
            "tool_calls": "{{item.tool_calls}}",
            "tool_definitions": "{{item.tool_definitions}}",
        },
        "initialization_parameters": {
            "model": model_deployment_name,
        },
    },
    # Safety evaluators — work even with partial trace data
    {
        "type": "azure_ai_evaluator",
        "name": "violence",
        "evaluator_name": "builtin.violence",
        "data_mapping": {
            "query": "{{item.query}}",
            "response": "{{item.response}}",
        },
        "initialization_parameters": {
            "threshold": 4,
        },
    },
]

実行可能な完全な例については、GitHubの sample_evaluations_builtin_with_traces.py を参照してください。完了を確認して結果を解釈するには、「結果を取得する」を参照してください。

合成データの評価 (プレビュー)

azure_ai_synthetic_data_gen_preview データソースの種類を使用して、合成テストクエリを生成し、デプロイされたモデルまたは Foundry エージェントに送信し、応答を評価します。テストデータセットがない場合は、このシナリオを使用します。サービスは、指定したプロンプト (またはエージェントの指示から) に基づいてクエリを生成し、ターゲットに対してクエリを実行し、応答を評価します。

ヒント

開始する前に、「はじめに」を完了してください。

合成データの評価のしくみ

サービスは、 prompt とオプションのシードデータファイルに基づいて合成クエリを生成します。
各クエリは、応答を生成するために、指定されたターゲット (モデルまたはエージェント) に送信されます。
エバリュエーターは、生成されたクエリと応答を使用して各応答をスコア付けします。
生成されたクエリは、再利用のためにプロジェクトにデータセットとして格納されます。

パラメーター

パラメーター	必須	説明
`samples_count`	はい	生成する合成テストクエリの最大数。
`model_deployment_name`	はい	合成クエリの生成に使用するモデルデプロイ。 Responses API 機能を持つモデルのみがサポートされています。可用性については、「応答 API リージョンの可用性」を参照してください。
`prompt`	いいえ	生成するクエリの種類を説明する手順。エージェントターゲットに命令が構成されている場合は省略可能です。
`output_dataset_name`	いいえ	生成されたクエリが格納される出力データセットの名前。名前を指定しない場合、サービスによって自動的に生成されます。
`sources`	いいえ	生成されたクエリの関連性を向上させるために、(ファイル ID によって) データファイルをシード処理します。現在サポートされているファイルは 1 つだけです。

エバリュエーターとデータマッピングを設定する

合成データジェネレーターは、 {{item.query}} フィールドにクエリを生成します。ターゲットは、 {{sample.output_text}}で使用可能な応答を生成します。これらのフィールドをエバリュエーターにマップします。

data_source_config = {"type": "azure_ai_source", "scenario": "synthetic_data_gen_preview"}

testing_criteria = [
    {
        "type": "azure_ai_evaluator",
        "name": "coherence",
        "evaluator_name": "builtin.coherence",
        "initialization_parameters": {
            "model": model_deployment_name,
        },
        "data_mapping": {
            "query": "{{item.query}}",
            "response": "{{sample.output_text}}",
        },
    },
    {
        "type": "azure_ai_evaluator",
        "name": "violence",
        "evaluator_name": "builtin.violence",
        "data_mapping": {
            "query": "{{item.query}}",
            "response": "{{sample.output_text}}",
        },
    },
]

評価を作成して実行する

Python
cURL

モデルターゲット

合成クエリを生成し、モデルを評価する:

eval_object = openai_client.evals.create(
    name="Synthetic Data Evaluation",
    data_source_config=data_source_config,
    testing_criteria=testing_criteria,
)

data_source = {
    "type": "azure_ai_synthetic_data_gen_preview",
    "item_generation_params": {
        "type": "synthetic_data_gen_preview",
        "samples_count": 5,
        "prompt": "Generate customer service questions about returning defective products",
        "model_deployment_name": model_deployment_name,
        "output_dataset_name": "my-synthetic-dataset",
    },
    "target": {
        "type": "azure_ai_model",
        "model": model_deployment_name,
    },
}

eval_run = openai_client.evals.runs.create(
    eval_id=eval_object.id,
    name="synthetic-data-evaluation",
    data_source=data_source,
)

必要に応じて、ターゲットモデルの動作を整形するためのシステムプロンプトを追加できます。合成データ生成で input_messages を使用する場合は、 system ロールメッセージのみを含めます。サービスは、生成されたクエリをユーザーメッセージとして自動的に提供します。

data_source = {
    "type": "azure_ai_synthetic_data_gen_preview",
    "item_generation_params": {
        "type": "synthetic_data_gen_preview",
        "samples_count": 5,
        "prompt": "Generate customer service questions about returning defective products",
        "model_deployment_name": model_deployment_name,
    },
    "target": {
        "type": "azure_ai_model",
        "model": model_deployment_name,
    },
    "input_messages": {
        "type": "template",
        "template": [
            {
                "type": "message",
                "role": "system",
                "content": {
                    "type": "input_text",
                    "text": "You are a helpful customer service agent. Be empathetic and solution-oriented."
                }
            }
        ]
    },
}

エージェントターゲット

合成クエリを生成し、Foundry エージェントを評価します。

data_source = {
    "type": "azure_ai_synthetic_data_gen_preview",
    "item_generation_params": {
        "type": "synthetic_data_gen_preview",
        "samples_count": 5,
        "prompt": "Generate questions about returning defective products",
        "model_deployment_name": model_deployment_name,
    },
    "target": {
        "type": "azure_ai_agent",
        "name": agent_name,
        "version": agent_version,
    },
}

eval_run = openai_client.evals.runs.create(
    eval_id=eval_object.id,
    name="synthetic-agent-evaluation",
    data_source=data_source,
)

# Step 1: Create the evaluation
curl --request POST \
  --url "https://${ACCOUNT}.services.ai.azure.com/api/projects/${PROJECT}/openai/evals?api-version=v1" \
  --header "Authorization: Bearer ${TOKEN}" \
  --header "Content-Type: application/json" \
  --data '{
    "name": "Synthetic Data Evaluation",
    "data_source_config": {
      "type": "azure_ai_source",
      "scenario": "synthetic_data_gen_preview"
    },
    "testing_criteria": [
      {
        "type": "azure_ai_evaluator",
        "name": "coherence",
        "evaluator_name": "builtin.coherence",
        "initialization_parameters": {
          "model": "gpt-5-mini"
        },
        "data_mapping": {
          "query": "{{item.query}}",
          "response": "{{sample.output_text}}"
        }
      },
      {
        "type": "azure_ai_evaluator",
        "name": "violence",
        "evaluator_name": "builtin.violence",
        "data_mapping": {
          "query": "{{item.query}}",
          "response": "{{sample.output_text}}"
        }
      }
    ]
  }'

# Step 2: Create a run with synthetic data generation
curl --request POST \
  --url "https://${ACCOUNT}.services.ai.azure.com/api/projects/${PROJECT}/openai/evals/${EVAL_ID}/runs?api-version=v1" \
  --header "Authorization: Bearer ${TOKEN}" \
  --header "Content-Type: application/json" \
  --data '{
    "name": "synthetic-data-evaluation",
    "data_source": {
      "type": "azure_ai_synthetic_data_gen_preview",
      "item_generation_params": {
        "type": "synthetic_data_gen_preview",
        "samples_count": 5,
        "prompt": "Generate customer service questions about returning defective products",
        "model_deployment_name": "gpt-5-mini",
        "output_dataset_name": "my-synthetic-dataset"
      },
      "target": {
        "type": "azure_ai_model",
        "model": "gpt-5-mini"
      }
    }
  }'

完了を確認して結果を解釈するには、「結果を取得する」を参照してください。応答には、生成されたデータセットの ID を含む output_dataset_id プロパティが含まれています。これは、合成データを取得または再利用するために使用できます。

会話レベルの評価 (プレビュー)

完全な会話を評価して、個々の応答だけでなく、ユーザーの操作全体にわたってエージェントの品質を評価します。会話レベルの評価を用いて、タスクの不完全な解決、ユーザーのフラストレーション、ターンレベルの評価では見逃されるツール呼び出しの回帰といった品質上の問題を特定します。

たとえば、ユーザーが複数のターンで不満を感じるサポートエージェントを考えてみましょう。

ターン 1 — ユーザー: "パスワードをリセットする必要があります。"エージェント: "アカウントが見つかりました。リセットリンクを送信します。

ターン 2 — ユーザー: "私は電子メールを受け取りませんでした。エージェント: "リンクを再送信しました。スパムを確認してください。

ターン 3 - ユーザー: "まだ何もありません。直接リセットできますか?エージェント: "別のリセットリンクを送信しました。"

ターンレベルのエバリュエーターは、最後の応答 (丁寧でアクションを実行する) のみをスコア付けするので、スコアが良くなります。会話レベルのエバリュエーターは、エージェントが別の方法を試さずに同じ失敗したアクションを 3 回繰り返し、ユーザーの問題を未解決のままにした、会話フラグ全体で 顧客満足度 を評価します。

会話レベルの評価は、ターンレベルの評価といくつかの点で異なります。

特徴	ターンレベル	会話レベル
スコープ	個々のクエリ応答ペア	複数の交換で会話を完了する
Metrics	応答ごとの品質と安全性	会話レベルの結果とユーザーの満足度
データ形式	`query`フィールドと`response` フィールドを含む JSONL	完全な会話を含む `messages` 配列を持つ JSONL
使用例	個々のモデル応答のテスト	エンドツーエンドのエージェントエクスペリエンスのテスト

会話レベルの評価では、次の 4 つのデータソースオプションがサポートされています。

オプション	使用するタイミング	データソースの種類
データセットまたはインラインから	ローカルの会話トレースまたはテストデータがある場合	`jsonl` で `file_id` または `file_content`
会話IDごと	App Insights から特定の会話を評価する場合	`azure_ai_trace_data_source_preview` と `trace_source`
サンプリングを使用したエージェントフィルター別	サンプリングされた運用トラフィック全体でエージェントの全体的な品質を評価する必要がある	`azure_ai_trace_data_source_preview` と `trace_source`
シミュレートされた会話	合成テスト用の会話を生成したい	`azure_ai_target_completions` と `conversation_gen_preview`

評価レベルを選択する

実行の evaluation_level パラメーターは、エバリュエーターが個々のターンをスコア付けするか、会話を完了するかを決定します。

価値	Behavior
`"turn"`	エバリュエーターは、各ターンを個別にスコア付けします。
`"conversation"`	エバリュエーターは、会話全体をスコア付けします。
(省略)	デフォルトは `"turn"`です。

重要

エバリュエーターの互換性: 各エバリュエーターは、特定の評価レベルをサポートします。エバリュエーターカタログ内のエバリュエーターのsupported_evaluation_levelsフィールドを確認します。

ターン専用エバリュエーター ( fluency、 relevanceなど) は、 evaluation_level="conversation"では使用できません。
現在、すべての会話レベルエバリュエーターは、 "turn" レベルと "conversation" レベルの両方をサポートしています。

一般的なエラー

エラー	原因	ソリューション
互換性のない評価レベル	ターン専用エバリュエーターでの `evaluation_level="conversation"` の使用	ターン専用評価子を削除するか、`evaluation_level="turn"` に変更する

会話データを準備する

各行の messages フィールドに完全な会話が含まれる JSONL ファイルを作成します。各メッセージには、 role (ユーザー、アシスタント、またはシステム) と contentが含まれている必要があります。完全な例については、SDK の conversation 評価サンプルを参照してください。

 {"messages": [{"role": "user", "content": "What's my account balance?"}, {"role": "assistant", "content": "Your current balance is $1,234.56."}, {"role": "user", "content": "Thanks!"}, {"role": "assistant", "content": "You're welcome! Is there anything else?"}]}

エージェントがツールを使用している場合は、ツール定義とツール呼び出しを含めることもできます。

{"messages": [{"role": "user", "content": "What is the capital of France?"}, {"role": "assistant", "content": "Paris"}]}
{"messages": [{"role": "user", "content": "How do I reverse a string in Python?"}, {"role": "assistant", "content": "You can reverse a string in Python by using slicing: string[::-1]"}]}
{"messages": [{"role": "user", "content": "What are the main causes of climate change?"}, {"role": "assistant", "content": "The main causes of climate change are the increase in greenhouse gases in the atmosphere, primarily due to human activities such as burning fossil fuels and deforestation."}]}
{"messages": [{"role": "user", "content": "What's my account balance?"}, {"role": "assistant", "content": null, "tool_calls": [{"id": "call_abc123", "type": "function", "function": {"name": "get_account_balance", "arguments": "{\"account_id\": \"ACCT-7890\"}"}}]}, {"role": "tool", "tool_call_id": "call_abc123", "content": "{ \"balance\": 1234.56, \"currency\": \"USD\" }"}, {"role": "assistant", "content": "Your current balance is 1,234.56."}, {"role": "user", "content": "Thanks!"}, {"role": "assistant", "content": "You're welcome! Is there anything else?"}], "tool_definitions": [{"name": "get_account_balance", "description": "Retrieves the current balance for a customer account", "parameters": {"type": "object", "properties": {"account_id": {"type": "string"}}, "required": ["account_id"]}}]}
{"messages": [{"role": "user", "content": "Explain the theory of relativity in simple terms."}, {"role": "assistant", "content": "Einstein's theory of relativity shows that space and time are interconnected and relative to the observer's frame of reference."}]}
{"messages": [{"role": "user", "content": "What's the weather in Seattle?"}, {"role": "assistant", "content": null, "tool_calls": [{"id": "call_002", "type": "function", "function": {"name": "get_weather", "arguments": "{\"location\": \"Seattle, WA\"}"}}]}, {"role": "tool", "tool_call_id": "call_002", "content": "{ \"temperature\": 55, \"condition\": \"Cloudy\" }"}, {"role": "assistant", "content": "It's currently 55F and cloudy in Seattle."}], "tool_definitions": [{"name": "get_weather", "description": "Get the current weather for a location", "parameters": {"type": "object", "properties": {"location": {"type": "string"}}, "required": ["location"]}}]}
{"messages": [{"role": "user", "content": "What is the tallest mountain in the world?"}, {"role": "assistant", "content": "Mount Everest is the tallest mountain in the world."}]}
{"messages": [{"role": "user", "content": "Is 4 x 2 = 16?"}, {"role": "assistant", "content": "No, 4 x 2 = 8."}]}
{"messages": [{"role": "user", "content": "What is the best Italian desert?"}, {"role": "assistant", "content": "Tiramisu is a popular Italian dessert."}]}
{"messages": [{"role": "user", "content": "What is the chemical formula for water?"}, {"role": "assistant", "content": "The chemical formula for water is H2O."}]}

データスキーマとエバリュエーターを定義する

会話データのスキーマ "messages" を指定し、会話レベルの評価用に設計されたエバリュエーターを選択します。会話レベルのエバリュエーターは、個々のターンではなく、相互作用全体を評価します。

Python
cURL

pip install "azure-ai-projects>=2.2.0"

import os
from openai.types.eval_create_params import DataSourceConfigCustom
from azure.identity import DefaultAzureCredential
from azure.ai.projects import AIProjectClient
from azure.ai.projects.models import TestingCriterionAzureAIEvaluator

endpoint = os.environ["FOUNDRY_PROJECT_ENDPOINT"]
model_deployment_name = os.environ["FOUNDRY_MODEL_NAME"]

with (
    DefaultAzureCredential() as credential,
    AIProjectClient(endpoint=endpoint, credential=credential) as project_client,
    project_client.get_openai_client() as openai_client,
):
    data_source_config = DataSourceConfigCustom(
        type="custom",
        item_schema={
            "type": "object",
            "properties": {
                "messages": {"type": "array"},
                "tool_definitions": {"type": "array"},
            },
            "required": ["messages"],
        },
        include_sample_schema=False,
    )

    testing_criteria = [
        TestingCriterionAzureAIEvaluator(
            type="azure_ai_evaluator",
            name="customer_satisfaction",
            evaluator_name="builtin.customer_satisfaction",
            initialization_parameters={"model": model_deployment_name},
            data_mapping={"messages": "{{item.messages}}"},
        ),
        TestingCriterionAzureAIEvaluator(
            type="azure_ai_evaluator",
            name="task_completion",
            evaluator_name="builtin.task_completion",
            initialization_parameters={"model": model_deployment_name},
            data_mapping={"messages": "{{item.messages}}"},
        ),
        TestingCriterionAzureAIEvaluator(
            type="azure_ai_evaluator",
            name="conversation_coherence",
            evaluator_name="builtin.coherence",
            initialization_parameters={"model": model_deployment_name},
            data_mapping={"messages": "{{item.messages}}"},
        ),
        TestingCriterionAzureAIEvaluator(
            type="azure_ai_evaluator",
            name="groundedness",
            evaluator_name="builtin.groundedness",
            initialization_parameters={"model": model_deployment_name},
            data_mapping={"messages": "{{item.messages}}"},
        ),
    ]

curl --request POST \
  --url "https://${ACCOUNT}.services.ai.azure.com/api/projects/${PROJECT}/openai/evals?api-version=2025-11-15-preview" \
  --header "Authorization: Bearer ${TOKEN}" \
  --header "Content-Type: application/json" \
  --data '{
    "name": "multiturn-conversation-evaluation",
    "data_source_config": {
      "type": "custom",
      "item_schema": {
        "type": "object",
        "properties": {
          "messages": {"type": "array"},
          "tool_definitions": {"type": "array"}
        },
        "required": ["messages"]
      },
      "include_sample_schema": false
    },
    "testing_criteria": [
      {
        "type": "azure_ai_evaluator",
        "name": "customer_satisfaction",
        "evaluator_name": "builtin.customer_satisfaction",
        "initialization_parameters": {"model": "gpt-5-mini"},
        "data_mapping": {"messages": "{{item.messages}}"}
      },
      {
        "type": "azure_ai_evaluator",
        "name": "task_completion",
        "evaluator_name": "builtin.task_completion",
        "initialization_parameters": {"model": "gpt-5-mini"},
        "data_mapping": {"messages": "{{item.messages}}"}
      },
      {
        "type": "azure_ai_evaluator",
        "name": "conversation_coherence",
        "evaluator_name": "builtin.coherence",
        "initialization_parameters": {"model": "gpt-5-mini"},
        "data_mapping": {"messages": "{{item.messages}}"}
      },
      {
        "type": "azure_ai_evaluator",
        "name": "groundedness",
        "evaluator_name": "builtin.groundedness",
        "initialization_parameters": {"model": "gpt-5-mini"},
        "data_mapping": {"messages": "{{item.messages}}"}
      }
    ]
  }'

評価を作成して実行する

Python
cURL

準備: sample_data_multiturn_conversations.jsonl をダウンロードします

from openai.types.evals.create_eval_jsonl_run_data_source_param import (
    CreateEvalJSONLRunDataSourceParam,
    SourceFileID,
)

# Upload conversation data
data_id = project_client.datasets.upload_file(
    name="multiturn-conversation-data",
    version="1",
    file_path="./sample_data_multiturn_conversations.jsonl",
).id

# Create the evaluation
eval_object = openai_client.evals.create(
    name="Multi-turn Conversation Evaluation",
    data_source_config=data_source_config,
    testing_criteria=testing_criteria,
)

# Create a run with evaluation_level set to "conversation"
eval_run = openai_client.evals.runs.create(
    eval_id=eval_object.id,
    name="multiturn-conversation-run",
    data_source=CreateEvalJSONLRunDataSourceParam(
        type="jsonl",
        source=SourceFileID(
            type="file_id",
            id=data_id,
        ),
    ),
    extra_body={"evaluation_level": "conversation"},
)

curl --request POST \
  --url "https://${ACCOUNT}.services.ai.azure.com/api/projects/${PROJECT}/openai/evals/${EVAL_ID}/runs?api-version=2025-11-15-preview" \
  --header "Authorization: Bearer ${TOKEN}" \
  --header "Content-Type: application/json" \
  --data '{
    "name": "multiturn-conversation-run",
    "evaluation_level": "conversation",
    "data_source": {
      "type": "jsonl",
      "source": {
        "type": "file_id",
        "id": "YOUR_DATASET_ID"
      }
    }
  }'

完了を確認して結果を解釈するには、「結果を取得する」を参照してください。

トレースからの ID による会話の評価

Application Insights からの特定の会話を評価するために、会話 ID を指定します。このオプションを使用して、問題の根本原因を特定したり、特定の対話に関する修正を確認したりします。たとえば、アラートによってフラグ付けされた会話を調査したり、既知の問題の修正プログラムを確認したりできます。

会話 ID を検索する場所

会話 ID は次の中から検索できます。

Application Insights トレースログ UI - 興味深いトレースを参照し、トレースの詳細で conversation_id フィールドを見つけます。
アプリケーションのログ出力 — エージェントの応答を作成するときに conversation_id を明示的に設定した場合は、ログから取得します。
OpenTelemetry トレースコンテキスト — エージェントが標準のトレースコンテキスト伝達を使用している場合、 conversation_id は traceparent ヘッダーから派生することもあります。

メモ

ツール定義は、トレースから自動的に取得されるか、エージェントレジストリから照会されます。要求で指定する必要はありません。

会話ID検索のパラメーター

パラメーター	必須	説明
`conversation_ids`	はい	評価対象の会話IDの配列。
`lookback_hours`	いいえ	`end_time`から遡って検索する時間数。既定値は 7 日 (168 時間) です。
`end_time`	いいえ	検索ウィンドウの末尾 (ISO 8601 形式)。既定値は現在の時刻です。

Python
cURL

import os
from azure.identity import DefaultAzureCredential
from azure.ai.projects import AIProjectClient
from azure.ai.projects.models import TestingCriterionAzureAIEvaluator

endpoint = os.environ["FOUNDRY_PROJECT_ENDPOINT"]
model_deployment_name = os.environ["FOUNDRY_MODEL_NAME"]

# Provide conversation IDs or trace IDs from App Insights
conversation_ids = ["conversation_1234", "conversation_5678"]

with (
    DefaultAzureCredential() as credential,
    AIProjectClient(endpoint=endpoint, credential=credential) as project_client,
    project_client.get_openai_client() as openai_client,
):
    # Eval group for trace-based evaluations
    data_source_config = {
        "type": "azure_ai_source",
        "scenario": "traces",
    }

    testing_criteria = [
        TestingCriterionAzureAIEvaluator(
            type="azure_ai_evaluator",
            name="customer_satisfaction",
            evaluator_name="builtin.customer_satisfaction",
            initialization_parameters={"model": model_deployment_name},
            data_mapping={"messages": "{{item.messages}}"},
        ),
        TestingCriterionAzureAIEvaluator(
            type="azure_ai_evaluator",
            name="task_completion",
            evaluator_name="builtin.task_completion",
            initialization_parameters={"model": model_deployment_name},
            data_mapping={"messages": "{{item.messages}}"},
        ),
        TestingCriterionAzureAIEvaluator(
            type="azure_ai_evaluator",
            name="conversation_coherence",
            evaluator_name="builtin.coherence",
            initialization_parameters={"model": model_deployment_name},
            data_mapping={"messages": "{{item.messages}}"},
        ),
        TestingCriterionAzureAIEvaluator(
            type="azure_ai_evaluator",
            name="groundedness",
            evaluator_name="builtin.groundedness",
            initialization_parameters={"model": model_deployment_name},
            data_mapping={"messages": "{{item.messages}}"},
        ),
    ]

    # Create evaluation with traces scenario
    eval_object = openai_client.evals.create(
        name="Multi-turn Trace Evaluation (by ID)",
        data_source_config=data_source_config,
        testing_criteria=testing_criteria,
    )

    # Run evaluation on specific conversation IDs
    eval_run = openai_client.evals.runs.create(
        eval_id=eval_object.id,
        name="multiturn-trace-by-id-run",
        data_source={
            "type": "azure_ai_trace_data_source_preview",
            "trace_source": {
                "type": "conversation_id_source",
                "conversation_ids": conversation_ids,
            },
        },
        extra_body={"evaluation_level": "conversation"},
    )

curl --request POST \
  --url "https://${ACCOUNT}.services.ai.azure.com/api/projects/${PROJECT}/openai/evals/${EVAL_ID}/runs?api-version=2025-11-15-preview" \
  --header "Authorization: Bearer ${TOKEN}" \
  --header "Content-Type: application/json" \
  --data '{
    "name": "conversation-trace-eval",
    "evaluation_level": "conversation",
    "data_source": {
      "type": "azure_ai_trace_data_source_preview",
      "trace_source": {
        "type": "conversation_id_source",
        "conversation_ids": ["conversation_1234", "conversation_5678"],
        "lookback_hours": 24,
        "end_time": "2026-05-21T00:00:00Z"
      }
    }
  }'

メモ

Application Insights のデータインジェストにより、トレースが生成されてから評価に使用できるようになるまでの間に遅延が発生する可能性があります。クエリでトレースが見つからない場合は、数分待ってから再試行してください。
最大ルックバックは 7 日 (168 時間) です。古いトレースにアクセスするには、App Insights の保持制限内で start_time と end_time を使用します。

エージェントフィルターによるサンプリングされた会話の評価

エージェント名をフィルター処理して、Application Insights からサンプリングされた会話のセットを評価します。このオプションを使用して、運用トラフィック全体のエージェントの全体的な品質を評価します。たとえば、定期的な品質評価を実行したり、運用環境での品質低下を監視したりします。

フィルター処理に指定するエージェントは、マルチエージェント会話の一部にすることができます。このフィルターは、そのエージェントが参加したすべての会話と一致します。

メモ

ツール定義は、トレースから自動的に取得されるか、エージェントレジストリから照会されます。要求で指定する必要はありません。

エージェント ID フィールド

次のいずれかの形式を使用して、フィルター処理するエージェントを指定します。

フォーマット	例	説明
`agent_name` + `agent_version`	`"agent_name": "my-agent", "agent_version": "1"`	2 つの異なるフィールド。 `agent_version`を省略した場合は、最新バージョンを使用します。
`agent_id`	`"agent_id": "my-agent:1"`	`"name:version"`形式の 1 つの文字列。

フィルター戦略

戦略	説明
`random_sampling`	(既定値) 最大 `max_traces` 件の会話を一様ランダムにサンプリングします。
`smart_filtering`	潜在的な問題、エッジケース、または異常を含む会話などの「興味深い」トレースを優先する傾向のある、サービス管理型ヒューリスティック。

パラメーター

パラメーター	必須	説明
`agent_name`	はい	トレースをフィルター処理するエージェント名。
`agent_version`	いいえ	エージェントのバージョン。省略した場合は、最新バージョンを使用します。
`agent_id`	いいえ	`agent_name` + `agent_version`に代わるもの。 `"name:version"`形式の 1 つの文字列。
`start_time`	はい	時間ウィンドウの開始（Unixエポック秒数、UTC）。
`end_time`	はい	時間ウィンドウの終了（Unixエポック秒数、UTC）。取り込みの遅延を避けるため、+600秒の余裕を持たせます。
`max_traces`	いいえ	サンプリングする最大会話数。既定値は 1,000 です。
`filter_strategy`	いいえ	`"random_sampling"` (既定) または `"smart_filtering"` (関心のあるトレースに偏るサービス管理ヒューリスティック)。

重要

時間枠 (end_time - start_time) は 、少なくとも 15 分 (900 秒) である必要があります。この要件が存在するのは、会話レベルのクエリでは、部分的な会話を回避するために、各エッジに 5 分間の非アクティブバッファーが適用されるためです。

Python
cURL

import os
import time
from azure.identity import DefaultAzureCredential
from azure.ai.projects import AIProjectClient
from azure.ai.projects.models import TestingCriterionAzureAIEvaluator

endpoint = os.environ["FOUNDRY_PROJECT_ENDPOINT"]
model_deployment_name = os.environ["FOUNDRY_MODEL_NAME"]
agent_name = os.environ["FOUNDRY_AGENT_NAME"]
agent_version = os.environ.get("FOUNDRY_AGENT_VERSION", "")

with (
    DefaultAzureCredential() as credential,
    AIProjectClient(endpoint=endpoint, credential=credential) as project_client,
    project_client.get_openai_client() as openai_client,
):
    # Eval group for trace-based evaluations
    data_source_config = {
        "type": "azure_ai_source",
        "scenario": "traces",
    }

    testing_criteria = [
        TestingCriterionAzureAIEvaluator(
            type="azure_ai_evaluator",
            name="customer_satisfaction",
            evaluator_name="builtin.customer_satisfaction",
            initialization_parameters={"model": model_deployment_name},
            data_mapping={"messages": "{{item.messages}}"},
        ),
        TestingCriterionAzureAIEvaluator(
            type="azure_ai_evaluator",
            name="task_completion",
            evaluator_name="builtin.task_completion",
            initialization_parameters={"model": model_deployment_name},
            data_mapping={"messages": "{{item.messages}}"},
        ),
        TestingCriterionAzureAIEvaluator(
            type="azure_ai_evaluator",
            name="conversation_coherence",
            evaluator_name="builtin.coherence",
            initialization_parameters={"model": model_deployment_name},
            data_mapping={"messages": "{{item.messages}}"},
        ),
        TestingCriterionAzureAIEvaluator(
            type="azure_ai_evaluator",
            name="groundedness",
            evaluator_name="builtin.groundedness",
            initialization_parameters={"model": model_deployment_name},
            data_mapping={"messages": "{{item.messages}}"},
        ),
    ]

    eval_object = openai_client.evals.create(
        name="Multi-turn Trace Evaluation (Agent Filter)",
        data_source_config=data_source_config,
        testing_criteria=testing_criteria,
    )

    # Compute time window in unix seconds
    # Pad end_time by +600s (10 min) to avoid ingestion-delay edge exclusion
    now_unix = int(time.time())
    end_time = now_unix + 600
    start_time = now_unix - (24 * 3600)  # 24 hours lookback

    # Build trace_source with agent filter
    trace_source = {
        "type": "agent_filter",
        "agent_name": agent_name,
        "start_time": start_time,
        "end_time": end_time,
        "max_traces": 5,
    }
    if agent_version:
        trace_source["agent_version"] = agent_version

    # Run evaluation on sampled agent conversations
    eval_run = openai_client.evals.runs.create(
        eval_id=eval_object.id,
        name="multiturn-agent-filter-run",
        data_source={
            "type": "azure_ai_trace_data_source_preview",
            "trace_source": trace_source,
        },
        extra_body={"evaluation_level": "conversation"},
    )

curl --request POST \
  --url "https://${ACCOUNT}.services.ai.azure.com/api/projects/${PROJECT}/openai/evals/${EVAL_ID}/runs?api-version=2025-11-15-preview" \
  --header "Authorization: Bearer ${TOKEN}" \
  --header "Content-Type: application/json" \
  --data '{
    "name": "agent-quality-eval",
    "evaluation_level": "conversation",
    "data_source": {
      "type": "azure_ai_trace_data_source_preview",
      "trace_source": {
        "type": "agent_filter",
        "agent_name": "my-support-agent",
        "agent_version": "1",
        "start_time": 1743465600,
        "end_time": 1743552600,
        "max_traces": 100,
        "filter_strategy": "random_sampling"
      }
    }
  }'

メモ

App Insights クエリの期間は現在、最大 7 日間 (168 時間) に制限されています。 App Insights の保持制限内で start_time と end_time を明示的に指定しないと、7 日より前のトレースにアクセスすることはできません。

完了を確認して結果を解釈するには、「結果を取得する」を参照してください。

会話シミュレーション

シナリオの説明からシミュレートされた会話を生成し、会話レベルで評価します。このシナリオを使用して、デプロイ前に制御された状況でエージェントの動作をテストします。サービスは、シナリオの説明に基づいて現実的な会話を生成し、それらを評価します。

この方法は、次の場合に役立ちます。

デプロイ前テスト: 実際のユーザートラフィックなしで、さまざまなシナリオでエージェントの動作を検証します。
エッジケースカバレッジ: 自然にはほとんど発生しないが、適切に処理することが重要なシナリオをテストします。
回帰テスト: 既知のシナリオでエージェントの更新によってパフォーマンスが低下しないようにします。
スケールテスト: ストレステストエージェントの機能に対して多くの会話をすばやく生成します。

会話シミュレーションのしくみ

シナリオの説明のデータセットを指定します。各行には、シミュレートされたユーザーが実行しようとする状況が記述されています。
このサービスでは、シミュレーターモデルを使用してユーザーの役割を果たし、シナリオに基づいてエージェントと対話します。
各シナリオでは、1 つ以上の完全な会話が生成されます。
会話レベルのエバリュエーターは、生成された会話を評価します。
プロジェクトには、会話と評価結果の両方が格納されます。

シナリオデータを準備する

シミュレートされたユーザーのシナリオを各行に記述する JSONL ファイルを作成します。スキーマには、 id、 test_case_description、および desired_num_turnsが必要です。ユーザーの目標、コンテキスト、および制約に関する詳細を含めます。完全な例については、SDK の conversation 評価サンプルを参照してください。


{"id": "contoso_refund_timeline", "test_case_description": "Customer returned an item to Contoso Electronics 5 days ago and hasn't received their refund yet. They want to know how long Contoso refunds take.", "desired_num_turns": 10}
{"id": "contoso_store_hours_lookup", "test_case_description": "Customer wants to know what time the Contoso Electronics store closes today. Simple single-fact question with possibly one clarifying turn about which location.", "desired_num_turns": 3}

パラメーター

パラメーター	必須	説明
`num_conversations`	いいえ	シナリオごとに生成する会話の数。既定値は 5、サーバー側の上限は 5 です。
`max_turns`	いいえ	会話あたりのターン (交換) の最大数。既定値は 10、サーバー側の上限は 20 です。
`model`	はい	ユーザーのシミュレートに使用するモデルデプロイ。たとえば、「 `gpt-4.1` 」のように入力します。
`sampling_params`	いいえ	シミュレーターモデルのサンプリングパラメーター ( `temperature`、 `top_p`、 `max_completion_tokens`など)。
`data_mapping`	いいえ	シナリオ JSONL のフィールドをシミュレーションパラメーターにマップします。一般的なマッピング: `test_case_description`、 `id`、 `desired_num_turns`。

エバリュエーターの定義

会話レベルの評価用に設計されたエバリュエーターを選択します。シミュレートされた会話は、エバリュエーターに自動的にマップされます。

Python
cURL

import os
from openai.types.eval_create_params import DataSourceConfigCustom
from azure.identity import DefaultAzureCredential
from azure.ai.projects import AIProjectClient
from azure.ai.projects.models import TestingCriterionAzureAIEvaluator, PromptAgentDefinition

endpoint = os.environ["FOUNDRY_PROJECT_ENDPOINT"]
model_deployment_name = os.environ["FOUNDRY_MODEL_NAME"]
agent_name = os.environ.get("FOUNDRY_AGENT_NAME", "")

with (
    DefaultAzureCredential() as credential,
    AIProjectClient(endpoint=endpoint, credential=credential) as project_client,
    project_client.get_openai_client() as openai_client,
):
    # Simulation uses the same "custom" eval group type as dataset evaluation (S1),
    # since the generated conversations follow the same messages schema.
    data_source_config = DataSourceConfigCustom(
        type="custom",
        item_schema={
            "type": "object",
            "properties": {
                "messages": {"type": "array"},
            },
            "required": ["messages"],
        },
        include_sample_schema=False,
    )

    testing_criteria = [
        TestingCriterionAzureAIEvaluator(
            type="azure_ai_evaluator",
            name="customer_satisfaction",
            evaluator_name="builtin.customer_satisfaction",
            initialization_parameters={"model": model_deployment_name},
            data_mapping={"messages": "{{item.messages}}"},
        ),
        TestingCriterionAzureAIEvaluator(
            type="azure_ai_evaluator",
            name="task_completion",
            evaluator_name="builtin.task_completion",
            initialization_parameters={"model": model_deployment_name},
            data_mapping={"messages": "{{item.messages}}"},
        ),
        TestingCriterionAzureAIEvaluator(
            type="azure_ai_evaluator",
            name="conversation_coherence",
            evaluator_name="builtin.coherence",
            initialization_parameters={"model": model_deployment_name},
            data_mapping={"messages": "{{item.messages}}"},
        ),
        TestingCriterionAzureAIEvaluator(
            type="azure_ai_evaluator",
            name="groundedness",
            evaluator_name="builtin.groundedness",
            initialization_parameters={"model": model_deployment_name},
            data_mapping={"messages": "{{item.messages}}"},
        ),
    ]

curl --request POST \
  --url "https://${ACCOUNT}.services.ai.azure.com/api/projects/${PROJECT}/openai/evals?api-version=2025-11-15-preview" \
  --header "Authorization: Bearer ${TOKEN}" \
  --header "Content-Type: application/json" \
  --data '{
    "name": "conversation-simulation-evaluation",
    "data_source_config": {
      "type": "custom",
      "item_schema": {
        "type": "object",
        "properties": {
          "messages": {"type": "array"}
        },
        "required": ["messages"]
      },
      "include_sample_schema": false
    },
    "testing_criteria": [
      {
        "type": "azure_ai_evaluator",
        "name": "customer_satisfaction",
        "evaluator_name": "builtin.customer_satisfaction",
        "initialization_parameters": {"model": "gpt-5-mini"},
        "data_mapping": {"messages": "{{item.messages}}"}
      },
      {
        "type": "azure_ai_evaluator",
        "name": "task_completion",
        "evaluator_name": "builtin.task_completion",
        "initialization_parameters": {"model": "gpt-5-mini"},
        "data_mapping": {"messages": "{{item.messages}}"}
      },
      {
        "type": "azure_ai_evaluator",
        "name": "conversation_coherence",
        "evaluator_name": "builtin.coherence",
        "initialization_parameters": {"model": "gpt-5-mini"},
        "data_mapping": {"messages": "{{item.messages}}"}
      },
      {
        "type": "azure_ai_evaluator",
        "name": "groundedness",
        "evaluator_name": "builtin.groundedness",
        "initialization_parameters": {"model": "gpt-5-mini"},
        "data_mapping": {"messages": "{{item.messages}}"}
      }
    ]
  }'

評価を作成して実行する

Python
cURL

準備: sample_data_simulation_scenarios.jsonlをダウンロードします。

# Create (or update) an agent to simulate against
agent = project_client.agents.create_version(
    agent_name=agent_name,
    definition=PromptAgentDefinition(
        model=model_deployment_name,
        instructions="You are a helpful customer service agent. Be empathetic and solution-oriented.",
    ),
)

# Upload scenario data
scenarios_id = project_client.datasets.upload_file(
    name="simulation-scenarios",
    version="1",
    file_path="./sample_data_simulation_scenarios.jsonl",
).id

# Create the evaluation
eval_object = openai_client.evals.create(
    name="Multi-turn Conversation Simulation",
    data_source_config=data_source_config,
    testing_criteria=testing_criteria,
)

# Create a simulation run
eval_run = openai_client.evals.runs.create(
    eval_id=eval_object.id,
    name="conversation-simulation-run",
    data_source={
        "type": "azure_ai_target_completions",
        "source": {
            "type": "file_id",
            "id": scenarios_id,
        },
        "target": {
            "type": "azure_ai_agent",
            "name": agent.name,
            "version": agent.version,
        },
        "item_generation_params": {
            "type": "conversation_gen_preview",
            "model": model_deployment_name,
            "num_conversations": 2,
            "max_turns": 5,
            "sampling_params": {
                "temperature": 0.7,
                "top_p": 1.0,
                "max_completion_tokens": 800,
            },
            "data_mapping": {
                "test_case_description": "test_case_description",
                "id": "id",
                "desired_num_turns": "desired_num_turns",
            },
        },
    },
    extra_body={"evaluation_level": "conversation"},
)

curl --request POST \
  --url "https://${ACCOUNT}.services.ai.azure.com/api/projects/${PROJECT}/openai/evals/${EVAL_ID}/runs?api-version=2025-11-15-preview" \
  --header "Authorization: Bearer ${TOKEN}" \
  --header "Content-Type: application/json" \
  --data '{
    "name": "conversation-simulation-run",
    "evaluation_level": "conversation",
    "data_source": {
      "type": "azure_ai_target_completions",
      "source": {
        "type": "file_id",
        "id": "YOUR_SCENARIOS_DATASET_ID"
      },
      "target": {
        "type": "azure_ai_agent",
        "name": "my-agent",
        "version": "1"
      },
      "item_generation_params": {
        "type": "conversation_gen_preview",
        "model": "gpt-4.1",
        "num_conversations": 2,
        "max_turns": 5,
        "sampling_params": {
          "temperature": 0.7,
          "top_p": 1.0,
          "max_completion_tokens": 800
        },
        "data_mapping": {
        }
      }
    }
  }'

完了を確認して結果を解釈するには、「結果を取得する」を参照してください。

結果を取得する

評価の実行が完了したら、スコア付けされた結果を取得し、ポータルまたはプログラムで確認します。

結果を取得するためにポーリングする

評価実行は非同期です。実行状態が完了するまでポーリングを行い、次に結果を取得します。

import time
from pprint import pprint

while True:
    run = openai_client.evals.runs.retrieve(
        run_id=eval_run.id, eval_id=eval_object.id
    )
    if run.status in ("completed", "failed"):
        break
    time.sleep(5)
    print("Waiting for eval run to complete...")

# Retrieve results
output_items = list(
    openai_client.evals.runs.output_items.list(
        run_id=run.id, eval_id=eval_object.id
    )
)
pprint(output_items)
print(f"Report URL: {run.report_url}")

結果を解釈する

1 つのデータ例の場合、すべてのエバリュエーターは次のスキーマを出力します。

ラベル: 単体テストの出力に似たバイナリ "pass" または "fail" ラベル。この結果を使用して、エバリュエーター間の比較を容易にします。
スコア: 各エバリュエーターの自然なスケールからのスコア。一部のエバリュエーターは、きめ細かいルーブリックを使用し、5 ポイントスケール (品質エバリュエーター) または 7 ポイントスケール (コンテンツ安全エバリュエーター) でスコア付けします。テキスト類似性エバリュエーターなどの他のユーザーは、F1 スコアを使用します。これは 0 から 1 の間の浮動小数点数です。非バイナリの "score" は、"threshold" に基づいて "label" フィールドで "pass" または "fail" にバイナリ化されます。
しきい値: 非バイナリスコアは、既定のしきい値に基づいて "成功" または "失敗" にバイナリ化され、ユーザーは SDK エクスペリエンスでオーバーライドできます。
理由: すべての LLM ジャッジエバリュエーターは、明瞭性を向上させるために、特定のスコアが与えられる理由を説明する推論フィールドも出力します。
詳細: (省略可能) tool_call_accuracyなどの一部のエバリュエーターには、ユーザーがアプリケーションをデバッグするのに役立つ追加情報を含む "詳細" フィールドまたはフラグが存在する場合があります。

出力例 (1 つの項目)

{
  "type": "azure_ai_evaluator",
  "name": "Coherence",
  "metric": "coherence",
  "score": 4.0,
  "label": "pass",
  "reason": "The response is well-structured and logically organized, presenting information in a clear and coherent manner.",
  "threshold": 3,
  "passed": true
}

出力例 (集計)

複数のデータ例 (データセット) に対する集計結果の場合、"pass" を持つ例の平均レートは、そのデータセットの合格率を形成します。

{
  "eval_id": "eval_abc123",
  "run_id": "run_xyz789",
  "status": "completed",
  "result_counts": {
    "passed": 85,
    "failed": 15,
    "total": 100
  },
  "per_testing_criteria_results": [
    {
      "name": "coherence",
      "passed": 92,
      "failed": 8,
      "pass_rate": 0.92
    },
    {
      "name": "relevance", 
      "passed": 78,
      "failed": 22,
      "pass_rate": 0.78
    }
  ]
}

トラブルシューティング

長時間実行されているジョブ

評価ジョブは、長時間実行状態のままになる可能性があります。通常、この状態は、Azure OpenAI モデルのデプロイに十分な容量がないため、サービスが要求を再試行する場合に発生します。

解像度：

openai_client.evals.runs.cancel(run_id, eval_id=eval_id)を使用して、現在の評価ジョブを取り消します。
Azure ポータルでモデル容量を増やします。
評価をもう一度実行します。

認証エラー

401 Unauthorizedまたは403 Forbiddenエラーが発生した場合は、次のことを確認します。

DefaultAzureCredentialが正しく構成されています。 Azure CLIを使用している場合は、az login を実行します。
お使いのアカウントには、 Foundry プロジェクトの Foundry ユーザー ロールがあります。
プロジェクトエンドポイントの URL は正しく、アカウント名とプロジェクト名の両方が含まれています。

データ形式のエラー

スキーマまたはデータマッピングエラーで評価が失敗した場合:

JSONL ファイルに 1 行に 1 つの有効な JSON オブジェクトがあることを確認します。
data_mappingのフィールド名が JSONL ファイル内のフィールド名と正確に一致することを確認します (大文字と小文字が区別されます)。
item_schemaプロパティがデータセット内のフィールドと一致することを確認します。

レート制限エラー

評価実行の作成には、テナント、サブスクリプション、プロジェクトの各レベルでレート制限が適用されます。 429 Too Many Requests応答を受け取った場合:

応答の retry-after ヘッダーで、推奨される待機時間を確認します。
レート制限の詳細については、応答本文を確認します。
失敗した要求を再試行するときは、指数バックオフを使用します。

実行中に評価ジョブが 429 エラーで失敗した場合:

評価データセットのサイズを小さくするか、小さなバッチに分割します。
Azure ポータルで、モデルデプロイの 1 分あたりのトークン (TPM) クォータを増やします。

エージェントエバリュエーターツールのエラー

サポートされていないツールのエラーがエージェントエバリュエーターから返された場合:

エージェントエバリュエーターでサポートされているツールを確認します。
回避策として、エバリュエーターが評価できるように、サポートされていないツールをユーザー定義関数ツールとしてラップします。

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-06-03

Microsoft Foundry SDK を使用してクラウドで評価を実行する

クラウド評価のしくみ

出発点を選択する

既存のデータセット

Foundry または Application Insights のデータ

応答のない入力

データがまだない

エバリュエーターの選択

前提 条件

概要

入力データを準備する

データセットをアップロードする (推奨)

データをインラインで提供する

データセットの評価

データ スキーマとエバリュエーターを定義する

評価を作成して実行する

CSV データセットの評価

CSV ファイルを準備する

アップロードして実行する

モデル対象の評価

メッセージ テンプレートとターゲットを定義する

エバリュエーターとデータ マッピングを設定する

評価を作成して実行する

エージェントの目標評価

メッセージ テンプレートとターゲットを定義する

エバリュエーターとデータ マッピングを設定する

評価を作成して実行する

ホストされるエージェント呼び出しプロトコル

メッセージの形式とターゲットを定義する

評価を作成して実行する

エージェントの応答の評価

応答 ID を収集する

評価を作成して実行する

トレース評価 (プレビュー)

インテリジェント サンプリング

インテリジェント サンプリングのしくみ

インテリジェント サンプリングの例

トレース データの要件

トレース評価の前提条件

オプション A: エージェント フィルターによる評価

オプション B: トレース ID による評価

Application Insights からトレース ID を収集する

評価を作成し、トレース ID を使用して実行する

エバリュエーターとデータ マッピングを設定する

合成データの評価 (プレビュー)

合成データの評価のしくみ

パラメーター

エバリュエーターとデータ マッピングを設定する

評価を作成して実行する

モデル ターゲット

エージェントターゲット

会話レベルの評価 (プレビュー)

評価レベルを選択する

一般的なエラー

会話データを準備する

データ スキーマとエバリュエーターを定義する

評価を作成して実行する

トレースからの ID による会話の評価

会話 ID を検索する場所

会話ID検索のパラメーター

エージェント フィルターによるサンプリングされた会話の評価

エージェント ID フィールド

フィルター戦略

パラメーター

会話シミュレーション

会話シミュレーションのしくみ

シナリオ データを準備する

パラメーター

エバリュエーターの定義

評価を作成して実行する

結果を取得する

結果を取得するためにポーリングする

結果を解釈する

出力例 (1 つの項目)

出力例 (集計)

トラブルシューティング

長時間実行されているジョブ

認証エラー

データ形式のエラー

レート制限エラー

前提条件

データスキーマとエバリュエーターを定義する

メッセージテンプレートとターゲットを定義する

エバリュエーターとデータマッピングを設定する

メッセージテンプレートとターゲットを定義する

エバリュエーターとデータマッピングを設定する

インテリジェントサンプリング

インテリジェントサンプリングのしくみ

インテリジェントサンプリングの例

トレースデータの要件

オプション A: エージェントフィルターによる評価

エバリュエーターとデータマッピングを設定する

エバリュエーターとデータマッピングを設定する

モデルターゲット

データスキーマとエバリュエーターを定義する

エージェントフィルターによるサンプリングされた会話の評価

シナリオデータを準備する

エージェントエバリュエーターツールのエラー