プロンプトのバッチテスト (プレビュー)

[このトピックはプレリリースのドキュメントであり、変更される可能性があります。

プロンプトを使用すると、ビジネス自動化とエージェント用のカスタム生成 AI ツールを作成できます。これらのツールの精度、信頼性、効率を確保することが重要です。プロンプトのバッチテストは、プラットフォーム全体の AI ツールで使用されるプロンプトを検証および改善できるように設計されています。

Important

運用に対応したプレビュー機能です。
運用に対応したプレビューには、補足利用規約が適用されます。
プロンプトは、 Azure OpenAI Service を利用した GPT モデルで実行されます。
この機能は、お使いのリージョンではまだ使用できない場合があります。詳細については、「リージョン別または米国政府環境別の機能の可用性」の「プロンプト」セクションを参照してください。
この機能は、使用制限または容量帯域幅調整の対象となる場合があります。

バッチテストのコア機能

バッチテストでは、多様なデータセットに対するプロンプトを検証するための体系的なアプローチが提供されます。次のようにすることができます。

包括的な評価のためにテストデータセットをアップロードまたは生成します。
テスト結果を判断するための評価基準を定義します。
バッチテストを実行して、テストデータセット全体のプロンプト動作を評価します。
時間の経過に伴う結果を比較して、継続的な改善を確保します。
自動評価を確認して、特定のニーズに沿うように調整します。

精度スコアはテスト結果に基づいて計算され、AI ツールを信頼するための経験データが得られます。

バッチテストを使用する方法

プロンプトのバッチテストを設定して実行するには、次の手順に従います。

テストケースを定義する

Copilot Studio、Power Apps、または Power Automate にサインインします。
プロンプトの一覧にアクセスします。
- Copilot Studio で、[ ツール] を選択し、プロンプトでフィルター処理します。
- Power Apps と Power Automate で、 AI ハブを選択します。
プロンプト名の横で、3つの点(...)を選択します。
[ テストハブ (プレビュー)]を選択します。

Copilot Studio の [ツール ] 画面の例を次に示します。

$[Test hub - Preview]$テストハブ - プレビュー$ オプションが表示されたメニューのスクリーンショット。$

Copilot Studio では、テストハブは次のスクリーンショットのようになります。
使用可能なオプションを 1 つ使用してテストケースを追加します。
- アップロード: csv ファイルを使用してテストケースをアップロードできます。アップロードする必要があるファイルの形式を確認する場合は、[テストデータスキーマのダウンロード] を選択します。
- AI 生成: プロンプトに基づいて AI を使用してテストケースを生成できます。
- アクティビティデータを使用する: 最近のプロンプトアクティビティをプルして、作業を開始できるようにします。
- 手動で追加: テストケースを手動で作成できます。
いずれかのオプションは、実行できるテストケースの一覧を作成するのに役立ちます。

評価基準を設定する

テストケースを作成したら、右側の構成セクションで [条件 の構成] を選択します。
合格スコアを定義します。これは、応答が合格するために必要な最小スコアです。
次のいずれかの事前構築済み条件を選択します。
- 応答の品質: 応答をテストして、明確さ、役立ち、トーンを確認します
- 応答の一致: 特定の単語と意味の応答をテストします
- JSON の正確性: 応答がデータスキーマに従うテスト
これらの条件と合格スコアによって、評価プロセス中にテストケースの出力がどのように評価されるかが決まります。

バッチテストを実行する

テストケース画面で、[ すべて実行 ] を選択してすべてのテストケースで評価を実行するか、実行するテストケースを選択し、[ 選択した実行] を選択します。

テストハブは、定義された条件に対して結果を評価し、プロンプトのパフォーマンスに関する分析情報を提供します。
テストケースの評価が完了すると、結果画面が表示されます。
以前の評価実行にアクセスするには、Copilot Studio の画面の上部にあるプロンプト名を選択するか、Power Apps または Power Automate で [実行履歴 ] を選択します。
詳細を表示するには、評価実行を選択します。

実行履歴を使用すると、次のような時間の経過と同時にテスト結果を監視および分析できます。

複数のテスト走行の精度スコアの進捗を追跡します。
さまざまな実行の結果を比較して、傾向や回帰を特定します。
特定のテスト結果が合格または不合格に分類された理由の詳細にアクセスし、診断の詳細を提供します。

テストケースの評価を反復処理し、評価の実行間の重大な変更を監視します。

プロンプトとテキスト生成機能に関する FAQ

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-11-13

次の方法で共有

プロンプトのバッチ テスト (プレビュー)

バッチ テストのコア機能

バッチ テストを使用する方法

テスト ケースを定義する