[このトピックはプレリリースのドキュメントであり、変更される可能性があります。
プロンプトを使用すると、ビジネス自動化とエージェント用のカスタム生成 AI ツールを作成できます。 これらのツールの精度、信頼性、効率を確保することが重要です。 プロンプトのバッチ テストは、プラットフォーム全体の AI ツールで使用されるプロンプトを検証および改善できるように設計されています。
Important
- 運用に対応したプレビュー機能です。
- 運用に対応したプレビューには、補足利用規約 が適用されます。
- プロンプトは、 Azure OpenAI Service を利用した GPT モデルで実行されます。
- この機能は、お使いのリージョンではまだ使用できない場合があります。 詳細については、「リージョン別または米国政府環境別の機能の可用性」の「プロンプト」セクションを参照してください。
- この機能は、使用制限または容量帯域幅調整の対象となる場合があります。
バッチ テストのコア機能
バッチ テストでは、多様なデータセットに対するプロンプトを検証するための体系的なアプローチが提供されます。 次のようにすることができます。
- 包括的な評価のためにテスト データセットをアップロードまたは生成します。
- テスト結果を判断するための評価基準を定義します。
- バッチ テストを実行して、テスト データセット全体のプロンプト動作を評価します。
- 時間の経過に伴う結果を比較して、継続的な改善を確保します。
- 自動評価を確認して、特定のニーズに沿うように調整します。
精度スコアはテスト結果に基づいて計算され、AI ツールを信頼するための経験データが得られます。
バッチ テストを使用する方法
プロンプトのバッチ テストを設定して実行するには、次の手順に従います。
テスト ケースを定義する
Copilot Studio、Power Apps、または Power Automate にサインインします。
プロンプトの一覧にアクセスします。
- Copilot Studio で、[ ツール] を選択し、プロンプトでフィルター処理します。
- Power Apps と Power Automate で、 AI ハブを選択します。
プロンプト名の横で、3つの点(...)を選択します。
[ テスト ハブ (プレビュー)]を選択します。
Copilot Studio の [ツール ] 画面の例を次に示します。
Copilot Studio では、テスト ハブは次のスクリーンショットのようになります。
使用可能なオプションを 1 つ使用してテスト ケースを追加します。
- アップロード: csv ファイルを使用してテスト ケースをアップロードできます。 アップロードする必要があるファイルの形式を確認する場合は、[テスト データ スキーマのダウンロード] を選択します。
- AI 生成: プロンプトに基づいて AI を使用してテスト ケースを生成できます。
- アクティビティ データを使用する: 最近のプロンプト アクティビティをプルして、作業を開始できるようにします。
- 手動で追加: テスト ケースを手動で作成できます。
いずれかのオプションは、実行できるテスト ケースの一覧を作成するのに役立ちます。
評価基準を設定する
テスト ケースを作成したら、右側の構成セクションで [条件 の構成] を選択します。
合格スコアを定義します。これは、応答が合格するために必要な最小スコアです。
次のいずれかの事前構築済み条件を選択します。
- 応答の品質: 応答をテストして、明確さ、役立ち、トーンを確認します
- 応答の一致: 特定の単語と意味の応答をテストします
- JSON の正確性: 応答がデータ スキーマに従うテスト
これらの条件と合格スコアによって、評価プロセス中にテスト ケースの出力がどのように評価されるかが決まります。
バッチ テストを実行する
テスト ケース画面で、[ すべて実行 ] を選択してすべてのテスト ケースで評価を実行するか、実行するテスト ケースを選択し、[ 選択した実行] を選択します。
テスト ハブは、定義された条件に対して結果を評価し、プロンプトのパフォーマンスに関する分析情報を提供します。
テスト ケースの評価が完了すると、結果画面が表示されます。
以前の評価実行にアクセスするには、Copilot Studio の画面の上部にあるプロンプト名を選択するか、Power Apps または Power Automate で [実行履歴 ] を選択します。
詳細を表示するには、評価実行を選択します。
実行履歴を使用すると、次のような時間の経過と同時にテスト結果を監視および分析できます。
- 複数のテスト走行の精度スコアの進捗を追跡します。
- さまざまな実行の結果を比較して、傾向や回帰を特定します。
- 特定のテスト結果が合格または不合格に分類された理由の詳細にアクセスし、診断の詳細を提供します。
テスト ケースの評価を反復処理し、評価の実行間の重大な変更を監視します。