提示詞批次測試（預覽版）

[本主題是發行前版本文件，可能會變更。

提示可讓您為業務自動化和代理程式建立自訂生成式 AI 工具。確保這些工具的準確性、可靠性和效率至關重要。提示的批量測試旨在使您能夠驗證和改進整個平台 AI 工具中使用的提示。

Important

此為生產就緒型預覽功能。
生產就緒型預覽受補充使用規定規範限制。
Prompts 在由 Azure OpenAI 服務支援的 GPT 模型上運行。
您所在的地區可能尚無法使用此功能。如需詳細資訊，請參閱依區域或美國政府環境提供的功能可用性中的提示區段。
此功能可能會受到使用限制或容量調節的影響。

批量測試的核心功能

批次測試提供了一種系統化的方法來驗證不同資料集上的提示。您可以：

上傳或生成測試數據集以進行全面評估。
定義判斷測試結果的評估標準。
執行批次測試以評估整個測試資料集的提示行為。
比較一段時間內的結果，以確保持續改進。
審查和調整自動評估，以確保符合您的特定需求。

準確度分數是根據測試結果計算的，為您提供經驗數據以信任您的 AI 工具。

如何使用批次測試

使用下列步驟來設定和執行提示的批次測試。

定義測試案例

登入 Copilot Studio、 Power Apps 或 Power Automate。
存取提示清單：
- 在 Copilot Studio 中，選取 工具，然後根據提示進行篩選。
- 在Power Apps和Power Automate中，選擇AI hub。
在提示名稱旁邊，選擇三個點（...）。
選取 [ 測試中樞（預覽版）]。

以下是 Copilot Studio 中 [工具] 畫面的範例：

在 Copilot Studio 中，測試中心看起來像以下截圖：
使用其中一個可用選項新增測試案例：
- 上傳：允許您使用 csv 檔案上傳測試案例。如果您想要檢查需要上傳的檔案格式，請選取下載測試資料結構描述。
- AI 生成：允許您根據提示使用 AI 生成測試用例。
- 使用活動資料：可讓您提取最近的提示活動，以協助您開始。
- 手動新增：允許您手動建立測試案例。
任何選項都可協助您建立能夠執行的測試案例清單：

設定評估標準

建立測試案例之後，請在右側的設定區段中選取 [設定準則 ]：
定義 通過分數，這是回應通過所需的最低分數。
請選擇以下其中一個預先設定的準則：
- 回應質量：測試回應的清晰度、有用性和語氣
- 回應匹配： 測試特定單詞和含義的回應
- JSON 正確性：測試回應是否遵循您的資料結構描述
這些標準和及格分數決定了在評估過程中如何評估測試案例輸出。

執行批次測試

在測試案例畫面中，選取 [全部執行] 以對所有測試案例執行評估，或選取要執行的測試案例，然後選取 [執行選取的專案]。

測試中心根據定義的標準評估結果，提供對提示效能的見解。
完成測試案例評估之後，結果畫面隨即顯示：
若要存取先前的評估執行結果，請在 Copilot Studio 中選擇畫面頂端的提示名稱，或在 Power Apps 或 Power Automate 中選擇 Run history（執行歷程）。
若要檢視詳細資料，請選取評估回合。

執行歷程記錄可讓您監視和分析一段時間內的測試結果，包括：

追蹤多次測試運行的準確率分數進度。
比較不同執行的結果，以識別趨勢或迴歸。
訪問有關某個測試結果被分類為通過或失敗的原因的詳細信息，從而提供更多診斷詳細信息。

逐步改進測試案例的評估，並監視評估過程中的任何重大變更。

提示和文本生成功能的常見問題

意見反應

此頁面對您有幫助嗎？

Last updated on 2026-05-01