[本主題是發行前版本文件,可能會變更。
提示可讓您為業務自動化和代理程式建立自訂生成式 AI 工具。 確保這些工具的準確性、可靠性和效率至關重要。 提示的批量測試旨在使您能夠驗證和改進整個平台 AI 工具中使用的提示。
Important
- 此為生產就緒型預覽功能。
- 生產就緒型預覽受補充使用規定規範限制。
- Prompts 在由 Azure OpenAI 服務 支援的 GPT 模型上運行。
- 您所在的地區可能尚無法使用此功能。 如需詳細資訊,請參閱依區域或美國政府環境提供的功能可用性中的提示區段。
- 此功能可能會受到使用限制或容量調節的影響。
批量測試的核心功能
批次測試提供了一種系統化的方法來驗證不同資料集上的提示。 您可以:
- 上傳或生成測試數據集以進行全面評估。
- 定義判斷測試結果的評估標準。
- 執行批次測試以評估整個測試資料集的提示行為。
- 比較一段時間內的結果,以確保持續改進。
- 審查和調整自動評估,以確保符合您的特定需求。
準確度分數是根據測試結果計算的,為您提供經驗數據以信任您的 AI 工具。
如何使用批次測試
使用下列步驟來設定和執行提示的批次測試。
定義測試案例
存取提示清單:
- 在 Copilot Studio 中,選取 工具,然後根據提示進行篩選。
- 在Power Apps和Power Automate中,選擇AI hub。
在提示名稱旁邊,選擇三個點(...)。
選取 [ 測試中樞 (預覽版)]。
以下是 Copilot Studio 中 [工具] 畫面的範例:
在 Copilot Studio 中,測試中心看起來像以下截圖:
使用其中一個可用選項新增測試案例:
- 上傳:允許您使用 csv 檔案上傳測試案例。 如果您想要檢查需要上傳的檔案格式,請選取 下載測試資料結構描述。
- AI 生成: 允許您根據提示使用 AI 生成測試用例。
- 使用活動資料:可讓您提取最近的提示活動,以協助您開始。
- 手動新增:允許您手動建立測試案例。
任何選項都可協助您建立能夠執行的測試案例清單:
設定評估標準
建立測試案例之後,請在右側的設定區段中選取 [設定準則 ]:
定義 通過分數,這是回應通過所需的最低分數。
請選擇以下其中一個預先設定的準則:
- 回應質量: 測試回應的清晰度、有用性和語氣
- 回應匹配: 測試特定單詞和含義的回應
- JSON 正確性:測試回應是否遵循您的資料結構描述
這些標準和及格分數決定了在評估過程中如何評估測試案例輸出。
執行批次測試
在測試案例畫面中,選取 [全部執行] 以對所有測試案例執行評估,或選取要執行的測試案例,然後選取 [執行選取的專案]。
測試中心根據定義的標準評估結果,提供對提示效能的見解。
完成測試案例評估之後,結果畫面隨即顯示:
若要存取先前的評估執行結果,請在 Copilot Studio 中選擇畫面頂端的提示名稱,或在 Power Apps 或 Power Automate 中選擇 Run history(執行歷程)。
若要檢視詳細資料,請選取評估回合。
執行歷程記錄可讓您監視和分析一段時間內的測試結果,包括:
- 追蹤多次測試運行的準確率分數進度。
- 比較不同執行的結果,以識別趨勢或迴歸。
- 訪問有關某個測試結果被分類為通過或失敗的原因的詳細信息,從而提供更多診斷詳細信息。
逐步改進測試案例的評估,並監視評估過程中的任何重大變更。