提示詞批次測試(預覽版)

[本主題是發行前版本文件,可能會變更。

提示可讓您為業務自動化和代理程式建立自訂生成式 AI 工具。 確保這些工具的準確性、可靠性和效率至關重要。 提示的批量測試旨在使您能夠驗證和改進整個平台 AI 工具中使用的提示。

Important

  • 此為生產就緒型預覽功能。
  • 生產就緒型預覽受補充使用規定規範限制。
  • Prompts 在由 Azure OpenAI 服務 支援的 GPT 模型上運行。
  • 您所在的地區可能尚無法使用此功能。 如需詳細資訊,請參閱依區域或美國政府環境提供的功能可用性中的提示區段。
  • 此功能可能會受到使用限制或容量調節的影響。

批量測試的核心功能

批次測試提供了一種系統化的方法來驗證不同資料集上的提示。 您可以:

  • 上傳或生成測試數據集以進行全面評估。
  • 定義判斷測試結果的評估標準。
  • 執行批次測試以評估整個測試資料集的提示行為。
  • 比較一段時間內的結果,以確保持續改進。
  • 審查和調整自動評估,以確保符合您的特定需求。

準確度分數是根據測試結果計算的,為您提供經驗數據以信任您的 AI 工具。

如何使用批次測試

使用下列步驟來設定和執行提示的批次測試。

定義測試案例

  1. 登入 Copilot StudioPower AppsPower Automate

  2. 存取提示清單:

    • 在 Copilot Studio 中,選取 工具,然後根據提示進行篩選。
    • 在Power Apps和Power Automate中,選擇AI hub
  3. 在提示名稱旁邊,選擇三個點(...)。

  4. 選取 [ 測試中樞 (預覽版)]。

    以下是 Copilot Studio 中 [工具] 畫面的範例:

    帶有“測試中心 - 預覽”選項的菜單屏幕截圖。

    在 Copilot Studio 中,測試中心看起來像以下截圖:

    測試中心畫面的螢幕擷取畫面。

  5. 使用其中一個可用選項新增測試案例:

    • 上傳:允許您使用 csv 檔案上傳測試案例。 如果您想要檢查需要上傳的檔案格式,請選取 下載測試資料結構描述。
    • AI 生成: 允許您根據提示使用 AI 生成測試用例。
    • 使用活動資料:可讓您提取最近的提示活動,以協助您開始。
    • 手動新增:允許您手動建立測試案例。

    任何選項都可協助您建立能夠執行的測試案例清單:

    上傳測試案例的螢幕擷取畫面。

設定評估標準

  1. 建立測試案例之後,請在右側的設定區段中選取 [設定準則 ]:

    設定評估準則的螢幕擷取畫面。

  2. 定義 通過分數,這是回應通過所需的最低分數。

  3. 請選擇以下其中一個預先設定的準則:

    • 回應質量: 測試回應的清晰度、有用性和語氣
    • 回應匹配: 測試特定單詞和含義的回應
    • JSON 正確性:測試回應是否遵循您的資料結構描述

    評估標準的螢幕截圖。

    這些標準和及格分數決定了在評估過程中如何評估測試案例輸出。

執行批次測試

  1. 在測試案例畫面中,選取 [全部執行] 以對所有測試案例執行評估,或選取要執行的測試案例,然後選取 [執行選取的專案]。

    要執行的測試螢幕擷取畫面。

    測試中心根據定義的標準評估結果,提供對提示效能的見解。

  2. 完成測試案例評估之後,結果畫面隨即顯示:

    測試結果的螢幕截圖。

  3. 若要存取先前的評估執行結果,請在 Copilot Studio 中選擇畫面頂端的提示名稱,或在 Power Apps 或 Power Automate 中選擇 Run history(執行歷程)。

    運行歷史記錄的屏幕截圖。

  4. 若要檢視詳細資料,請選取評估回合。

執行歷程記錄可讓您監視和分析一段時間內的測試結果,包括:

  • 追蹤多次測試運行的準確率分數進度。
  • 比較不同執行的結果,以識別趨勢或迴歸。
  • 訪問有關某個測試結果被分類為通過或失敗的原因的詳細信息,從而提供更多診斷詳細信息。

逐步改進測試案例的評估,並監視評估過程中的任何重大變更。