評分標準參考指南

本參考指南提供關於成績量表定義、對齊計算公式、不同用例的範例評分標準、評估主題及關鍵術語詞彙表的詳細資訊。 利用它來建立並精煉評分規準,以評估 Copilot Studio 中 AI 生成的回應。

等級等級定義

所有評分標準均使用標準五分制:

Grade 標籤 Definition
5 模範 完全符合所有期待;專業且精緻;不需要改進;隨時可用
4 符合所有主要要求,僅有小幅改進空間;整體品質優異;大致準備好了
3 可接受 符合最低標準,但缺乏深度與精緻度;功能上足夠;需要改進
2 包含品質、結構或相關性上的重大缺口;需要大幅改進
1 需要改進 不符合預期;準確性、相關性、語氣或完整性的重大問題

對齊計算公式

以下是計算 AI 評分與人類評分對齊度的公式,適用於個別測試案例,以及如何分析方向錯位。

個別測試案例對齊

對每個測試案例:

Aligned = (AI Grade == Human Grade)
Misaligned = (AI Grade ≠ Human Grade)

個別測試案例的對齊計算

針對每個測試案例,利用線性插值從 100%(完全匹配)到 0%(最大差異)計算 AI 生成回應與人類期望的對齊度。

釋義

  • 當 AI 等級 = 人類等級時,對齊度 = 100%
  • 隨著坡度差增加,對齊度會線性減少
  • 在1至5的尺度上,最大差值為4級,對應為0%

公式

alignment = 100% * (1 - |AI - Human| / 4)

所得比對矩陣

AI ↓ / 人類→ 1 2 3 4 5
1 100% 75% 50% 25% 0%
2 75% 100% 75% 50% 25%
3 50% 75% 100% 75% 50%
4 25% 50% 75% 100% 75%
5 0% 25% 50% 75% 100%

屬性:

  • 對稱:無論哪個值是 AI 還是哪個是人類,對齊都是一樣的
  • 對角線 = 100%:當 AI 與人類評分一致時,完美對齊
  • 邊緣值 = 0%:當等級位於評分尺的兩端時,偏差最大
  • 平滑線性插值:隨著差異的增大,對齊度會均勻地減少

範例計算

  • 經人工評分的測試案例總數:30
  • 測試案例中 AI 等級 = 人類等級:24
  • 對齊 % = 24 / 30 × 100% = 80%

方向錯位分析

AI too lenient = Count of (AI Grade > Human Grade)
AI too strict = Count of (AI Grade < Human Grade)
Net bias = (AI too lenient - AI too strict) / Total misaligned cases

範例

  • AI 等級 > 人類等級:3 個案例(AI 過於寬鬆)
  • AI 等級 < 人類等級:3 個案例(AI 過於嚴格)
  • 淨偏誤 = (3 - 3) / 6 = 0(無系統性偏誤)

範例評分標準1:投資人關係報告

好的回應是什麼樣子

針對 IR 特有的溝通品質,將提交的答案與專家答案或預期標準進行對照評估:

  • 清晰度:資訊是否清晰且合乎邏輯地傳達?
  • 相關性:內容是否符合投資人的預期?
  • 完整性:是否包含關鍵的商業驅動因素與指標?
  • 貫性與敘事品質:故事是否連貫且易讀?
  • 專業語氣:這個答案聽起來像是經過精心打磨的 IR 輸出嗎?
  • 洞察力:它是否突顯意義、驅動因素或風險?
  • 準確性與預期:它是否符合國際關係團隊認為可接受的標準(不一定是事實判斷)?

等級定義

以下是如何解讀國際關係報告中1到5分的評分標準:

5:優秀或專業的紅外線品質

回應:

  • 完全符合投資者關係報告的期望
  • 結構完善、精緻且具備吸引投資者的準備
  • 包含所有主要元素:關鍵績效指標(KPI)、績效驅動因素、評論、前瞻性洞察(如適用)及策略脈絡
  • 語氣專業,符合企業的國際關係語氣
  • 敘事邏輯流暢,解釋簡潔明瞭
  • 沒有無關緊要的細節;高投資人實用性

4:強力或高品質

回應:

  • 涵蓋所有與投資人相關的主要內容領域
  • 大多組織良好,只有一些小的缺口或輕微的冗餘
  • 音色專業,雖然可能不如 Score 5 精緻
  • 提供有用的見解與評論
  • 還有空間可以提升緊湊度、清晰度,或強調關鍵驅動因素

3:足夠或符合最低 IR 期望

回應:

  • 傳達正確且合理的內容,但缺乏深度與精緻度
  • 缺少一兩個關鍵的整合報告元素(例如,結果的背景、影響因素或風險)
  • 敘事可能會感覺機械化或泛泛無奇
  • 語氣還可以,但不夠精緻或對投資人友善
  • 提供基本資訊,但見解有限

2:弱或部分適合

回應:

  • 包含敘事、結構或相關性上的重大缺口
  • 忽略了重要的投資相關元素,如指標、驅動因素或商業背景
  • 語氣可能不一致或太隨意
  • 組織可能感覺零散或不明確
  • 對投資人或投資者關係專業人士來說,幾乎沒有實質價值

1:品質差或不適合紅外線使用

回應:

  • 未達 IR 報告的多數預期
  • 無結構、混亂或與投資人需求無關
  • 語氣不專業、過於隨意或行銷風格
  • 缺乏指標、驅動因素、解釋,或包含誤導性的表述
  • 不符合紅外線通訊標準

範例評分標準 2:商業摘要及狀態報告書產生

好的回應是什麼樣子

評估提交的報告是否符合預期的語氣與風格,包括:

  • 專業性:是否維持適合商務的語氣?
  • 一致性:整體基調是否保持一致?
  • 語氣一致性:聽起來像是公司、團隊,還是 IR 部門的風格?
  • 正式性:正式程度是否符合報告類型(例如,IR = 高,IT 每週 = 中)?
  • 清晰與直接:是否簡潔明了、沒有多餘內容?
  • 風格遵循:是否遵循預期的模式,例如條列式結構、執行概要風格、時態使用等?
  • 避免偏見或情緒化:除非明確要求,否則不得使用俚語、誇張語言或行銷語氣。

等級定義

以下是如何解讀企業摘要或狀態報告中1到5分的評分標準:

5:優秀(一致性、專業、符合品牌)

報告如下:

  • 全文語氣完全一致
  • 精確符合預期的企業、投資者關係或資訊科技語氣
  • 使用專業、精緻且自信的語言
  • 遵循風格慣例:結構化段落、清晰的項目符號、謹慎的措辭
  • 避免炒作、誇張、隨便和情緒化的語言
  • 讀起來就像是經驗豐富的企業溝通者所寫

4:強力(細微變化但品質優良)

報告如下:

  • 幾乎完美地匹配預期的音調,只是略微偏離
  • 使用大致一致的措辭,但偶爾會有些過於冗長或不夠正式的表達。
  • 遵循大多數風格慣例,但可以更精簡
  • 不包含不專業用語,但可能使用稍嫌泛泛或較弱的措辭

3:足夠(可接受但不完全一致)

報告如下:

  • 各段落間語氣變化明顯
  • 風格大致正確,但偶爾會顯得非正式、過於隨意或略帶行銷色彩
  • 可能偏離預期中的公司語調
  • 結構尚可接受,但有些不一致(混用項目符號格式,內容正式程度不一)
  • 仍然足夠專業,能理解,但還沒準備好成為投資人或高階主管

2:軟弱(語氣問題影響專業精神)

報告如下:

  • 經常使用不穩定的音色;可能會混合正式與休閒用語
  • 使用對話式或「閒聊式」的措辭,不適合用來做報告
  • 存在文風不一致的情況,例如句子過長、項目符號排列雜亂,以及過渡語不正式
  • 使用可能帶有行銷感、情緒化或模糊的語氣
  • 未能妥善遵循預期的風格指南

1:品質差(不適合報告使用)

報告如下:

  • 使用強烈不搭調的語氣,過於隨意、情緒化、誇張或模糊
  • 風格不一致,缺乏結構
  • 使用削弱可信度或專業性的語氣
  • 可能包含俚語、表情符號、戲劇化,或不適合用於報導的敘事性敘事
  • 讀起來像是一封隨意的電子郵件或部落格文章,而非正式報告

評量主題或標準

你可以在不同評分標準中使用的常見評估維度。 選擇最符合你使用情境的主題。

評估標準 Definition 何時使用 使用者輸入範例 預期反應
準確度 資訊必須是事實正確的,或是資料來自現場的真實來源(問答、檢索、報告)。 當事實正確性至關重要時(例如財務數據、技術規格)。 有可驗證答案的問題(例如:「RTD政策是什麼?」) 事實正確的答案;所有細節都準確無誤。
實事求是或忠實 回應僅基於提供的知識或檢索資料;沒有錯誤資訊。 當代理合成或參考 KB 內容時, 提示需要提供證據或引用。 有根據的回應並附有引用;沒有捏造的事實。
完整性 回應涵蓋任務的所有部分、部分或步驟。 何時產出應該包含多個部分(教學、報告產生)。 多部分的問題或提示(例如,入職步驟)。 回應涵蓋所有必要元素。
Relevance 資訊應針對使用者查詢且保持主題相關。 當輸出範圍必須縮小(例如單一政策)時。 目標明確的提示。 簡潔且有針對性的回應;排除無關資訊。
一致性 代理對於等價或重複查詢提供相同的輸出。 務必評估品質保證並判斷重複性。 反覆詢問。 答案一模一樣或幾乎一模一樣。
清晰與連貫性 輸出內容清晰、邏輯結構清晰且易於理解。 一律用於生成;確保人類可讀性。 任何內容生成提示。 文法正確、連貫且流暢的文字。
術語或合規性 一致使用必要的術語或措辭標準。 當品牌或領域語言重要時(例如人力資源、法律)。 提示具體說明命名或措辭規則。 正確且合規的條款。
引用、可追溯性或問責 代理會正確地將使用者指向正確的來源。 當需要可信度或可追溯性時。 需要證據支持答案的查詢。 引用來源須正確。
格式與呈現方式 遵循特定的結構或版面(表格、區段)。 當代理產生格式化的輸出(例如摘要、報告)時, 需要結構化輸出的提示。 正確的標題、彈頭風格、版面配置。
上下文感知 回應會根據使用者的個性、意圖或查詢情境量身打造。 針對個人化或情境化查詢 (例如,特定職務相關)。 提示依角色或情境而異。 情境特定、個人化的回應。
無幻覺 代理人不應該捏造超出所提供資料的事實。 當來源覆蓋有限或敏感時。 超出範圍的提示。 「我不知道」或是安全的替代回應。

如何使用評估主題

若要將評估主題合併至您的評分標準:

  1. 為評分標準選擇三到五個相關主題。
  2. 定義每個主題在你的領域中的意義。
  3. 將主題納入年級定義中(例如,五年級必須在所有主題中表現優異)。
  4. 在給人評分時,請將主題當作檢查清單。

例如,對於 IR 報告評分標準,優先排序:

  • 準確度 (關鍵)
  • 完備性 (關鍵)
  • 清晰與連貫 性(重要)
  • 術語與合規性(重要)
  • 格式與呈現 (加分項)

Glossary

以下是 Copilot Studio Kit 中評分規準精煉時所用的關鍵術語定義。

代理人

被測試的副駕駛或 AI 助理。 在評分標準精煉中,代理人產生的回應由 AI 評審與人類製作者共同評估。

AI 成績,AI 分數

AI評審根據評分標準給予的數值評分(1-5)。

人工智慧的理據,人工智慧推理

AI評審(在精煉模式下)詳細說明其為何給予特定分數,以及它使用了哪些評分準則。

對齊、錯位

AI 評審的評價與人類判斷的匹配程度。

  • 對齊:AI 等級 = 人類評分(表示評分準則運作正常)
  • 不對齊:AI 等級 ≠ 人類等級(表示評分標準需要精煉)

完整性

衡量回應是否完整回應使用者查詢的所有部分。 完整的回應涵蓋每個必要元素,絕無遺漏。

正確性與準確性

一項評估標準,用以判斷 Agent 的回應是否基於預期或參考答案、權威知識,或系統提供的內容而事實正確。

詳細視圖

一個專注於檢視和評分包含較長回應的個別測試案例的介面。 包含完整的對話上下文,以及「精細化」(AI 隱藏) 和「精細化 (完整)」(AI 可見) 的索引標籤。

方向偏向

這是一種系統性的模式,AI 法官持續給出比人類法官高(太寬鬆)或低(過於嚴格)的評分。 你可以透過比較(AI > 人類)與(AI < 人類)錯位的數量來辨識這個模式。

忠誠

類似於資料錨定,但強調模型不會編造超出評分標準或所提供上下文允許範圍的新事實。

完整優化檢視

評分標準精細化介面視圖,會同時顯示 AI 評分與理由,以及人工評分,並附有對齊指標。 用它來比較評估結果並分析錯位模式。

生成式答案測驗(GA 測驗)

Copilot Studio Kit 中的一種測試類型,代理人會利用生成式協調產生自然語言回應,並根據提供的驗證指示或評分標準進行評估。

好例子,壞例子

製作者選擇的真實測試案例,用以說明期望或不期望的反應模式。 包括的例子有測試語句、代理回應和標記(好或壞)。 在評分標準精煉時,利用這些例子為 AI 評審提供具體指引。

Groundedness

品質衡量指標,用以判斷 AI 生成的回應是否被所提供的來源資訊(例如檢索的文件、系統訊息或定義事實)充分支持。 一個有根據的回應不會引入你無法追溯到已知權威來源的資訊。

人類判斷,人類註解

評分者對 Agent 回應的評估,包含評分 (1-5) 及評分理由。 在評分標準的調整過程中,人類判斷被視為比較 AI 評審行為的「黃金標準」。

反覆運算,迭代

評分標準優化流程的單一循環: 執行→審查→評分→精煉→儲存→再執行。 通常需要多次迭代才能達到可接受的對齊。

LLM 評審、AI 評審、AI 評估員

一個大型語言模型,根據評分標準評估代理人的反應。 評審會給出1到5分的分數,並能說明評分標準如何被解釋與應用。

錯位的大小

AI 與人類成績的數值差異。 1 點的差異是輕微的錯位。 相差2分或以上則表示有更嚴重的問題需要精細調整。

製作者

我是 Copilot Studio Kit 的使用者,負責建立、測試並管理副駕駛及評估評分標準。 在評分標準精煉的脈絡中,製作者提供人為判斷作為評估標準。

過度擬合

當評分標準過於針對精細化過程中使用的測試案例,而無法推廣至新的、未見過的回應時。 透過限制迭代次數並使用全新測試案例來避免過度擬合。

及格成績

對於被認定為通過的測試案例來說,最低可接受的評分範圍為 1 至 5。

  • 測試模式 (測試案例層級):決定實際通過或不通過的結果。
  • 精煉模式(測試運行等級):僅供資訊參考,目標是對齊,而非通過。

推理品質

評估回應是否展現出連貫的思考、邏輯步驟、正當理由及正確解讀問題。

最近性(時間準確性)

評估回應是否反映時間順序正確或最新的資訊的標準。 此標準對於時間敏感的內容尤其重要,例如活動、日期、行程及可用性。

精細化模式 (測試執行層級評分標準)

專用於測試執行層級的評分標準,旨在進行迭代式評分標準精細化。 AI 會提供評分和詳細的理由說明。 此過程跳過非生成式答案測驗類型。 目標是將 AI 與人類成績之間的不一致降到最低。

相關性

衡量代理人回應對使用者查詢的直接性與適當程度。 如果回答符合問題範圍,並避免不必要或分散注意力的資訊,則具有相關性。

評分標準

一套結構化的自然語言評分指令,AI 評審用來評估代理人回應的品質。 評分標準定義了判斷特定領域或使用案例中「良好」或「壞」回應的標準、期望、範例及評分尺度(1-5)。

評分規準的優化

這是一個基於觀察到人類判斷與人工智慧判斷對齊或不一致,提升評分標準的清晰度、具體性與有效性的迭代過程。 精煉包括更新指令、新增範例,以及重複執行測試,直到評估行為符合領域的期望。

標準細化視圖

評分標準精細化介面視圖,會隱藏 AI 評分與理由,以避免在提供人工判斷時產生偏見。 請使用此視圖進行初步審查及公正評分。

測試模式(測試案例層級評分標準)

在個別測試案例層級使用評分標準作為定期品質保證。 AI 只提供成本效益的評分(沒有理由)。 通過或不及格取決於成績是否大於或等於及格門檻。

測試案例

測試集中的單一測試,包含測試語句 (使用者輸入)、預期行為及驗證準則 (標準驗證或基於評分標準的評分)。

測試運行

單一測試集執行,產生包含代理回應、AI 評分、人工註解(精煉模式)及比對指標的結果。

測試執行層級評分標準覆寫

當你在測試執行層級選擇評分規準時,該評分標準會套用到該測試中所有生成式答案測試案例,覆蓋在個別測試案例層級分配的任何評分規準。

測試集

一個或多個一同執行的測試案例集合。 在精煉模式下,同一評分標準適用於該組中所有生成式答案測試案例。

驗證指令

標準生成式答案測驗中使用的文字指令,用以說明什麼條件使回答是可接受的。 與基於評分標準的評分互斥。 當你選擇評分標準時,驗證指示會被隱藏或忽略。

快速參考:優化工作流程步驟

  1. 開始運行:設定測試運行,使用評分標準(測試運行等級)加上通過分數;執行。
  2. 審查:開啟標準精修檢視 (隱藏 AI)。
  3. 評分:提供人類評分(1-5分)及所有測試案例的推理。
  4. 標記範例:切換 標記為範例 ,適用於6到10個好或壞案例。
  5. 分析:切換至完整精煉視圖;檢視 AI 評分與理由;計算對齊。
  6. 精煉:選擇 精煉評分標準;人工智慧分析模式;更新評分標準。
  7. 儲存:儲存(覆寫)或另存為(新版本)。
  8. 重新執行:重複測試,使用更精確的標準執行。
  9. 重複:持續直到對齊達到80-90% 或更高。

快速參考:測試模式與精煉模式

層面 測試模式 精煉模式
評分標準層級 測試案例 測試運行
目的 品質保證 評分標準改進
AI 輸出 僅限評分 等級 + 理由
成本 Lower 較高
及格成績 判定合格或不合格 僅供參考
目標 辨識低品質回應 減少人工智慧與人類的錯配
非GA測試 正常運作 Skipped
人類分級 非必要 需要進行精煉

快速參考:年級選擇指南

及格成績 何時使用 及格率期望
5(典範) 關鍵傳播(國際關係、行政、法律) 通過率低,只有最佳應答通過。
4(強壯) 專業商業傳播 適中的通過率;高品質回應方能通過
3(可接受) 內部工具,功能最低 高通過率;功能性反應測試通過
2(弱) 門檻非常低(不常適用) 通過率非常高
1(需要改進) 幾乎從不使用。 幾乎所有的回答都通過了

建議:精煉模式預設為通過等級5。 根據你的品質標準,測試模式調整到 45 級。