重要
本文中標示為(預覽)的項目目前正處於公開預覽階段。 此預覽版未簽訂服務水準協議,且不建議用於生產工作負載。 某些功能可能不被支援或功能受限。 欲了解更多資訊,請參閱Microsoft Azure預覽補充使用條款。
Foundry 入口網站中的模型排行榜(預覽)能幫助你使用業界標準模型基準測試,比較 Foundry 模型目錄中的模型。
要開始,請使用Foundry入口網站的模型排行榜進行比較與選擇。
你可以查看每個排行榜類別的詳細基準測試方法:
- 語言模型的高品質基準測試,以了解模型在推理、知識、答題、數學及程式等核心任務上的表現。
- 透過語言模型的安全基準測試,來評估模型在防止有害行為生成方面的安全性。
- 語言模型的效能基準測試,以了解模型在延遲與吞吐量方面的表現。
- 語言模型的成本基準測試,以了解使用模型的預估成本。
- 情境語言模型的排位基準測試 ,幫助您找到最適合您特定使用情境的模型。
- 對嵌入模型進行高品質基準測試,以了解模型在嵌入任務(包括搜尋與檢索)上的表現。
當您找到合適的模型時,可以在模型目錄中開啟其 詳細的基準測試結果 。 接著,你可以部署模型、在 Playground 試用,或用自己的資料來評估。 排行榜支援文本語言模型(包括大型語言模型(LLMs)與小型語言模型(SLMs))及嵌入模型的基準測試。
模型基準測試評估大型語言模型(LLM)與最小語言模型(SLM)在品質、安全性、成本與吞吐量方面的表現。 嵌入模型會以標準品質基準進行評估。 排行榜會隨著新模型和基準數據集的推出而更新。
模型基準測試範圍
模型排行榜精選了 Foundry 模型目錄中精選的文字語言模型。 模型的納入標準如下:
- Azure 銷售的 Foundry 模型會優先顯示:Azure 銷售的模型會根據與常見生成式 AI 使用案例的相關性來選取。
- 核心基準適用性:模型必須支援通用語言任務,如推理、知識、問答、數學推理及編碼。 不支援專門模型(例如蛋白質摺疊或特定區域的品質保證)及其他模態。
這種範圍規劃確保排行榜反映出與核心 AI 情境相關的當前高品質模型。
解讀排行榜結果
排行榜幫助你跨多個維度比較模型,從而選擇最適合你使用情境的模型。 以下是解讀結果的一些指引:
- 品質指數:品質指數越高,代表推理、編碼、數學及知識任務的整體表現較佳。 比較不同模型的品質指數,以識別通用語言任務的頂尖表現者。
- 安全分數:較低的攻擊成功率代表模型更穩健。 尤其是在面對客戶的應用中,因為有害產出是重要的關注點,所以請同時考慮安全分數和品質分數。
- 效能取捨:利用延遲與吞吐量指標來了解模型的實際反應速度。 高品質但延遲高的模型可能不適合即時應用。
- 成本考量:估計成本指標採用三比一的輸入與輸出代幣比率。 根據你實際工作量的投入與產出比率調整你的期望。
- 情境排行榜:如果你的使用情境對應特定情境(例如程式或數學),請先從情境排行榜開始,尋找最適合該任務的模型,而非僅依賴整體品質指數。
提示
排行榜基準提供使用公開資料集的模型間標準化比較。 若要評估針對特定資料與使用案例的模型效能,請參閱 「評估您的生成式 AI 應用程式」。
語言模型的品質基準
Foundry 利用標準基準資料集的準確率分數,評估 LLM 與 SLM 的品質,這些資料集衡量推理、知識、問題解答、數學及編碼能力。
| 索引 | 描述 |
|---|---|
| 品質指數 | 透過將基準資料集中適用的準確度分數(exact_match, pass@1, arena_hard)平均來計算。 |
品質指數值範圍從零到一,數值越高表示效能越好。 品質指數中包含的資料集包括:
| 資料集名稱 | 分類 |
|---|---|
| bigbench_hard (降樣至 1,000 個範例) | 推理 |
| 化學實驗台 | 化學 |
| 前沿科學 | 科學推理 |
| GPQA | QA |
| MBPPPLUS | 編碼 |
| mmlu_pro (降樣至 1,000 個範例) | 一般知識 |
| 穆斯爾 | 推理 |
| tau2_telecom | 代理式與工具呼叫選取 |
更多詳情請參閱準確度分數:
| 公制 | 描述 |
|---|---|
| 準確度 | 準確度分數可在資料集層級與模型層級取得。 在資料集層級,分數是對資料集中所有範例計算出的準確度指標的平均值。 所有情況下都使用 exact_match 作為準確度指標,唯獨在 HumanEval 和 MBPP 資料集中使用 pass@1 指標。 精確匹配是根據資料集將模型生成的文字與正確答案進行比較,若生成的文字完全符合答案則報告1,否則報告0。 此 pass@1 指標衡量在程式碼產生任務中通過一組單元測試的模型解決方案比例。 在模型層級,準確度分數是各模型資料集層級準確度的平均值。 |
準確度分數範圍從零到一,數值越高越好。
語言模型的安全基準
安全基準透過結構化的篩選與驗證過程選定,確保相關性與嚴謹性。 若基準能處理高優先級風險,則可符合入職資格。 安全排行榜包含足夠可靠的基準,能在安全相關議題上提供有意義的訊號。 排行榜使用 HarmBench 來代理模型安全,並依下列方式組織情境排行榜:
| 資料集名稱 | 排行榜場景 | 公制 | 詮釋 |
|---|---|---|---|
| HarmBench(標準) | 標準有害行為 | 攻擊成功率 | 較低的數值代表對設計來引出標準有害內容的攻擊更具韌性 |
| HarmBench(情境性) | 情境上的有害行為 | 攻擊成功率 | 較低的數值代表對旨在引發情境有害內容的攻擊更具韌性 |
| HarmBench(版權侵權) | 版權侵權 | 攻擊成功率 | 較低的數值表示對著作權侵害的韌性更強 |
| WMDP | 敏感領域的知識 | 準確度 | 較高的數值表示在敏感領域中知識越豐富 |
| 毒素 | 有毒內容偵測 | F1 積分 | 數值越高表示偵測效能越好 |
有害行為偵測
HarmBench 基準測試利用設計用於引發不安全反應的提示來衡量有害行為。 它涵蓋了七種語意類別:
- 網路犯罪與未經授權入侵
- 化學與生物武器或藥物
- 版權侵權
- 錯誤資訊與不實資訊
- 騷擾與霸凌
- 非法活動
- 一般傷害
這些類別分為三個功能領域:
- 標準有害行為
- 情境上的有害行為
- 版權侵權
每個功能類別都會出現在獨立的劇本排行榜中。 評估使用 HarmBench 的直接提示(沒有攻擊)及 HarmBench 評估器來計算攻擊成功率(ASR)。 ASR 值越低,車型越安全。 評測時不使用攻擊計畫,而進行模型基準測試時禁用 Foundry Guardrails(此功能原稱為內容過濾器)。
有毒內容偵測
Toxigen 是一個大型資料集,用於偵測對抗性及隱性仇恨言論。 其中包含隱含有毒與無害的句子,提及13個少數族群。 Foundry 使用已註解的 Toxigen 樣本並計算 F1 分數以衡量分類表現。 分數越高,代表有毒內容偵測效果越佳。 基準測試是在關閉 Foundry Guardrails(先前為內容過濾器)的情況下進行。
敏感領域知識
大規模毀滅性武器代理指標(WMDP)基準衡量了生物安全、網路安全及化學安全等敏感領域的模型知識。 排行榜採用網路安全、生物安全及化學安全的平均準確度分數。 較高的WMDP準確度分數代表對危險能力的了解越多(從安全角度來看行為較差)。 模型基準測試會在開啟預設的 Foundry Guardrails(先前稱為內容過濾器)時執行。 這些護欄偵測並阻擋暴力、自殘、性、仇恨與不公平等內容傷害,但未針對網路安全、生物安全及化學安全等類別。
安全基準的限制
安全是一個複雜且多重面向的議題。 沒有任何單一的開源基準測試或能代表系統在所有情境下的全部安全性。 此外,許多基準測試存在基準設計與風險定義之間的飽和或不一致問題。 部分基準也缺乏明確文件說明目標風險如何被概念化與執行,難以評估結果是否準確反映現實風險的細微差異。 這些限制可能導致在實際安全情境中高估或低估模型效能。
語言模型的效能基準
效能指標在14天內彙整,每天進行24次試驗,每次試驗每小時間隔發送兩次請求。 除非另有說明,以下預設參數適用於無伺服器 API 部署及 Azure OpenAI:
| 參數 | 價值 | 適用於 |
|---|---|---|
| 區域 | 美國東部/美國東部2號公路 | 無伺服器 API 部署和 Azure OpenAI |
| 每分鐘權杖 (TPM) 速率限制 | 30k(基於 Azure OpenAI 的 180 RPM)用於非推理,100k 用於推理模型 不適用(無伺服器 API 部署) |
對於 Azure OpenAI 模型,使用者可依部署類型(無伺服器 API、全球、全球標準等)設定速率限制範圍進行選擇。 對於無伺服器 API 部署,這個設定會被抽象化。 |
| 請求次數 | 每小時的試用包含兩次請求 (每天共有 24 次試用) | 無伺服器API部署,Azure OpenAI |
| 試驗/執行次數 | 14天,每天24次測試,共336次執行 | 無伺服器API部署,Azure OpenAI |
| 提示與上下文長度 | 中等長度 | 無伺服器API部署,Azure OpenAI |
| 處理的代幣數量(中等) | 輸入與輸出標記的比例為 80:20,也就是說,800 個輸入標記對 200 個輸出標記。 | 無伺服器API部署,Azure OpenAI |
| 同時請求數量 | 一次(請求依序一個接著一個地發送) | 無伺服器API部署,Azure OpenAI |
| 資料 | 合成(由靜態文字生成的輸入提示詞) | 無伺服器API部署,Azure OpenAI |
| 部署類型 | 無伺服器API | 只適用於 Azure OpenAI |
| 串流 | 沒錯 | 適用於無伺服器 API 部署和 Azure OpenAI。 對於透過管理型運算部署的模型,或是不支援串流的端點,TTFT 會以延遲指標的 P50 表示。 |
| SKU | Standard_NC24ads_A100_v4(24 核心,220GB 記憶體,64GB 儲存空間) | 僅適用於管理運算(用於估算成本與效能指標) |
LLMs與SLMs的效能會從以下指標評估:
| 公制 | 描述 |
|---|---|
| 延遲平均值 | 請求平均處理時間(以秒計),是通過多個請求計算的結果。 每小時會向端點發送一個請求,持續兩週,並計算平均值。 |
| 延遲 P50 | 中位數(第50百分位)的延遲。 在此期間完成了50% 的請求。 |
| 延遲性 P90 | 第90百分位的延遲。 在此時間內完成了90% 的請求。 |
| 延遲性 P95 | 第95百分位的延遲。 在此期間內完成了95% 的請求。 |
| 延遲 P99 | 第99百分位數的延遲。 在此期間內完成了99% 的請求。 |
| 吞吐量 GTPS | 每秒產生的代幣數(GTPS)是指從請求送達端點起,每秒產生的輸出代幣數量。 |
| 吞吐量 TTPS | 每秒總代幣數(TTPS)是指每秒處理的總代幣數量,包括輸入提示與產生的輸出代幣。 對於不支援串流的模型,第一個權杖所需時間 (ttft) 代表延遲 P50 值 (即接收回應所花費的時間) |
| 延遲TTFT | 第一個標記的總時間(TTFT)是指啟用串流時,回應中第一個標記從端點返回所需的時間。 |
| 標記之間的間隔時間 | 此指標為代幣收到之間的間隔時間。 |
Foundry 用以下方式總結效能:
| 公制 | 描述 |
|---|---|
| 延遲 | 平均首次權杖產生時間。 越低越好。 |
| 吞吐量 | 平均每秒產生的代幣數。 越高越好。 |
對於延遲或吞吐量等效能指標,第一個令牌的時間與每秒產生的令牌數能更全面反映模型的典型效能與行為。 效能數據會定期更新,以反映最新的部署配置。
語言模型的成本基準
成本基準測試衡量 的是每個模型在品質基準資料集上實際執行的成本,而非基於代幣定價的估算成本。
基準成本的計算方法如下:
- 基準測試執行時實際消耗的輸入、推理及輸出代幣數量。
- 用於評估的模型特定推理努力配置(通常是
high或xhigh)。 - 資料集特性與複雜度,影響代幣使用與執行時間。
與基於固定代幣比率的估算不同,這種方法反映了跑基準工作負載的真實端到端成本。
如何解讀成本結果
- 成本以美元回報,並以每次基準測試執行為單位,涵蓋標準品質資料集。
- 這些值代表實際執行成本,並可直接比較不同模型。
- 數值越低,代表在基準測試套件上的成本效益越高。
案例排行榜效能評定
情境排行榜依照共同的實際世界評估目標來分組基準資料集。 你可以快速根據使用情境辨識模型的優缺點。 每個情境彙整一個或多個公開基準資料集。
請使用以下表格在 情境 欄位中找到您的使用案例,然後檢視相關的基準資料集及其結果。 下表總結了可用的情境排行榜及其相關資料集與描述:
| 劇本 | 資料集 | 描述 |
|---|---|---|
| 標準有害行為 | HarmBench(標準) | 針對標準有害提示的攻擊成功率。 越低越好。 參見 有害行為偵測。 |
| 情境中有害的行為 | HarmBench(情境性) | 情境式有害提示的攻擊成功率。 越低越好。 參見 有害行為偵測。 |
| 版權侵權 | HarmBench(版權所有) | 針對版權違規提示的攻擊成功率。 越低越好。 參見 有害行為偵測。 |
| 敏感領域的知識 | WMDP (生物安全、化學安全、網路安全) | 跨三個敏感性領域子集的正確性。 更高的準確度代表對敏感能力的了解越多。 參見 敏感領域知識。 |
| 毒性檢測 | ToxiGen (註解) | 毒性內容偵測能力的 F1 分數。 越高越好。 請參見 有毒內容偵測。 |
| 推理 | BIG-Bench Hard (1000 個子樣本) | 推理能力評估。 數值越高越好。 |
| 編碼 | BigCodeBench (instruct)、LiveBench (coding)、LiveCodeBench mediumMBPPPlus | 衡量程式碼相關任務的準確性。 數值越高越好。 |
| 一般知識 | MMLU-Pro (1K 英文子樣本) | MMLU-Pro 的英文子樣本 (1,000 個範例)。 |
| 問答 | 競技場-高難度, GPQA【鑽石】 | 對抗性人類偏好品質保證 (Arena-Hard) 及研究所級跨學科品質保證 (GPQA diamond)。 數值越高越好。 |
| 數學 | 數學 (500 個子樣本) | 衡量語言模型的數學推理能力。 數值越高越好。 |
| 接地感 | TruthfulQA (MC1) | 語言模型的多項選擇基礎性/真實性評估。 數值越高越好。 |
嵌入模型的品質基準
嵌入模型品質指數定義為一組涵蓋資訊檢索、文件分群及摘要任務的全面無伺服器API基準資料集的平均準確率分數。
| 公制 | 描述 |
|---|---|
| 準確度 | 準確率是指正確預測在處理的預測總數中的比例。 |
| F1 積分 | F1 分數是精確度與回憶的加權平均值,最佳值為一(完美精度與回憶),最差為零。 |
| 平均精度(MAP) | MAP評估排名與推薦系統的品質。 它同時衡量建議項目的相關性,以及系統在將更相關項目排在最前面的表現。 數值範圍從零到一,MAP越高,系統能越能將相關項目置於列表前。 |
| 標準化貼現累積收益(NDCG) | NDCG 評估機器學習演算法根據相關性排序項目的能力。 它將排名與理想順序比較,該順序中所有相關項目都位於列表頂端,其中 k 是列表長度,以評估排名品質。 在這些基準測試中,k=10,以指標 ndcg_at_10表示,表示評估前10個項目。 |
| 精度 | 精確度衡量模型正確識別特定類別實例的能力。 精確度顯示機器學習模型在預測目標類別時準確的頻率。 |
| 斯皮爾曼相關係數 | 基於餘弦相似度的斯皮爾曼相關係數,是先計算變數間的餘弦相似度,然後對這些分數進行排序,並利用這些排名計算斯皮爾曼相關係數來計算。 |
| V-指標 | V 指標是一種用來評估分群品質的指標。 V measure 作為均勻性與完整性的調和平均數進行計算,以確保這兩者之間的平衡,從而獲得有意義的分數。 可能的分數介於零到一之間,其中一分表示完美的完整標記。 |
分數計算
個人分數
基準測試結果來自常用於語言模型評估的公開資料集。 大多數情況下,資料會託管在由資料創作者或策展人維護的 GitHub 倉庫中。 Foundry 評估流程會從原始來源下載資料,從每個範例列擷取提示,產生模型回應,然後計算相關的準確度指標。
提示建構遵循每個資料集的最佳實務,這些實務由介紹該資料集的論文及產業標準所規定。 在大多數情況下,每個提示都會包含數個樣本,也就是多組完整的問答範例,以用來引導模型完成工作。 射擊數量依資料集而異,並遵循每個資料集原始發表中所規定的方法論。 評估管線會從留在評估外的一部分資料中,對問題和答案進行採樣以建立樣本提示。
基準測試限制
所有基準測試都有其固有限制,解讀結果時應考慮:
- 品質基準測試:隨著模型在類似資料上訓練或調整,基準資料集可能會隨時間飽和。 評估結果也可能因提示的設計,和使用少樣本範例的數量而異。
- 效能基準:指標是透過使用固定輸入輸出令牌比率的模擬工作負載和單一地區部署進行收集的。 實際效能可能因工作負載模式、並發性、區域及部署配置而異。
- 成本基準:成本估算基於三比一的投入與產出代幣比率及測量時的現行價格。 實際成本取決於您的工作量,並會受到價格變動的影響。