共用方式為


Azure AI Foundry 入口網站中的模型排行榜 (預覽)

這很重要

本文中標示為 (預覽) 的項目目前處於公開預覽狀態。 此預覽版本沒有服務等級協定,不建議將其用於生產工作負載。 可能不支援特定功能,或可能已經限制功能。 如需詳細資訊,請參閱 Azure 預覽版Microsoft補充使用規定

Azure AI Foundry 入口網站中的模型排行榜(預覽)可讓您簡化 Azure AI Foundry 模型目錄中的模型選取程式。 以業界標準基準檢驗為後盾的模型排行榜可協助您尋找自定義 AI 解決方案的最佳模型。 從模型類別目錄的模型排行榜區段中,您可以 流覽排行榜 來比較可用的模型,如下所示:

每當您找到適合的模型時,都可以選取模型,並放大模型目錄中模型 的詳細基準檢驗結果 。 如果對模型感到滿意,您可以部署模型、在遊樂場中試用模型,或評估數據。 排行榜支援跨文字語言模型 (大型語言模型 (LLM) 和小型語言模型 (SLM)) 和內嵌模型進行效能評定。

模型基準檢驗會評估下列類別的 LLM 和 SLM:品質、安全性、成本和輸送量。 此外,我們也會使用標準基準檢驗來評估內嵌模型的品質。 排行榜會定期更新,因為已上線較好且更不飽和的基準檢驗,並隨著新模型新增至模型類別目錄。

語言模型的品質基準檢驗

Azure AI 會使用標準、完整的基準檢驗數據集來評估 LLM 和 SLM 的品質,這些數據集測量模型功能,例如推理、知識、問答、數學和編碼。

索引 說明
品質索引 質量指數是透過對於(exact_match、pass@1、arena_hard)三種正確性分數的平均計算得出的,並且這個過程涉及使用全面的標準基準數據集。

品質指標是根據零到一的範圍提供的。 較高的品質指數代表較佳的品質。 質量索引中包含的數據集如下:

數據集名稱 排行榜範例
競技場_困難 品質保證(QA)
bigbench_hard 推理
gpqa 品質保證(QA)
humanevalplus 撰寫程式碼
ifeval 推理
數學 數學
mbppplus 撰寫程式碼
mmlu_pro 一般知識

如需精確度分數的詳細資訊,請參閱:

計量 說明
準確性 正確性分數可在資料集和模型層級取得。 在資料集層級,該分數是針對資料集中所有範例計算的正確性計量的平均值。 除了使用exact-match計量的 HumanEvalMBPP 數據集之外,所使用的pass@1精確度計量在所有情況下都是。 完全符合會根據資料集來比較模型產生的文字與正確解答,如果產生的文字和解答完全相符,則會報告為一,否則會報告為零。 計量 pass@1 會測量在程式代碼產生工作中通過一組單元測試的模型解決方案比例。 在模型層級,正確性分數是每個模型的資料集層級正確性的平均值。

精確度分數是以零到一的尺規提供。 較高的值比較好。

語言模型的安全性基準

為了引導選擇用於評估的安全性基準,我們會套用結構化篩選和驗證程式,以確保相關性和嚴謹性。 如果效能評定可解決高優先順序風險,則符合上線資格。 針對安全排名,我們會查看不同的基準,這些基準被認為足夠可靠,可以在與安全性相關的特定主題上提供一些訊號。 我們選取 HarmBench 來代理模型安全性,並組織情境排行榜,如下所示:

數據集名稱 排行榜案例 計量 解譯
HarmBench (標準) 標準有害行為 攻擊成功率 較低的值表示有更好的健全性,可對抗針對非法標準有害內容設計的攻擊
HarmBench (內容相關) 情境上有害的行為 攻擊成功率 較低的值意味著對抗引發上下文有害內容的攻擊有更好的抵抗力。
HarmBench (著作權違規) 侵犯著作權 攻擊成功率 較低的值意味著更好的抵抗力,能夠抵禦旨在引發版權侵犯的攻擊。
WMDP 敏感性領域的知識 準確性 較高的值表示敏感性領域(網路安全性、生物安全性及化學安全性)的更多知識
Toxigen 偵測有毒內容的能力 F1 分數 較高的值表示偵測有毒內容的能力更好

模型有害行為

HarmBench 效能評定會測量模型有害行為,並包含來自模型的非法有害行為的提示。 基準檢驗與安全性相關,涵蓋7種語意類別的行為:

  • 網路犯罪和未經授權的入侵
  • 化學和生物武器/藥物
  • 著作權違規
  • 錯誤資訊與不良資訊
  • 騷擾和欺淩
  • 非法活動
  • 一般傷害

這 7 個類別可以摘要為 3 個功能類別

  • 標準有害行為
  • 在上下文中有害的行為
  • 著作權違規

每個功能類別都在獨立的場景排行榜中呈現。 我們使用來自 HarmBench(沒有攻擊)和 HarmBench 評估工具的直接提示來計算攻擊成功率(ASR)。 較低的 ASR 值表示更安全的模型。 我們不會探索任何評估攻擊策略,且模型基準檢驗會在 Azure AI 內容安全篩選器關閉的情況下執行。

偵測有毒內容的模型能力

Toxigen 是大型機器產生的數據集,用於對抗和隱含仇恨語音偵測。 它包含隱含有毒和無害的句子,提到13個少數群體。 我們會使用 Toxigen 的批注樣本評估及計算 F1 分數,以測量分類效能。 此數據集的評分較高表示模型更適合用來偵測有毒內容。 在關閉 Azure AI 內容安全性篩選器的情況下,執行模型基準檢驗。

敏感性領域中的模型知識

大規模殺傷性武器評估標準(WMDP)用於衡量模型在敏感領域的知識,包括生物安全、網絡安全和化學安全。 排行榜使用網路安全性、生物安全性及化學安全性的平均精確度分數。 較高的WMDP精確度分數表示對危險能力的認識(從安全觀點來看更差的行為)。 模型基準檢驗是使用預設的 Azure AI 內容安全性篩選來執行。 這些安全篩選器會偵測並封鎖暴力、自我傷害、性、仇恨和不公平的內容危害,但不會針對網路安全、生物安全性和化學安全性的類別。

安全性基準的限制

我們瞭解並承認安全是一個複雜的主題,而且有數個維度。 目前沒有任何一個開放原始碼基準可以測試或代表不同案例中系統的完整安全性。 此外,這些基準大部分都遭受飽和,或基準設計和風險定義之間的不一致性,可能缺乏關於目標風險概念化和運作方式的明確檔,因此很難評估基準是否準確地擷取風險的細微差別。 這項限制可能會導致在真實世界安全案例中過度估計或低估模型效能。

語言模型的效能基準檢驗

效能計量會根據每天傳送的 24 個軌跡 (每個軌跡兩項要求) 計算為 14 天的彙總,而每個軌跡之間間隔一小時。 下列預設參數會用於模型端點的每個要求:

參數 價值 適用於
區域 美國東部/東部美國2 標準部署Azure OpenAI
每分鐘權杖 (TPM) 速率限制 根據 Azure OpenAI,非推理模型的限制為 30k (180 RPM),而推理模型則為 100k
N/A (標準部署)
針對 Azure OpenAI 模型,根據部署類型(標準、全球、全球標準等等),具有速率限制範圍的使用者可以進行選擇。
針對標準部署,此設定會抽象化。
要求數目 一個軌跡中每小時兩項要求 (每天 24 個軌跡) 標準部署,Azure OpenAI
軌跡/回合數目 14 天,每天 24 條小徑,336 次跑步 標準部署,Azure OpenAI
提示/內容長度 適中長度 標準部署,Azure OpenAI
已處理的權杖數目 (中等) 80:20 輸入與輸出令牌的比例,也就是800個輸入令牌與200個輸出令牌。 標準部署,Azure OpenAI
並行要求數目 一個(要求會一個接一個依序傳送) 標準部署,Azure OpenAI
資料 合成的(由靜態文本準備而來的輸入提示) 標準部署,Azure OpenAI
區域 美國東部/東部美國2 標準部署和 Azure OpenAI
部署類型 標準 僅適用於 Azure OpenAI
串流 適用於標準部署和 Azure OpenAI。 針對透過 受控計算部署的模型,或當不支援串流時,TTFT 的端點會以 P50 的延遲計量表示。
SKU(庫存單位) Standard_NC24ads_A100_v4 (24 核心、220GB RAM、64GB 記憶體) 僅適用於受控計算(預估成本和效能計量)

LLM 和 SLM 的效能會透過下列計量進行評估:

計量 說明
延遲平均 處理請求所花費的平均時間,是根據多個請求取平均值計算得出的。 為了計算此計量,我們會每小時將要求傳送至端點,為期兩周,並計算平均值。
延遲 P50 延遲的第50百分位數值(中位數):指的是從發出請求到接收到全部響應(包含成功狀態碼)之間所需的時間。 例如,當我們將要求傳送至端點時,50% 的要求會在 『x』 秒內完成,而 『x』 是延遲度量。
延遲 P90 延遲的第 90 個百分位數值 (從發出要求到我們收到包含成功代碼的完整回應所花費的時間)。 例如,當我們將要求傳送至端點時,90% 的要求會在 『x』 秒內完成,而 『x』 是延遲度量。
延遲 P95 延遲的第 95 個百分位數值 (從發出要求到我們收到包含成功代碼的完整回應所花費的時間)。 例如,當我們將要求傳送至端點時,95% 的要求會在 『x』 秒內完成,而 『x』 是延遲度量。
延遲 P99 延遲的第 99 個百分位數值 (從發出要求到我們收到包含成功代碼的完整回應所花費的時間)。 例如,當我們將要求傳送至端點時,99% 的要求會在 『x』 秒內完成,而 『x』 是延遲度量。
輸送量 GTPS 每秒產生的令牌數 (GTPS) 是從要求傳送至端點時每秒產生的輸出令牌數目。
輸送量 TTPS 每秒令牌總數 (TTPS) 是每秒處理的令牌總數,包括來自輸入提示和產生的輸出令牌。 對於不支援串流的模型,第一個權杖所需時間 (ttft) 代表延遲 P50 值 (即接收回應所花費的時間)
延遲 TTFT 第一個權杖所需時間 (TTFT) 總計指啟用串流時從端點傳回之回應中第一個權杖所花費的時間。
令牌之間的時間 此計量是收到令牌之間的時間。

Azure AI 也會顯示延遲和輸送量的效能索引,如下所示:

索引 說明
延遲索引 第一個權杖所需平均時間。 較低的值比較好。
輸送量索引 每秒平均產生的令牌。 較高的值比較好。

對於像是延遲或輸送量這類的效能計量而言,第一個權杖所需時間以及每秒產生的權杖可更全面地反映出模型的典型效能與行為表現。 我們會定期更新效能數據。

語言模型的成本基準

成本計算是使用 Azure AI 平台上裝載的 LLM 或 SLM 模型端點的估計值。 Azure AI 支援顯示標準部署和 Azure OpenAI 模型的成本。 由於這些成本可能會有所變更,因此我們會定期重新整理成本計算。

LLM 和 SLM 的成本會透過下列計量進行評估:

計量 說明
每個輸入權杖的成本 100 萬個輸入令牌的標準部署成本
每個輸出權杖的成本 100 萬個輸出令牌的標準部署成本
預估成本 每個輸入令牌的成本和每個輸出令牌的成本總和的成本,比率為 3:1。

Azure AI 也會顯示成本索引,如下所示:

索引 說明
成本索引 預估成本。 較低的值比較好。

內嵌模型的質量基準

內嵌模型的品質索引定義為以資訊擷取、檔群集和摘要工作為目標之一組完整標準基準檢驗數據集的平均精確度分數。

請參閱每個資料集專屬的正確性分數定義的詳細資訊:

計量 說明
準確性 精確度是所處理預測總數中正確預測的比例。
F1 分數 F1 分數是精確度與召回率的加權平均數,其中最佳值為一 (代表精確度與召回率都完美),最差值為零。
平均精確度 (MAP) MAP 會評估排名和推薦系統的品質。 其中會測量建議項目的相關性,以及系統將更相關的項目放在最上層的能力。 值的範圍可以從零到一,而 MAP 愈高,系統就越能將相關專案放在清單中。
正規化貼現累計收益 (NDCG) NDCG 會評估機器學習演算法根據相關性對項目進行排序的能力。 它會比較排名與清單頂端所有相關專案的理想順序,其中 k 是清單長度,同時評估排名品質。 在我們的基準測試中,k=10,表示由ndcg_at_10這一指標計量,這意味著我們查看前10個項目。
精確度 精確度測量模型正確識別特定類別實例的能力。 精準度是指機器學習模型在預測目標類別時正確的比率。
斯皮爾曼等級相關係數 以餘弦相似性為基礎的 Spearman 相互關聯是先計算變數之間的餘弦相似性,然後排名這些分數,並使用排名來計算 Spearman 相互關聯。
V 量值 V 量值是用來評估叢集品質的計量。 V 量值會計算為同質性和完整性的調和平均數,以確保兩者之間的平衡,以取得有意義的分數。 可能的分數介於零和一之間,其中一代表完全完整的標記。

分數的計算

個別分數

基準檢驗結果源自通常用於語言模型評估的公用數據集。 在大部分情況下,數據會裝載在 GitHub 存放庫中,由數據建立者或策展人維護。 Azure AI 評估管線會從其原始來源下載數據、從每個範例數據列擷取提示、產生模型回應,然後計算相關的精確度計量。

提示建構會遵循每個資料集的最佳做法,最佳做法如同介紹資料集和產業標準的論文所指定。 在大部分情況下,每個提示都包含數個 示例,也就是數個完整問題和答案的範例,以此來為模型的任務做好準備。 評估管線會藉由從評估中保留的一部分資料取樣問題和答案來建立片段。