Sdílet prostřednictvím


Tabulky výsledků modelů na portálu Microsoft Foundry (Preview)

Důležité

Položky označené (Preview) v tomto článku jsou aktuálně ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v tématu Supplementální podmínky použití pro Microsoft Azure Preview.

Tabulky výsledků modelů (Preview) na portálu Foundry vám pomůžou porovnat modely v katalogu modelů Foundry pomocí standardních srovnávacích testů modelů.

Pokud chcete začít, porovnejte a vyberte modely pomocí tabulky výsledků modelu na portálu Foundry.

Pro každou kategorii tabulky výsledků si můžete projít podrobnou metodologii srovnávacích testů:

  • Srovnávací testy kvality jazykových modelů, abyste pochopili, jak dobře modely fungují u základních úloh, včetně odůvodnění, znalostí, odpovědí na otázky, matematiky a kódování.
  • Bezpečnostní srovnávací testy jazykových modelů, abyste pochopili, jak bezpečné modely jsou proti generování škodlivého chování.
  • Srovnávací testy výkonu jazykových modelů, abyste pochopili, jak modely fungují z hlediska latence a propustnosti.
  • Srovnávací testy nákladů na jazykové modely, abyste porozuměli odhadovaným nákladům na používání modelů.
  • Porovnávání žebříčků scénářů jazykových modelů, které vám pomůžou najít nejlepší model pro váš konkrétní scénář použití.
  • Srovnávací testy kvality vložených modelů, abyste pochopili, jak dobře modely fungují s úlohami založenými na vkládání, včetně vyhledávání a načítání.

Když najdete vhodný model, můžete otevřít jeho podrobné výsledky srovnávacích testů v katalogu modelů. Odtud můžete model nasadit, vyzkoušet ho v dětském hřišti nebo ho vyhodnotit na vlastních datech. Tabulky výsledků podporují srovnávací testy pro textové jazykové modely (včetně velkých jazykových modelů (LLM) a malých jazykových modelů (SLM) a vložených modelů.

Srovnávací testy modelů vyhodnocují LLM a SLM napříč kvalitou, bezpečností, náklady a propustností. Modely vkládání se vyhodnocují pomocí standardních srovnávacích testů kvality. Tabulky výsledků se aktualizují, jakmile budou k dispozici nové modely a datové sady srovnávacích testů.

Rozsah srovnávacích testů modelů

Tabulky výsledků modelu obsahují kurátorovaný výběr textových jazykových modelů z katalogu modelů Foundry. Modely jsou zahrnuty na základě následujících kritérií:

  • Azure upřednostněné přímé modely: Azure přímé modely jsou vybrány pro svoji relevanci vůči běžným scénářům generativní AI.
  • Základní použitelnost srovnávacích testů: Modely musí podporovat úlohy pro obecné účely, jako jsou odůvodnění, znalosti, odpovědi na otázky, matematické odůvodnění a kódování. Specializované modely (například skládání bílkovin nebo kontrola kvality specifické pro doménu) a jiné způsoby se nepodporují.

Toto vymezení rozsahu zajišťuje, aby tabulky výsledků odrážely aktuální vysoce kvalitní modely relevantní pro základní scénáře AI.

Interpretace výsledků tabulky pořadí

Tabulky výsledků vám pomůžou porovnat modely napříč několika dimenzemi, abyste mohli zvolit správný model pro váš případ použití. Tady je několik pokynů pro interpretaci výsledků:

  • Index kvality: Index s vyšší kvalitou indikuje silnější celkový výkon napříč důvodováním, kódováním, matematikou a úlohami na znalosti. Porovnejte index kvality napříč modely a identifikujte nejvýkonnější úlohy jazyka pro obecné účely.
  • Bezpečnostní skóre: Nižší míra úspěšnosti útoku značí robustnější modely. Zvažte bezpečnostní skóre spolu s skóre kvality, zejména pro aplikace, které mají na starosti zákazníky, kde je nebezpečný výstup významným problémem.
  • Kompromisy výkonu: Využijte metriky latence a propustnosti k pochopení reálné odezvy modelu. Model s vysokou kvalitou, ale vysoká latence nemusí vyhovovat aplikacím v reálném čase.
  • Úvahy o nákladech: Odhadovaná metrika nákladů používá poměr vstupních a výstupních tokenů tři ku jedné. Upravte očekávání na základě skutečného poměru vstupu k výstupu vaší úlohy.
  • Tabulky výsledků scénářů: Pokud se váš případ použití mapuje na konkrétní scénář (například kódování nebo matematiku), začněte tabulí výsledků scénáře a vyhledejte modely optimalizované pro daný úkol a nespoléhejte pouze na celkový index kvality.

Návod

Testy žebříčků poskytují standardizovaná porovnání napříč modely strojového učení pomocí veřejných datových sad. Pokud chcete vyhodnotit výkon modelu pro konkrétní data a případ použití, přečtěte si téma Vyhodnocení aplikací generující AI.

Srovnávací testy kvality jazykových modelů

Foundry posuzuje kvalitu LLM a SLM pomocí skóre přesnosti ze standardních srovnávacích datových sad, které měří důvody, znalosti, odpovědi na otázky, matematiku a možnosti kódování.

Index Description
Index kvality Vypočítáno průměrem použitelných skóre přesnosti (exact_match, pass@1, arena_hard) napříč datovými sadami srovnávacích testů.

Hodnoty indexu kvality jsou v rozsahu od nuly do jedné, kde vyšší hodnoty označují lepší výkon. Datové sady zahrnuté v indexu kvality jsou:

Název datové sady Kategorie
bigbench_hard (zmenšené na 1 000 příkladů) Uvažování
chembench Chemie
hraniční vědy Vědecké odůvodnění
gpqa kontrola kvality
mbppplus Coding
mmlu_pro (zmenšené na 1 000 příkladů) Všeobecné znalosti
musr Uvažování
tau2_telecom Výběr volání agentů a nástrojů

Další podrobnosti o skóre přesnosti:

Ukazatel Description
Přesnost Skóre přesnosti jsou k dispozici na úrovni datové sady a modelu. Na úrovni datové sady je skóre průměrnou hodnotou metriky přesnosti vypočítané pro všechny příklady v datové sadě. Použitá metrika přesnosti je exact_match ve všech případech s výjimkou datových sad HumanEval a MBPP , které používají metriku pass@1 . Přesná shoda porovnává text vygenerovaný modelem se správnou odpovědí podle datové sady a uvádí jedničku, pokud se vygenerovaný text shoduje s odpovědí přesně, v opačném případě uvádí nulu. Metrika pass@1 měří podíl modelových řešení, která úspěšně splňují sadu jednotkových testů v úloze tvorby kódu. Na úrovni modelu je skóre přesnosti průměrem přesností na úrovni datové sady pro každý model.

Skóre přesnosti se pohybuje od nuly do jednoho, kde jsou vyšší hodnoty lepší.

Bezpečnostní srovnávací testy jazykových modelů

Bezpečnostní srovnávací testy jsou vybrány prostřednictvím strukturovaného procesu filtrování a ověřování navrženého tak, aby se zajistila relevance i rigorace. Srovnávací test splňuje podmínky pro zavedení, pokud se zabývá riziky s vysokou prioritou. Tabulky výsledků bezpečnosti zahrnují srovnávací testy, které jsou dostatečně spolehlivé, aby poskytovaly smysluplné signály týkající se témat zájmu v souvislosti s bezpečností. Tabulky výsledků používají HarmBench k zabezpečení modelů proxy a uspořádají tabulky výsledků scénářů následujícím způsobem:

Název datové sady Scénář tabulky výsledků Ukazatel Výklad
HarmBench (standardní) Standardní škodlivé chování Míra úspěšnosti útoku Nižší hodnoty znamenají lepší odolnost proti útokům navrženým k vyvolání standardního škodlivého obsahu.
HarmBench (kontextový) Kontextově škodlivé chování Míra úspěšnosti útoku Nižší hodnoty znamenají lepší odolnost proti útokům navrženým k vyvolání kontextově škodlivého obsahu.
HarmBench (porušení autorských práv) Porušení autorských práv Míra úspěšnosti útoku Nižší hodnoty označují silnější odolnost proti porušení autorských práv.
WMDP Znalosti v citlivých doménách Přesnost Vyšší hodnoty označují větší znalosti v citlivých doménách.
Toxigen Detekce toxického obsahu F1 skóre Vyšší hodnoty označují lepší výkon detekce.

Detekce škodlivého chování

Srovnávací test HarmBench měří škodlivé chování pomocí výzev navržených k vyvolání nebezpečných odpovědí. Zahrnuje sedm sémantických kategorií:

  • Kybernetická kriminalita a neoprávněné vniknutí
  • Chemické a biologické zbraně nebo drogy
  • Porušení autorských práv
  • Dezinformace a dezinformace
  • Obtěžování a šikana
  • Nezákonné aktivity
  • Obecná újma

Tyto kategorie jsou seskupené do tří funkčních oblastí:

  • Standardní škodlivé chování
  • Kontextově škodlivé chování
  • Porušení autorských práv

Každá funkční kategorie je zobrazena v samostatném žebříčku scénářů. Vyhodnocení používá přímé výzvy od HarmBench (žádné útoky) a vyhodnocovačů HarmBench k výpočtu míry úspěšnosti útoku (ASR). Nižší hodnoty ASR znamenají bezpečnější modely. K vyhodnocení se nepoužívají žádné strategie útoku a srovnávací testy modelů se provádějí s vypnutými Foundry Guardrails (dříve filtry obsahu).

Detekce toxického obsahu

Toxigen je rozsáhlá datová sada pro detekci nežádoucí a implicitní nenávistné řeči. Zahrnuje implicitně toxické a neškodné věty odkazující na 13 menšinových skupin. Foundry používá anotované vzorky Toxigenu a vypočítává skóre F1 pro měření výkonu klasifikace. Vyšší skóre značí lepší detekci toxického obsahu. Srovnávací testy se provádějí s vypnutými Foundry Guardrails (dříve filtry obsahu).

Znalost citlivé domény

Srovnávací test Popony proxy hromadného ničení (WMDP) měří znalosti modelu v citlivých oblastech, včetně biobezpečnosti, kybernetické bezpečnosti a chemické bezpečnosti. Tabulka výsledků používá průměrné skóre přesnosti napříč kybernetickou bezpečností, biobezpečností a chemickým zabezpečením. Vyšší skóre přesnosti WMDP označuje více znalostí o nebezpečných schopnostech (horší chování z bezpečnostního hlediska). Srovnávací testy modelů se provádějí s výchozími filtry obsahu Foundry Guardrails (dříve filtry obsahu). Tyto mantinely detekují a blokují poškození obsahu v násilí, sebeškodení, sexuální, nenávisti a nespravedlivosti, ale nezaměřují se na kategorie kybernetické bezpečnosti, biobezpečnosti a chemické bezpečnosti.

Omezení bezpečnostních srovnávacích testů

Bezpečnost je komplexní téma s několika dimenzemi. Žádný opensourcový srovnávací test nemůže testovat nebo představovat plnou bezpečnost systému ve všech scénářích. Mnoho srovnávacích testů navíc trpí sytostí nebo nesprávným zarovnáním mezi návrhem srovnávacích testů a definicí rizika. Některé srovnávací testy také nemají jasnou dokumentaci o tom, jak jsou cílená a zprovozněna rizika, což ztěžuje posoudit, zda výsledky přesně zachycují nuance skutečných rizik. Tato omezení můžou vést k přehodnocení nebo podcenění výkonu modelu ve scénářích bezpečnosti v reálném světě.

Srovnávací testy výkonu jazykových modelů

Metriky výkonu se agregují za 14 dnů pomocí 24 zkušebních verzí za den, přičemž v hodinových intervalech se posílají dva požadavky na zkušební verzi. Pokud není uvedeno jinak, platí pro nasazení bezserverového rozhraní API i Azure OpenAI následující výchozí parametry:

Parametr Hodnota Platí pro
Región Východní USA / Východní USA 2 nasazení bezserverového rozhraní API a Azure OpenAI
Limit rychlosti tokenů za minutu (TPM) 30k (180 RPM na základě Azure OpenAI) pro modely bez odůvodnění a 100 tisíc pro modely s odůvodněním.
Není k dispozici (nasazení bezserverového rozhraní API)
Pro Azure modely OpenAI je výběr dostupný pro uživatele s rozsahy omezení rychlosti na základě typu nasazení (bezserverové rozhraní API, globální, globální standard atd.).
U nasazení bezserverového rozhraní API se toto nastavení abstrahuje.
Počet žádostí Dvě žádosti ve zkušební verzi pro každou hodinu (24 pokusů za den) bezserverová nasazení rozhraní API Azure OpenAI
Počet pokusů/spuštění 14 dní, denně 24 pokusů, celkem 336 běhů bezserverová nasazení rozhraní API Azure OpenAI
Délka výzvy nebo kontextu Střední délka bezserverová nasazení rozhraní API Azure OpenAI
Počet zpracovaných tokenů (střední) Poměr 80:20 pro vstupní a výstupní tokeny, tj. 800 vstupních tokenů až 200 výstupních tokenů. bezserverová nasazení rozhraní API Azure OpenAI
Počet souběžných požadavků Jedna (požadavky se odesílají postupně po druhém) bezserverová nasazení rozhraní API Azure OpenAI
Data Syntetické (vstupní výzvy připravené ze statického textu) bezserverová nasazení rozhraní API Azure OpenAI
Typ nasazení bezserverové rozhraní API Platí pouze pro Azure OpenAI
Streamování Pravdivé Platí pro nasazení bezserverového rozhraní API a Azure OpenAI. U modelů nasazených prostřednictvím spravovaných výpočetních prostředků nebo pro koncové body v případě, že streamování není podporované, je TTFT reprezentován jako metrika latence P50.
skladová jednotka (SKU) Standard_NC24ads_A100_v4 (24 jader, 220 GB RAM, 64 GB úložiště) Platí jenom pro spravované výpočetní prostředky (k odhadu nákladů a metrik výkonu).

Výkon LLM a SLM se posuzuje v následujících metrikách:

Ukazatel Description
Střední hodnota latence Průměrná doba zpracování požadavku v sekundách vypočítaná přes více požadavků Požadavek se odešle do koncového bodu každou hodinu po dobu dvou týdnů a vypočítá se průměr.
Latence P50 Latence mediánová (50. percentil) 50% žádostí do této doby dokončeno.
Latence P90 90. percentil latence 90% požadavků do této doby dokončeno.
Latence P95 95. percentil latence. 95% požadavků do této doby dokončeno.
Latence P99 Latence v 99. percentilu. 99% požadavků do této doby dokončeno.
Propustnost GTPS Generované tokeny za sekundu (GTPS) jsou počet výstupních tokenů, které se generují za sekundu od okamžiku odeslání požadavku do koncového bodu.
TTPS průchodnost Celkový počet tokenů za sekundu (TTPS) je počet zpracovaných tokenů za sekundu, včetně vstupní výzvy a vygenerovaných výstupních tokenů. U modelů, které nepodporují streamování, představuje čas na první token (ttft) hodnotu P50 latence (doba potřebná k přijetí odpovědi).
Odezva TTFT Celkový čas k prvnímu tokenu (TTFT) je doba potřebná k tomu, aby se první token v odpovědi vrátil z koncového bodu při povoleném streamování.
Čas mezi tokeny Tato metrika je čas mezi přijatými tokeny.

Foundry shrnuje výkon pomocí:

Ukazatel Description
Oneskorení přenosu Průměrná doba k prvnímu tokenu. Nižší je lepší.
Propustnost Střední vygenerované tokeny za sekundu Vyšší je lepší.

V případě metrik výkonu, jako je latence nebo propustnost, poskytuje čas prvního tokenu a vygenerované tokeny za sekundu lepší představu o typickém výkonu a chování modelu. Čísla výkonu se pravidelně aktualizují, aby odrážela nejnovější konfigurace nasazení.

Srovnávací testy nákladů na jazykové modely

Výpočty nákladů jsou odhady pro použití koncového bodu modelu LLM nebo SLM hostovaného na platformě Foundry. Foundry podporuje zobrazení nákladů na nasazení bezserverového rozhraní API a Azure modelů OpenAI. Vzhledem k tomu, že se tyto náklady můžou změnit, výpočty nákladů se pravidelně aktualizují, aby odrážely nejnovější ceny.

Náklady na LLM a SLM se posuzují v následujících metrikách:

Ukazatel Description
Náklady na vstupní tokeny Náklady na nasazení bezserverového rozhraní API pro 1 milion vstupních tokenů
Náklady na výstupní tokeny Náklady na nasazení bezserverového rozhraní API pro 1 milion výstupních tokenů
Odhadované náklady Náklady na součet nákladů na vstupní tokeny a náklady na výstupní tokeny s poměrem 3:1

Foundry také zobrazí náklady následujícím způsobem:

Ukazatel Description
Náklady Odhadované náklady na americký dolar na 1 milion tokenů. Odhadovaná úloha používá poměr tří k jednomu mezi vstupními a výstupními tokeny. Nižší hodnoty jsou lepší.

Srovnávací testy žebříčku scénářů

Tabulky výsledků ve scénářích seskupují datové sady srovnávacích testů podle běžných cílů vyhodnocení z reálného světa, abyste mohli rychle identifikovat silné a slabé stránky modelu podle případu použití. Každý scénář agreguje jednu nebo více datových sad veřejných srovnávacích testů.

V následující tabulce najdete případ použití ve sloupci Scénář a zkontrolujte související datové sady srovnávacích testů a výsledky. Následující tabulka shrnuje dostupné tabulky výsledků scénářů a jejich přidružené datové sady a popisy:

Scenario Datové sady Description
Standardní škodlivé chování HarmBench (standardní) Míra úspěšnosti útoku na standardní škodlivé výzvy. Nižší je lepší. Viz Detekce škodlivého chování.
Kontextově škodlivé chování HarmBench (kontextový) Míra úspěšnosti útoku na kontextové škodlivé výzvy Nižší je lepší. Viz Detekce škodlivého chování.
Porušení autorských práv HarmBench (autorská práva) Míra úspěšnosti útoku při pokusech o generování výzev k porušení autorských práv. Nižší je lepší. Viz Detekce škodlivého chování.
Znalosti v citlivých doménách WMDP (biobezpečnost, chemické zabezpečení, kyberbezpečnost) Přesnost napříč třemi podmnožinami citlivých domén Vyšší přesnost označuje více znalostí citlivých schopností. Podívejte se na citlivé znalosti domény.
Detekce toxicity ToxiGen (anotováno) Skóre F1 pro schopnost detekce toxického obsahu. Vyšší je lepší. Viz Detekce toxického obsahu.
Uvažování BIG-Bench Hard (1000 podvzorek) Posouzení možností zdůvodnění Vyšší hodnoty jsou lepší.
Coding BigCodeBench (pokyn), LiveBench (kódování) a střední MBPPPlusLiveCodeBench Měří přesnost úloh souvisejících s kódem. Vyšší hodnoty jsou lepší.
Všeobecné znalosti MMLU-Pro (1K anglický podvzorek) 1 000-příklad pouze anglický vzorek MMLU-Pro.
Otázky a odpovědi Arena-Hard, GPQA (diamant) Adversariální QA lidských preferencí (Arena-Hard) a multi-disciplinární QA na úrovni absolventa (diamant GPQA). Vyšší hodnoty jsou lepší.
Matematika MATH (500 podvýběr) Měří matematické možnosti zdůvodnění jazykových modelů. Vyšší hodnoty jsou lepší.
Groundedness PravdiváQA (MC1) Hodnocení ukotvenosti a pravdivosti jazykových modelů ve formátu s výběrem z více možností. Vyšší hodnoty jsou lepší.

Srovnávací testy kvality vložených modelů

Index kvality vložených modelů je definován jako průměrné skóre přesnosti komplexní sady srovnávacích sad bezserverového rozhraní API, které cílí na načtení informací, clustering dokumentů a úlohy souhrnu.

Ukazatel Description
Přesnost Přesnost je podíl správných předpovědí mezi celkovým počtem zpracovaných predikcí.
F1 skóre F1 Score je vážený průměr přesnosti a úplnosti, kde nejlepší hodnota je jedna (dokonalá přesnost a úplnost) a nejhorší je nula.
Střední průměrná přesnost (MAP) MAP vyhodnocuje kvalitu systémů hodnocení a doporučovačů. Měří význam navrhovaných položek a způsob, jakým systém umísťuje do horní části relevantnější položky. Hodnoty můžou být v rozsahu od nuly do jedné a čím vyšší je mapa, tím lépe systém umísťuje do seznamu relevantní položky.
Normalizovaný zvýhodněný kumulativní zisk (NDCG) NDCG vyhodnocuje schopnost algoritmu machine learning řadit položky na základě relevance. Porovnává pořadí s ideálním pořadím, kde jsou všechny relevantní položky v horní části seznamu, kde k je délka seznamu při vyhodnocování kvality řazení. V těchto srovnávacích testech k=10 označených metrikou ndcg_at_10znamená, že se vyhodnocuje prvních 10 položek.
Přesnost Přesnost měří schopnost modelu správně identifikovat instance konkrétní třídy. Přesnost ukazuje, jak často je model machine learning správný při předpovídání cílové třídy.
Spearmanova korelace Spearmanova korelace založená na kosinusové podobnosti se vypočítá prvním výpočtem kosinus podobnosti mezi proměnnými a následným hodnocením těchto skóre a použitím pořadí k výpočtu korelace Spearman.
Míra V Míra V je metrika použitá k vyhodnocení kvality clusteringu. Míra V se počítá jako harmonický průměr homogenity a úplnosti a zajišťuje rovnováhu mezi těmito dvěma hodnotami pro smysluplné skóre. Možné skóre se pohybuje mezi nulou a jedním, přičemž jedna představuje zcela kompletní označování.

Výpočet skóre

Individuální skóre

Výsledky srovnávacích testů pocházejí z veřejných datových sad, které se běžně používají pro vyhodnocení jazykového modelu. Ve většině případů se data hostují v GitHub úložištích spravovaných tvůrci nebo kurátory dat. Pipelines pro vyhodnocení foundry stahují data z původních zdrojů, extrahují výzvy z každého ukázkového řádku, generují odpovědi modelu a pak vypočítávají relevantní metriky přesnosti.

Konstrukce výzvy dodržuje osvědčené postupy pro každou datovou sadu, jak je specifikováno v dokumentu, který představuje datovou sadu a standardy odvětví. Ve většině případů každý prompt obsahuje několik příkladů, což znamená několik ukázek kompletních otázek a odpovědí, které mají model připravit na úkol. Počet snímků se liší podle datové sady a řídí se metodikou uvedenou v původní publikaci každé datové sady. Hodnotící pipeline vytvářejí snímky výběrem otázek a odpovědí z části dat vyčleněných z hodnocení.

Omezení srovnávacích testů

Při interpretaci výsledků byste měli zvážit všechny benchmarky:

  • Srovnávací testy kvality: Datové sady srovnávacích testů můžou být v průběhu času nasycené, protože modely se trénují nebo ladí s podobnými daty. Výsledky vyhodnocení se také můžou lišit v závislosti na konstrukci výzvy a počtu použitých příkladů s několika snímky.
  • Srovnávací testy výkonu: Metriky se shromažďují pomocí syntetických úloh s pevným poměrem tokenů vstupního a výstupního tokenu a nasazeními s jednou oblastí. Skutečný výkon se může lišit v závislosti na vzorech úloh, souběžnosti, oblasti a konfiguraci nasazení.
  • Srovnávací testy nákladů: Odhady nákladů jsou založeny na poměru tří ku jedné mezi vstupními a výstupními tokeny a aktuálních cenách v době měření. Skutečné náklady závisí na vaší úloze a podléhají změnám cen.