Výběr modelů pomocí srovnávacích testů

Dokončeno

Před nasazením modelu chcete pochopit, jak funguje v různých dimenzích. Srovnávací testy modelů poskytují objektivní a měřitelná data, která vám pomůžou porovnat modely a činit informovaná rozhodnutí o výběru. Portál Microsoft Foundry nabízí komplexní srovnávací nástroje uspořádané do metrik kvality, bezpečnosti, nákladů a výkonu.

srovnávací testy modelu Access

Srovnávací testy můžete prozkoumat dvěma způsoby na portálu Microsoft Foundry:

V katalogu modelů zobrazte tabulku výsledků modelu a zobrazte srovnávací hodnocení napříč všemi dostupnými modely. Toto zobrazení vám pomůže identifikovat nejvýkonnější modely pro konkrétní metriky nebo scénáře. V tabulce výsledků se zobrazují nejlepší modely seřazené podle kvality, bezpečnosti, odhadovaného nákladů a propustnosti.

Podrobné srovnávací testy pro konkrétní model zobrazíte tak, že otevřete kartu modelu a vyberete kartu Srovnávací testy . Toto zobrazení ukazuje, jak jednotlivé modely fungují napříč různými metrikami a datovými sadami, s porovnáním grafů, které je umístí vzhledem k podobným modelům.

Srovnávací testy kvality

Srovnávací testy kvality vyhodnocují, jak dobře model generuje přesné, koherentní a kontextově odpovídající odpovědi. Tyto metriky používají veřejné datové sady a standardizované metody vyhodnocení k zajištění konzistence.

Index kvality poskytuje základní přehled průměrováním skóre přesnosti napříč několika srovnávacími datovými sadami, které měří důvody, znalosti, odpovědi na otázky, matematické schopnosti a dovednosti kódování. Vyšší hodnoty indexu kvality označují silnější celkový výkon napříč úlohami jazyka pro obecné účely.

Srovnávací testy kvality používají datové sady, jako jsou:

  • Arena-Hard – konkurenční odpovídání na otázky
  • BIG-Bench Hard – možnosti odůvodnění
  • GPQA – otázky týkající se více disciplín na úrovni absolventa
  • HumanEval+ a MBPP+ – úlohy generování kódu
  • MATEMATIKA – matematické odůvodnění
  • MMLU-Pro – obecné hodnocení znalostí
  • IFEval – instrukce následující

Skóre srovnávacích testů jsou normalizované indexy od nuly do jednoho, kde vyšší hodnoty označují lepší výkon.

Snímek obrazovky s tabulí výsledků modelu na portálu Microsoft Foundry

Bezpečnostní srovnávací testy

Bezpečnostní metriky zajišťují, že modely nevygenerují škodlivý, zkreslený nebo nevhodný obsah. Tyto srovnávací testy jsou zásadní pro aplikace vystavené koncovým uživatelům, zejména v regulovaných odvětvích nebo v zákaznických scénářích.

Microsoft Foundry vyhodnocuje modely napříč několika bezpečnostními dimenzemi:

Detekce škodlivého chování používá srovnávací test HarmBench k měření, jak dobře modely odporují generování nebezpečného obsahu. Vyhodnocení vypočítá úspěšnost útoku (ASR), kde nižší hodnoty označují bezpečnější a robustnější modely. HarmBench testuje tři funkční oblasti:

  • Standardní škodlivé chování – kyberbezpečnost, nelegální činnosti, obecná újma
  • Kontextově škodlivé chování - dezinformace, obtěžování, šikana
  • Porušení autorských práv – reprodukci materiálu chráněného autorským právem

Detekce toxického obsahu používá datovou sadu ToxiGen k měření toho, jak dobře modely identifikují nežádoucí a implicitní nenávistnou řeč. Vyšší skóre F1 značí lepší výkon detekce ve vztahu k odkazům na menšinové skupiny.

Citlivé znalosti oboru používají srovnávací test WMDP (Weapons of Mass Destruction Proxy) k měření znalostí modelu v oblasti biobezpečnosti, kybernetické bezpečnosti a chemické bezpečnosti. Vyšší skóre WMDP značí více znalostí potenciálně nebezpečných schopností.

Bezpečnostní skóre pomáhají pochopit odolnost modelu, zvlášť důležité pro aplikace orientované na zákazníky, kde škodlivý výstup představuje významné obavy.

Srovnávací ukazatele nákladů

Pochopení finančního dopadu využití modelu vám pomůže vyvážit požadavky na kvalitu s omezeními rozpočtu. Srovnávací testy nákladů v Microsoft Foundry zobrazují ceny pro nasazení bezserverového API a modely Azure OpenAI.

Náklady na vstupní tokeny zobrazují cenu za zpracování 1 milionu vstupních tokenů (text, který odešlete do modelu).

Náklady na výstupní tokeny označují cenu pro generování 1 milionů výstupních tokenů (text, který model vytvoří).

Odhadované náklady kombinují vstupní a výstupní náklady s typickým poměrem 3:1 (tři vstupní tokeny pro každý výstupní token) a poskytují jedno číslo pro porovnání. Nižší hodnoty označují nákladově efektivnější modely.

Srovnávací testy nákladů pomáhají identifikovat modely, které poskytují kvalitu, kterou potřebujete, za cenu, která odpovídá vzorům využití a rozpočtu vaší aplikace.

Srovnávací testy výkonu

Metriky výkonu měří, jak rychle a efektivně modely reagují na požadavky. Tyto srovnávací testy jsou důležité pro aplikace v reálném čase, kde uživatelské prostředí závisí na rychlosti odezvy.

Měření latence zahrnují:

  • Střední hodnota latence – průměrná doba v sekundách pro zpracování požadavku
  • Latence P50 (medián) – 50 % požadavků je dokončeno rychleji než v tomto čase
  • Latence P90 – 90% požadavků se dokončí rychleji než tentokrát
  • Latence P95 – 95% požadavků dokončených rychleji než tentokrát
  • Latence P99 – 99% požadavků je dokončena rychleji než tentokrát
  • Čas na první token (TTFT) – doba, kdy při použití streamování dorazí první token

Měření propustnosti zahrnují:

  • Generované tokeny za sekundu (GTPS) – výstupní tokeny generované za sekundu
  • Celkový počet tokenů za sekundu (TTPS) – kombinované vstupní a výstupní tokeny zpracovávané za sekundu
  • Doba mezi tokeny – interval mezi příjmem po sobě jdoucích tokenů

Tabulka výsledků shrnuje výkon s využitím střední doby k prvnímu tokenu (nižší je lepší) a generovaných tokenů za sekundu (vyšší je lepší). Modely s vysokou propustností a nízkou latencí poskytují lepší uživatelské prostředí v interaktivních aplikacích. U úloh dávkového zpracování, u kterých rychlost záleží méně než na nákladech, můžete určit prioritu jiných faktorů.

Použití tabulek výsledků a funkcí porovnání

Tabulka výsledků modelu umožňuje zobrazit hlavní modely pro konkrétní metriky. Můžete řadit podle kvality, bezpečnosti, odhadovaného nákladů a propustnosti a identifikovat modely, které nejlépe vyhovují vašim požadavkům.

Tabulky výsledků scénářů vám pomohou najít modely optimalizované pro konkrétní případy použití, jako je uvažování, kódování, matematika, odpovídání na otázky nebo opodstatněnost. Pokud se vaše aplikace mapuje na konkrétní scénář, začněte s tabulí relevantních scénářů místo toho, abyste se museli spoléhat výhradně na celkový index kvality.

Grafy kompromisů zobrazují současně dvě metriky, jako je kvalita versus náklady nebo kvalita a propustnost. Tyto vizualizace vám pomůžou najít optimální rovnováhu pro vaše požadavky. Pomocí rozevíracího seznamu můžete porovnat kvalitu s náklady, propustností nebo bezpečností. Modely blíže k pravému hornímu rohu grafu dobře fungují s oběma metrikami. Model, který je o něco méně přesný, ale výrazně rychlejší nebo levnější, může lépe sloužit vašim potřebám.

Souběžné porovnání umožňuje vybrat dva nebo tři modely z tabulky výsledků a porovnat je napříč několika dimenzemi:

  • Srovnávací testy výkonu (kvalita, bezpečnost, propustnost)
  • Podrobnosti modelu (kontextové okno, trénovací data, podporované jazyky)
  • Podporované koncové body (možnosti nasazení)
  • Podpora funkcí (volání funkcí, strukturovaný výstup, zpracování obrazu)

Vyberte modely zaškrtnutím políček vedle jejich názvů a pak výběrem možnosti Porovnat otevřete podrobné zobrazení porovnání.