Valitse mallit benchmarkeja käyttäen

9 minuuttia

Ennen mallin käyttöönottoa haluat ymmärtää, miten se toimii eri ulottuvuuksissa. Mallivertailut tarjoavat objektiivista, mitattavaa dataa, joka auttaa vertailemaan malleja ja tekemään perusteltuja valintapäätöksiä. Microsoft Foundryn portaali tarjoaa kattavat vertailutyökalut, jotka on jaettu laadun, turvallisuuden, kustannusten ja suorituskyvyn mittareiden mukaan.

Access-mallin vertailuarvot

Microsoft Foundryn portaalissa voit tutkia vertailuja kahdella tavalla:

Malliluettelossa voit katsoa mallin tulostaulua nähdäksesi vertailusijoitukset kaikista saatavilla olevista malleista. Tämä näkymä auttaa tunnistamaan parhaiten suoriutuvia malleja tietyille mittareille tai skenaarioille. Tulostaululla on parhaat mallit, jotka on sijoiteltu laadun, turvallisuuden, arvioidun kustannusten ja läpimenon mukaan.

Yksityiskohtaisia testejä varten tietystä mallista avaa sen mallikortti ja valitse Benchmarks-välilehti . Tämä näkymä näyttää, miten yksittäinen malli suoriutuu eri mittareissa ja aineistoissa, ja vertailukaaviot sijoittavat sen suhteessa samankaltaisiin malleihin.

Laadun vertailuarvot

Laatumittarit arvioivat, kuinka hyvin malli tuottaa tarkkoja, johdonmukaisia ja kontekstuaalisesti sopivia vastauksia. Nämä mittarit hyödyntävät julkisia aineistoja ja standardoituja arviointimenetelmiä johdonmukaisuuden varmistamiseksi.

Laatuindeksi tarjoaa korkean tason yleiskatsauksen keskiarvoistamalla tarkkuuspisteitä useista vertailuaineistoista, jotka mittaavat päättelyä, tietoa, kysymyksiin vastaamista, matemaattisia kykyjä ja koodaustaitoja. Korkeammat laatuindeksiarvot osoittavat vahvempaa kokonaissuoriutumista yleiskäyttöisissä kielitehtävissä.

Laatuvertailut käyttävät aineistoja, kuten:

Arena-Hard – vastakkainasettelukysymysten vastaaminen
BIG-Bench Vaikea – päättelykyky
GPQA – jatko-opintotason monitieteisiä kysymyksiä
HumanEval+ ja MBPP+ – koodinluontitehtävät
MATEMATIIKKA – matemaattinen päättely
MMLU-Pro – yleisen tiedon arviointi
IFEval – ohjeiden seuraaminen

Vertailupisteet ovat normalisoituja indeksejä, jotka vaihtelevat nollasta yhteen, ja korkeammat arvot osoittavat parempaa suorituskykyä.

Turvallisuuskriteerit

Turvallisuusmittarit varmistavat, etteivät mallit tuota haitallista, puolueellista tai sopimatonta sisältöä. Nämä vertailuarvot ovat ratkaisevan tärkeitä loppukäyttäjille altistuville sovelluksille, erityisesti säännellyillä toimialoilla tai asiakaskohtaisissa tilanteissa.

Microsoft Foundry arvioi malleja useissa turvallisuusulottuvuuksissa:

Haitallisen käyttäytymisen havaitseminen käyttää HarmBench-vertailua mitatakseen, kuinka hyvin mallit vastustavat vaarallisen sisällön tuottamista. Arviointi laskee hyökkäyksen onnistumisprosentin (ASR), jossa matalammat arvot tarkoittavat turvallisempia ja kestävämpiä malleja. HarmBench testaa kolmea toiminnallista aluetta:

Tavanomaiset haitalliset käyttäytymismallit – kyberrikollisuus, laittomat toimet, yleinen haitta
Kontekstuaalisesti haitalliset käyttäytymismallit – väärää tietoa, häirintää, kiusaa
Tekijänoikeusrikkomukset – tekijänoikeudella suojatun materiaalin jäljentäminen

Myrkyllisen sisällön tunnistus käyttää ToxiGen-aineistoa mittaamaan, kuinka hyvin mallit tunnistavat vihamielisen ja implisiittisen vihapuheen. Korkeammat F1-pisteet osoittavat parempaa havaitsemiskykyä vähemmistöryhmiin liittyvissä viitteissä.

Arkaluonteinen alan tieto käyttää WMDP (Weapons of Mass Destruction Proxy) -vertailuarvoa mallitietämyksen mittaamiseen bioturvallisuudessa, kyberturvallisuudessa ja kemiallisessa turvallisuudessa. Korkeammat joukkotuhoaseiden pisteet viittaavat parempaan tietoon mahdollisesti vaarallisista kyvyistä.

Turvallisuuspisteet auttavat ymmärtämään mallin kestävyyttä, mikä on erityisen tärkeää asiakaskohtaisissa sovelluksissa, joissa haitallinen lopputulos aiheuttaa merkittäviä huolia.

Kustannusvertailuarvot

Mallin käytön taloudellisten vaikutusten ymmärtäminen auttaa tasapainottamaan laatuvaatimukset budjettirajoitusten kanssa. Microsoft Foundryn kustannusvertailut näyttävät hinnoittelun palvelimettomien API-käyttöönottojen ja Azure OpenAI -mallien osalta.

Kustannus per syötetokeni näyttää miljoonan syötetokenin (tekstin, jonka lähetät mallille) käsittelyhinnan.

Kustannus per tulostokeni ilmaisee hinnan, joka syntyy 1 miljoonan output tokenin tuottamiselle (mallin tuottama teksti).

Arvioitu kustannus yhdistää syöttö- ja tuotantokustannukset tyypillisellä 3:1-suhteella (kolme syöttötokenia jokaista lähtötokenia kohden), jolloin saat yhden vertailuluvun. Alhaisemmat arvot viittaavat kustannustehokkaampiin malleihin.

Kustannusmittarit auttavat sinua tunnistamaan malleja, jotka tarjoavat tarvitsemasi laadun hintaluokassa, joka sopii sovelluksesi käyttötottumuksiin ja budjettiin.

Suorituskykymittarit

Suorituskykymittarit mittaavat, kuinka nopeasti ja tehokkaasti mallit vastaavat pyyntöihin. Nämä benchmarkit ovat tärkeitä reaaliaikaisissa sovelluksissa, joissa käyttäjäkokemus riippuu reagointikyvystä.

Viivemittauksiin kuuluvat:

Viive keskiarvo – keskimääräinen aika sekunneissa pyynnön käsittelyyn
Viive P50 (mediaani) – 50% pyyntöjä valmistuu nopeammin kuin tällä kertaa
Viive P90 - 90% pyyntöjä valmistuu nopeammin kuin tällä kertaa
Viive P95 - 95% pyyntöjä valmistuu nopeammin kuin tällä kertaa
Viive P99 - 99% pyyntöjä valmistuu nopeammin kuin tällä kertaa
Aika ensimmäiseen tokeniin (TTFT) – aika ensimmäisen tokenin saapumiseen suoratoistoa käytettäessä

Läpimenon mittaukset sisältävät:

Generoidut tokenit per sekunti (GTPS) – tuotetut tokenit per sekunti
Kokonaistokenit sekunnissa (TTPS) – yhdistetyt syöte- ja lähtötokenit, jotka käsitellään sekunnissa
Aika tokenien välillä – väli peräkkäisten tokenien vastaanottamisen välillä

Tulostaulu tiivistää suorituskyvyn käyttämällä keskimääräistä aikaa ensimmäiseen tokeniin (pienempi on parempi) ja keskimääräisten luotujen tokenien määrän sekunnissa (korkeampi on parempi). Korkean läpimenon ja viiveen mallit tarjoavat parempia käyttökokemuksia interaktiivisissa sovelluksissa. Eräprosessointitehtävissä, joissa nopeus on vähemmän tärkeä kuin kustannukset, voit priorisoida muita tekijöitä.

Käytä tulostauluja ja vertailuominaisuuksia

Mallin tulostaululla voit tarkastella huippumalleja tiettyjen mittareiden osalta. Voit lajitella laadun, turvallisuuden, arvioidun kustannusten ja läpimenon mukaan löytääksesi mallit, jotka parhaiten vastaavat tarpeitasi.

Skenaarioiden tulostaulut auttavat sinua löytämään malleja, jotka on optimoitu tiettyihin käyttötapauksiin, kuten päättelyyn, koodaukseen, matematiikkaan, kysymyksiin vastaamiseen tai maanläheisyyteen. Jos hakemuksesi vastaa tiettyä skenaariota, aloita kyseisestä skenaariotulostaulusta sen sijaan, että luottaisit pelkästään yleiseen laatuindeksiin.

Kompromissikaaviot näyttävät kaksi mittaria samanaikaisesti, kuten laatu vastaan kustannus tai laatu vastaan läpimeno. Nämä visualisoinnit auttavat sinua löytämään optimaalisen tasapainon tarpeisiisi. Käytä pudotusvalikkoa vertaillaksesi laatua kustannuksiin, läpimenoon tai turvallisuuteen. Kaavion oikean yläkulman lähempänä olevat mallit suoriutuvat hyvin molemmilla mittareilla. Malli, joka on hieman epätarkempi mutta huomattavasti nopeampi tai edullisempi, saattaa palvella tarpeitasi paremmin.

Rinnakkainen vertailu antaa sinun valita kaksi tai kolme mallia tulostaululta ja vertailla niitä eri ulottuvuuksissa:

Suorituskykymittarit (laatu, turvallisuus, läpimeno)
Mallin yksityiskohdat (kontekstiikkuna, koulutusdata, tuetut kielet)
Tuetut päätepisteet (käyttöönottovaihtoehdot)
Ominaisuuksien tuki (funktioiden kutsu, jäsennelty ulostulo, visio)

Valitse mallit rastittamalla ruudut niiden nimien vierestä, ja valitse sitten Vertaile avataksesi yksityiskohtaisen vertailunäkymän.

Palaute

Onko tästä sivusta apua?