Dela via


Modellrankningslistor i Azure AI Foundry-portalen (förhandsversion)

Viktigt!

Objekt markerade (förhandsversion) i den här artikeln är för närvarande i offentlig förhandsversion. Den här förhandsversionen tillhandahålls utan ett serviceavtal och vi rekommenderar det inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller kan vara begränsade. Mer information finns i Kompletterande användningsvillkor för Förhandsversioner av Microsoft Azure.

Med modellrankningslistor (förhandsversion) i Azure AI Foundry-portalen kan du effektivisera urvalsprocessen för modeller i Azure AI Foundry-modellkatalogen. Modellrankningslistorna, som backas upp av branschstandardmått, kan hjälpa dig att hitta den bästa modellen för din anpassade AI-lösning. Från avsnittet modellrankningslistor i modellkatalogen kan du bläddra bland rankningslistor för att jämföra tillgängliga modeller på följande sätt:

När du hittar en modell som du vill kan du välja den och zooma in de detaljerade benchmarkingresultaten för modellen i modellkatalogen. Om du är nöjd med modellen kan du distribuera den, prova den på lekplatsen eller utvärdera den på dina data. Rankningslistorna stöder benchmarking mellan textspråkmodeller (stora språkmodeller (LLM:er) och små språkmodeller (SLM)) och inbäddningsmodeller.

Modellmått utvärderar LLM:er och SLA:er i följande kategorier: kvalitet, säkerhet, kostnad och dataflöde. Dessutom utvärderar vi kvaliteten på inbäddningsmodeller med hjälp av standardmått. Rankningslistorna uppdateras regelbundet när bättre och fler outnyttjade riktmärken integreras, och när nya modeller läggs till i modellkatalogen.

Kvalitetsmått för språkmodeller

Azure AI utvärderar kvaliteten på LLM:er och SLI:er med hjälp av noggrannhetspoäng från standard, omfattande benchmark-datauppsättningar som mäter modellfunktioner som resonemang, kunskap, frågesvar, matematik och kodning.

Innehållsförteckning Beskrivning
Kvalitetsindex Kvalitetsindex beräknas genom medelvärde av tillämpliga noggrannhetspoäng (exact_match, pass@1, arena_hard) jämfört med omfattande standarddatauppsättningar.

Kvalitetsindex tillhandahålls på en skala från noll till en. Högre värden för kvalitetsindex är bättre. De datauppsättningar som ingår i kvalitetsindexet är:

Namn på datauppsättning Scenario med rankningslista
arena_hård Kvalitetssäkring
bigbench_hard Resonemang
gpqa Kvalitetssäkring
humanevalplus Kodning
ifeval Resonemang
matematik Matematik
mbppplus Kodning
mmlu_pro Allmän kunskap

Se mer information i noggrannhetspoäng:

Måttsystem Beskrivning
Noggrannhet Noggrannhetspoäng är tillgängliga på datamängden och modellnivåerna. På datamängdsnivå är poängen det genomsnittliga värdet för ett noggrannhetsmått som beräknas över alla exempel i datamängden. Det noggrannhetsmått som används är exact-match i alla fall, förutom de HumanEval - och MBPP-datauppsättningar som använder ett pass@1 mått. Exakt matchning jämför modellgenererad text med rätt svar baserat på datasetet och ger en etta om den genererade texten exakt matchar svaret och noll annars. Måttet pass@1 mäter andelen modelllösningar som klarar en uppsättning enhetstester i en kodgenereringsaktivitet. På modellnivå är noggrannhetspoängen medelvärdet av noggrannheten på datauppsättningsnivå för varje modell.

Noggrannhetspoäng tillhandahålls på en skala från noll till en. Högre värden är bättre.

Säkerhetsmått för språkmodeller

För att vägleda valet av säkerhetsmått för utvärdering tillämpar vi en strukturerad filtrerings- och valideringsprocess som är utformad för att säkerställa både relevans och noggrannhet. Ett riktmärke kvalificerar sig för införande om det tar itu med högprioriterade risker. För säkerhetsrankningslistor tittar vi på olika riktmärken som kan anses vara tillräckligt tillförlitliga för att ge vissa signaler om vissa ämnen av intresse när de relaterar till säkerhet. Vi väljer HarmBench till proxymodellsäkerhet och organiserar scenariorankningslistor på följande sätt:

Namn på datauppsättning Scenario med rankningslista Måttsystem Tolkning
HarmBench (standard) Vanliga skadliga beteenden Frekvens för lyckade attacker Lägre värden innebär bättre robusthet mot attacker som är utformade för olagligt skadligt standardinnehåll
HarmBench (kontextuell) Kontextuellt skadliga beteenden Frekvens för lyckade attacker Lägre värden innebär bättre robusthet mot attacker som är utformade för olagligt kontextuellt skadligt innehåll
HarmBench (upphovsrättsbrott) Upphovsrättsbrott Frekvens för lyckade attacker Lägre värden innebär bättre robusthet mot attacker som är utformade för olagliga upphovsrättsbrott
WMDP Kunskap om känsliga domäner Noggrannhet Högre värden anger mer kunskap inom känsliga domäner (cybersäkerhet, biosäkerhet och kemisk säkerhet)
Toxigen Möjlighet att identifiera giftigt innehåll F1-poäng Högre värden innebär bättre förmåga att identifiera giftigt innehåll

Modellera skadliga beteenden

HarmBench-riktmärket mäter modellens skadliga beteenden och innehåller uppmaningar till skadligt beteende från modellen. När det gäller säkerhet omfattar riktmärket 7 semantiska beteendekategorier:

  • Cyberbrott och obehörigt intrång
  • Kemiska och biologiska vapen/droger
  • Upphovsrättsbrott
  • Felaktig information och desinformation
  • Trakasserier och mobbning
  • Olagliga aktiviteter
  • Allmän skada

Dessa 7 kategorier kan sammanfattas i tre funktionella kategorier

  • vanliga skadliga beteenden
  • kontextuellt skadliga beteenden
  • upphovsrättsbrott

Varje funktionskategori finns i en separat scenario-rankningslista. Vi använder direkta uppmaningar från HarmBench (inga attacker) och HarmBench-utvärderare för att beräkna attackframgångsfrekvensen (ASR). Lägre ASR-värden innebär säkrare modeller. Vi utforskar inte någon attackstrategi för utvärdering och modellmätning utförs med Azure AI Content Safety Filter inaktiverat.

Modell förmåga att identifiera giftigt innehåll

Toxigen är en storskalig datorgenererad datauppsättning för identifiering av skadlig och implicit hatpropaganda. Den innehåller implicit giftiga och godartade meningar som nämner 13 minoritetsgrupper. Vi använder de kommenterade exemplen från Toxigen för utvärdering och beräknar F1-poäng för att mäta klassificeringsprestanda. Högre poäng på den här datamängden innebär att en modell är bättre på att identifiera giftigt innehåll. Modellmätning utförs med Azure AI Content Safety Filter inaktiverat.

Modellkunskaper i känsliga domäner

WMDP-riktmärket (Proxy för massförstörelsevapen) mäter kunskap om modeller inom känsliga domäner, inklusive biosäkerhet, cybersäkerhet och kemisk säkerhet. Rankningslistan använder genomsnittliga noggrannhetspoäng för cybersäkerhet, biosäkerhet och kemisk säkerhet. En högre WMDP-noggrannhetspoäng anger mer kunskap om farliga funktioner (sämre beteende ur säkerhetssynpunkt). Modellmätning utförs med standardfiltren för Azure AI Content Safety aktiverat. Dessa säkerhetsfilter identifierar och blockerar innehållsskador i våld, självskadebeteende, sexuellt, hat och orättvisa, men riktar sig inte mot kategorier inom cybersäkerhet, biosäkerhet och kemisk säkerhet.

Begränsningar för säkerhetsmått

Vi förstår och erkänner att säkerhet är ett komplext ämne och har flera dimensioner. Inga aktuella prestandamått med öppen källkod kan testa eller representera systemets fullständiga säkerhet i olika scenarier. Dessutom kan de flesta av dessa riktmärken drabbas av mättnad, eller feljustering mellan benchmark-design och riskdefinitionen, kan sakna tydlig dokumentation om hur målriskerna konceptualiseras och operationaliseras, vilket gör det svårt att bedöma om riktmärket korrekt fångar upp riskernas nyanser. Den här begränsningen kan leda till antingen överskattning eller underskattning av modellprestanda i verkliga säkerhetsscenarier.

Prestandamått för språkmodeller

Prestandamått beräknas som en mängd över 14 dagar, baserat på 24 spår (två begäranden per spår) som skickas dagligen med ett intervall på en timme mellan varje spår. Följande standardparametrar används för varje begäran till modellslutpunkten:

Parameter Värde Gäller för
Region Östra USA/Östra USA 2 serverlösa API-distributioner och Azure OpenAI
Hastighetsgräns för token per minut (TPM) 30 000 (180 RPM baserat på Azure OpenAI) för icke-resonemang och 100 000 för resonemangsmodeller
N/A (serverlösa API-distributioner)
För Azure OpenAI-modeller är valet tillgängligt för användare med hastighetsbegränsningsintervall baserat på distributionstyp (serverlöst API, global, global standard och så vidare.)
För serverlösa API-distributioner är den här inställningen abstrakt.
Antal begäranden Två begäranden i ett loggspår per timme (24 loggspår per dag) serverlösa API-distributioner, Azure OpenAI
Antal spår/körningar 14 dagar med 24 spår per dag för 336 körningar serverlösa API-distributioner, Azure OpenAI
Längd på fråga/kontext Måttlig längd serverlösa API-distributioner, Azure OpenAI
Antal bearbetade token (måttliga) 80:20-förhållande för indata till utdatatoken, dvs. 800 indatatoken till 200 utdatatoken. serverlösa API-distributioner, Azure OpenAI
Antal samtidiga begäranden En (begäranden skickas sekventiellt en efter en) serverlösa API-distributioner, Azure OpenAI
Uppgifter Syntetiskt (indataprompter som förberetts från statisk text) serverlösa API-distributioner, Azure OpenAI
Region Östra USA/Östra USA 2 serverlösa API-distributioner och Azure OpenAI
Distributionstyp serverlöst API Gäller endast för Azure OpenAI
Direktuppspelning Sann Gäller för serverlösa API-distributioner och Azure OpenAI. För modeller som distribueras via hanterad beräkning eller för slutpunkter när strömning inte stöds representeras TTFT som P50 för svarstidsmått.
artikelnummer (SKU) Standard_NC24ads_A100_v4 (24 kärnor, 220 GB RAM-minne, 64 GB lagring) Gäller endast för hanterad beräkning (för att beräkna kostnads- och prestandamått)

Prestanda för LLM:er och SLI:er utvärderas i följande mått:

Måttsystem Beskrivning
Svarstidsmedelvärde Genomsnittlig tid i sekunder för bearbetning av en begäran, beräknad över flera begäranden. För att beräkna det här måttet skickar vi en begäran till slutpunkten varje timme i två veckor och beräknar genomsnittet.
Svarstid P50 50:e percentilvärdet (medianvärdet) för svarstiden (den tid det tar mellan begäran och när vi får hela svaret med en lyckad kod). När vi till exempel skickar en begäran till slutpunkten slutförs 50% av begärandena på x sekunder, där "x" är svarstidsmätningen.
Svarstid P90 90:e percentilvärdet för svarstiden (den tid det tar mellan begäran och när vi får hela svaret med en lyckad kod). När vi till exempel skickar en begäran till slutpunkten slutförs 90% av begärandena på x sekunder, där "x" är svarstidsmätningen.
Svarstid P95 Det 95:e percentilvärdet för svarstiden (den tid det tar mellan begäran och när vi får hela svaret med en lyckad kod). När vi till exempel skickar en begäran till slutpunkten är 95% av begärandena slutförda på x sekunder, där "x" är svarstidsmätningen.
Svarstid P99 99:e percentilvärdet för svarstiden (den tid det tar mellan begäran och när vi får hela svaret med en lyckad kod). När vi till exempel skickar en begäran till slutpunkten är 99% av begärandena slutförda på x sekunder, där "x" är svarstidsmätningen.
Genomströmning GTPS Genererade token per sekund (GTPS) är antalet utdatatoken som genereras per sekund från den tidpunkt då begäran skickas till slutpunkten.
Genomströmning TTPS Totalt antal token per sekund (TTPS) är antalet totalt antal token som bearbetas per sekund, inklusive både från indataprompten och genererade utdatatoken. För modeller som inte stöder strömning representerar tid till första token (ttft) P50-värdet för svarstid (tid det tar att ta emot svaret)
TTFT för svarstid Total tid till första tecken (TTFT) är tiden det tar för det första tecknet i svaret att returneras från slutpunkt när strömning är aktiverad.
Tid mellan token Det här måttet är tiden mellan token som har tagits emot.

Azure AI visar även prestandaindex för svarstid och dataflöde på följande sätt:

Innehållsförteckning Beskrivning
Index för svarstid Genomsnittlig tid till första token. Lägre värden är bättre.
Dataflödesindex Medelgenererade token per sekund. Högre värden är bättre.

För prestandamått som svarstid eller dataflöde ger tiden till den första token och de genererade token per sekund en bättre övergripande uppfattning om modellens typiska prestanda och beteende. Vi uppdaterar våra prestandamätningar med regelbundna intervaller.

Kostnadsmått för språkmodeller

Kostnadsberäkningar är uppskattningar för användning av en LLM- eller SLM-modellslutpunkt som finns på Azure AI-plattformen. Azure AI stöder visning av kostnaden för serverlösa API-distributioner och Azure OpenAI-modeller. Eftersom dessa kostnader kan komma att ändras uppdaterar vi våra kostnadsberäkningar regelbundet.

Kostnaden för LLM:er och SLI:er utvärderas i följande mått:

Måttsystem Beskrivning
Kostnad per indatatoken Kostnad för serverlös API-distribution för 1 miljon indatatoken
Kostnad per utdatatoken Kostnad för serverlös API-distribution för 1 miljon utdatatoken
Beräknad kostnad Kostnad för summan av kostnaden per indatatoken och kostnaden per utdatatoken, med förhållandet 3:1.

Azure AI visar även kostnadsindexet på följande sätt:

Innehållsförteckning Beskrivning
Kostnadsindex Uppskattad kostnad. Lägre värden är bättre.

Kvalitetsmått för inbäddningsmodeller

Kvalitetsindexet för inbäddningsmodeller definieras som de genomsnittliga noggrannhetspoängen för en omfattande uppsättning serverlösa API-benchmark-datauppsättningar som riktar sig till uppgifter för informationshämtning, dokumentklustring och sammanfattning.

Mer information finns i definitioner för precisionspoäng som är specifika för varje datauppsättning:

Måttsystem Beskrivning
Noggrannhet Noggrannhet är andelen korrekta förutsägelser bland det totala antalet bearbetade förutsägelser.
F1-poäng F1 Score är det viktade medelvärdet av precisionen och träffsäkerheten, där det bästa värdet är ett (perfekt precision och träffsäkerhet) och det sämsta är noll.
Medelgenomsnittlig precision (MAP) MAP utvärderar kvaliteten på rangordnings- och rekommendationssystem. Den mäter både relevansen av föreslagna objekt och hur bra systemet är på att placera mer relevanta objekt högst upp. Värden kan variera från noll till en, och ju högre MAP, desto bättre kan systemet placera relevanta objekt högt i listan.
Normaliserad rabatterad ackumulerad vinst (NDCG) NDCG utvärderar en maskininlärningsalgoritms förmåga att sortera objekt baserat på relevans. Den jämför rangordningen med en idealisk ordning där alla relevanta objekt finns överst i listan, där k är listlängden vid utvärdering av rangordningskvalitet. I våra benchmarks, k=10, som indikeras av ett mått ndcg_at_10, vilket innebär att vi tittar på de översta 10 objekten.
Noggrannhet Precision mäter modellens förmåga att identifiera instanser av en viss klass korrekt. Precision visar hur ofta en maskininlärningsmodell är korrekt när målklassen förutsägas.
Spearman-korrelation Spearman-korrelation baserat på cosininlikitet beräknas genom att först beräkna cosinnigheten mellan variabler, sedan rangordna dessa poäng och använda rangordningen för att beräkna Spearman-korrelationen.
V-mått V-mått är ett mått som används för att utvärdera klustringskvaliteten. V-mått beräknas som ett harmoniskt medelvärde av homogenitet och fullständighet, vilket säkerställer en balans mellan de två för en meningsfull poäng. Möjliga poäng ligger mellan noll och ett, där ett betyder fullständig märkning.

Beräkning av poäng

Individuella poäng

Benchmark-resultat kommer från offentliga datauppsättningar som ofta används för utvärdering av språkmodeller. I de flesta fall finns data i GitHub-lagringsplatser som underhålls av skaparna eller kuratorerna av data. Azure AI-utvärderingspipelines laddar ned data från sina ursprungliga källor, extraherar frågor från varje exempelrad, genererar modellsvar och beräknar sedan relevanta noggrannhetsmått.

Frågekonstruktion följer den bästa praxis för varje datauppsättning, enligt vad som anges i artikeln som presenterar datauppsättningen samt branschstandarder. I de flesta fall innehåller varje fråga flera bilder, det vill säga flera exempel på fullständiga frågor och svar för att få fram modellen för uppgiften. Utvärderingspipelines skapar sekvenser genom att ta prover på frågor och svar från en del av de data som inte används i utvärderingen.