Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Viktigt!
Objekt markerade (förhandsversion) i den här artikeln är för närvarande i offentlig förhandsversion. Den här förhandsversionen tillhandahålls utan ett serviceavtal och vi rekommenderar det inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller kan vara begränsade. Mer information finns i Kompletterande användningsvillkor för Förhandsversioner av Microsoft Azure.
Med modellrankningslistor (förhandsversion) i Azure AI Foundry-portalen kan du effektivisera urvalsprocessen för modeller i Azure AI Foundry-modellkatalogen. Modellrankningslistorna, som backas upp av branschstandardmått, kan hjälpa dig att hitta den bästa modellen för din anpassade AI-lösning. Från avsnittet modellrankningslistor i modellkatalogen kan du bläddra bland rankningslistor för att jämföra tillgängliga modeller på följande sätt:
- Topplistor för kvalitet, säkerhet, kostnad och prestanda för att snabbt identifiera modellledarna längs ett enda mått (kvalitet, säkerhet, kostnad eller dataflöde);
- Kompromissdiagram för att se hur modeller presterar på ett mått jämfört med ett annat, till exempel kvalitet kontra kostnad.
- Rankningslistor efter scenario för att hitta de bästa rankningslistorna som passar ditt scenario.
När du hittar en modell som du vill kan du välja den och zooma in de detaljerade benchmarkingresultaten för modellen i modellkatalogen. Om du är nöjd med modellen kan du distribuera den, prova den på lekplatsen eller utvärdera den på dina data. Rankningslistorna stöder benchmarking mellan textspråkmodeller (stora språkmodeller (LLM:er) och små språkmodeller (SLM)) och inbäddningsmodeller.
Modellmått utvärderar LLM:er och SLA:er i följande kategorier: kvalitet, säkerhet, kostnad och dataflöde. Dessutom utvärderar vi kvaliteten på inbäddningsmodeller med hjälp av standardmått. Rankningslistorna uppdateras regelbundet när bättre och fler outnyttjade riktmärken integreras, och när nya modeller läggs till i modellkatalogen.
Kvalitetsmått för språkmodeller
Azure AI utvärderar kvaliteten på LLM:er och SLI:er med hjälp av noggrannhetspoäng från standard, omfattande benchmark-datauppsättningar som mäter modellfunktioner som resonemang, kunskap, frågesvar, matematik och kodning.
Innehållsförteckning | Beskrivning |
---|---|
Kvalitetsindex | Kvalitetsindex beräknas genom medelvärde av tillämpliga noggrannhetspoäng (exact_match, pass@1, arena_hard) jämfört med omfattande standarddatauppsättningar. |
Kvalitetsindex tillhandahålls på en skala från noll till en. Högre värden för kvalitetsindex är bättre. De datauppsättningar som ingår i kvalitetsindexet är:
Namn på datauppsättning | Scenario med rankningslista |
---|---|
arena_hård | Kvalitetssäkring |
bigbench_hard | Resonemang |
gpqa | Kvalitetssäkring |
humanevalplus | Kodning |
ifeval | Resonemang |
matematik | Matematik |
mbppplus | Kodning |
mmlu_pro | Allmän kunskap |
Se mer information i noggrannhetspoäng:
Måttsystem | Beskrivning |
---|---|
Noggrannhet | Noggrannhetspoäng är tillgängliga på datamängden och modellnivåerna. På datamängdsnivå är poängen det genomsnittliga värdet för ett noggrannhetsmått som beräknas över alla exempel i datamängden. Det noggrannhetsmått som används är exact-match i alla fall, förutom de HumanEval - och MBPP-datauppsättningar som använder ett pass@1 mått. Exakt matchning jämför modellgenererad text med rätt svar baserat på datasetet och ger en etta om den genererade texten exakt matchar svaret och noll annars. Måttet pass@1 mäter andelen modelllösningar som klarar en uppsättning enhetstester i en kodgenereringsaktivitet. På modellnivå är noggrannhetspoängen medelvärdet av noggrannheten på datauppsättningsnivå för varje modell. |
Noggrannhetspoäng tillhandahålls på en skala från noll till en. Högre värden är bättre.
Säkerhetsmått för språkmodeller
För att vägleda valet av säkerhetsmått för utvärdering tillämpar vi en strukturerad filtrerings- och valideringsprocess som är utformad för att säkerställa både relevans och noggrannhet. Ett riktmärke kvalificerar sig för införande om det tar itu med högprioriterade risker. För säkerhetsrankningslistor tittar vi på olika riktmärken som kan anses vara tillräckligt tillförlitliga för att ge vissa signaler om vissa ämnen av intresse när de relaterar till säkerhet. Vi väljer HarmBench till proxymodellsäkerhet och organiserar scenariorankningslistor på följande sätt:
Namn på datauppsättning | Scenario med rankningslista | Måttsystem | Tolkning |
---|---|---|---|
HarmBench (standard) | Vanliga skadliga beteenden | Frekvens för lyckade attacker | Lägre värden innebär bättre robusthet mot attacker som är utformade för olagligt skadligt standardinnehåll |
HarmBench (kontextuell) | Kontextuellt skadliga beteenden | Frekvens för lyckade attacker | Lägre värden innebär bättre robusthet mot attacker som är utformade för olagligt kontextuellt skadligt innehåll |
HarmBench (upphovsrättsbrott) | Upphovsrättsbrott | Frekvens för lyckade attacker | Lägre värden innebär bättre robusthet mot attacker som är utformade för olagliga upphovsrättsbrott |
WMDP | Kunskap om känsliga domäner | Noggrannhet | Högre värden anger mer kunskap inom känsliga domäner (cybersäkerhet, biosäkerhet och kemisk säkerhet) |
Toxigen | Möjlighet att identifiera giftigt innehåll | F1-poäng | Högre värden innebär bättre förmåga att identifiera giftigt innehåll |
Modellera skadliga beteenden
HarmBench-riktmärket mäter modellens skadliga beteenden och innehåller uppmaningar till skadligt beteende från modellen. När det gäller säkerhet omfattar riktmärket 7 semantiska beteendekategorier:
- Cyberbrott och obehörigt intrång
- Kemiska och biologiska vapen/droger
- Upphovsrättsbrott
- Felaktig information och desinformation
- Trakasserier och mobbning
- Olagliga aktiviteter
- Allmän skada
Dessa 7 kategorier kan sammanfattas i tre funktionella kategorier
- vanliga skadliga beteenden
- kontextuellt skadliga beteenden
- upphovsrättsbrott
Varje funktionskategori finns i en separat scenario-rankningslista. Vi använder direkta uppmaningar från HarmBench (inga attacker) och HarmBench-utvärderare för att beräkna attackframgångsfrekvensen (ASR). Lägre ASR-värden innebär säkrare modeller. Vi utforskar inte någon attackstrategi för utvärdering och modellmätning utförs med Azure AI Content Safety Filter inaktiverat.
Modell förmåga att identifiera giftigt innehåll
Toxigen är en storskalig datorgenererad datauppsättning för identifiering av skadlig och implicit hatpropaganda. Den innehåller implicit giftiga och godartade meningar som nämner 13 minoritetsgrupper. Vi använder de kommenterade exemplen från Toxigen för utvärdering och beräknar F1-poäng för att mäta klassificeringsprestanda. Högre poäng på den här datamängden innebär att en modell är bättre på att identifiera giftigt innehåll. Modellmätning utförs med Azure AI Content Safety Filter inaktiverat.
Modellkunskaper i känsliga domäner
WMDP-riktmärket (Proxy för massförstörelsevapen) mäter kunskap om modeller inom känsliga domäner, inklusive biosäkerhet, cybersäkerhet och kemisk säkerhet. Rankningslistan använder genomsnittliga noggrannhetspoäng för cybersäkerhet, biosäkerhet och kemisk säkerhet. En högre WMDP-noggrannhetspoäng anger mer kunskap om farliga funktioner (sämre beteende ur säkerhetssynpunkt). Modellmätning utförs med standardfiltren för Azure AI Content Safety aktiverat. Dessa säkerhetsfilter identifierar och blockerar innehållsskador i våld, självskadebeteende, sexuellt, hat och orättvisa, men riktar sig inte mot kategorier inom cybersäkerhet, biosäkerhet och kemisk säkerhet.
Begränsningar för säkerhetsmått
Vi förstår och erkänner att säkerhet är ett komplext ämne och har flera dimensioner. Inga aktuella prestandamått med öppen källkod kan testa eller representera systemets fullständiga säkerhet i olika scenarier. Dessutom kan de flesta av dessa riktmärken drabbas av mättnad, eller feljustering mellan benchmark-design och riskdefinitionen, kan sakna tydlig dokumentation om hur målriskerna konceptualiseras och operationaliseras, vilket gör det svårt att bedöma om riktmärket korrekt fångar upp riskernas nyanser. Den här begränsningen kan leda till antingen överskattning eller underskattning av modellprestanda i verkliga säkerhetsscenarier.
Prestandamått för språkmodeller
Prestandamått beräknas som en mängd över 14 dagar, baserat på 24 spår (två begäranden per spår) som skickas dagligen med ett intervall på en timme mellan varje spår. Följande standardparametrar används för varje begäran till modellslutpunkten:
Parameter | Värde | Gäller för |
---|---|---|
Region | Östra USA/Östra USA 2 | serverlösa API-distributioner och Azure OpenAI |
Hastighetsgräns för token per minut (TPM) | 30 000 (180 RPM baserat på Azure OpenAI) för icke-resonemang och 100 000 för resonemangsmodeller N/A (serverlösa API-distributioner) |
För Azure OpenAI-modeller är valet tillgängligt för användare med hastighetsbegränsningsintervall baserat på distributionstyp (serverlöst API, global, global standard och så vidare.) För serverlösa API-distributioner är den här inställningen abstrakt. |
Antal begäranden | Två begäranden i ett loggspår per timme (24 loggspår per dag) | serverlösa API-distributioner, Azure OpenAI |
Antal spår/körningar | 14 dagar med 24 spår per dag för 336 körningar | serverlösa API-distributioner, Azure OpenAI |
Längd på fråga/kontext | Måttlig längd | serverlösa API-distributioner, Azure OpenAI |
Antal bearbetade token (måttliga) | 80:20-förhållande för indata till utdatatoken, dvs. 800 indatatoken till 200 utdatatoken. | serverlösa API-distributioner, Azure OpenAI |
Antal samtidiga begäranden | En (begäranden skickas sekventiellt en efter en) | serverlösa API-distributioner, Azure OpenAI |
Uppgifter | Syntetiskt (indataprompter som förberetts från statisk text) | serverlösa API-distributioner, Azure OpenAI |
Region | Östra USA/Östra USA 2 | serverlösa API-distributioner och Azure OpenAI |
Distributionstyp | serverlöst API | Gäller endast för Azure OpenAI |
Direktuppspelning | Sann | Gäller för serverlösa API-distributioner och Azure OpenAI. För modeller som distribueras via hanterad beräkning eller för slutpunkter när strömning inte stöds representeras TTFT som P50 för svarstidsmått. |
artikelnummer (SKU) | Standard_NC24ads_A100_v4 (24 kärnor, 220 GB RAM-minne, 64 GB lagring) | Gäller endast för hanterad beräkning (för att beräkna kostnads- och prestandamått) |
Prestanda för LLM:er och SLI:er utvärderas i följande mått:
Måttsystem | Beskrivning |
---|---|
Svarstidsmedelvärde | Genomsnittlig tid i sekunder för bearbetning av en begäran, beräknad över flera begäranden. För att beräkna det här måttet skickar vi en begäran till slutpunkten varje timme i två veckor och beräknar genomsnittet. |
Svarstid P50 | 50:e percentilvärdet (medianvärdet) för svarstiden (den tid det tar mellan begäran och när vi får hela svaret med en lyckad kod). När vi till exempel skickar en begäran till slutpunkten slutförs 50% av begärandena på x sekunder, där "x" är svarstidsmätningen. |
Svarstid P90 | 90:e percentilvärdet för svarstiden (den tid det tar mellan begäran och när vi får hela svaret med en lyckad kod). När vi till exempel skickar en begäran till slutpunkten slutförs 90% av begärandena på x sekunder, där "x" är svarstidsmätningen. |
Svarstid P95 | Det 95:e percentilvärdet för svarstiden (den tid det tar mellan begäran och när vi får hela svaret med en lyckad kod). När vi till exempel skickar en begäran till slutpunkten är 95% av begärandena slutförda på x sekunder, där "x" är svarstidsmätningen. |
Svarstid P99 | 99:e percentilvärdet för svarstiden (den tid det tar mellan begäran och när vi får hela svaret med en lyckad kod). När vi till exempel skickar en begäran till slutpunkten är 99% av begärandena slutförda på x sekunder, där "x" är svarstidsmätningen. |
Genomströmning GTPS | Genererade token per sekund (GTPS) är antalet utdatatoken som genereras per sekund från den tidpunkt då begäran skickas till slutpunkten. |
Genomströmning TTPS | Totalt antal token per sekund (TTPS) är antalet totalt antal token som bearbetas per sekund, inklusive både från indataprompten och genererade utdatatoken. För modeller som inte stöder strömning representerar tid till första token (ttft) P50-värdet för svarstid (tid det tar att ta emot svaret) |
TTFT för svarstid | Total tid till första tecken (TTFT) är tiden det tar för det första tecknet i svaret att returneras från slutpunkt när strömning är aktiverad. |
Tid mellan token | Det här måttet är tiden mellan token som har tagits emot. |
Azure AI visar även prestandaindex för svarstid och dataflöde på följande sätt:
Innehållsförteckning | Beskrivning |
---|---|
Index för svarstid | Genomsnittlig tid till första token. Lägre värden är bättre. |
Dataflödesindex | Medelgenererade token per sekund. Högre värden är bättre. |
För prestandamått som svarstid eller dataflöde ger tiden till den första token och de genererade token per sekund en bättre övergripande uppfattning om modellens typiska prestanda och beteende. Vi uppdaterar våra prestandamätningar med regelbundna intervaller.
Kostnadsmått för språkmodeller
Kostnadsberäkningar är uppskattningar för användning av en LLM- eller SLM-modellslutpunkt som finns på Azure AI-plattformen. Azure AI stöder visning av kostnaden för serverlösa API-distributioner och Azure OpenAI-modeller. Eftersom dessa kostnader kan komma att ändras uppdaterar vi våra kostnadsberäkningar regelbundet.
Kostnaden för LLM:er och SLI:er utvärderas i följande mått:
Måttsystem | Beskrivning |
---|---|
Kostnad per indatatoken | Kostnad för serverlös API-distribution för 1 miljon indatatoken |
Kostnad per utdatatoken | Kostnad för serverlös API-distribution för 1 miljon utdatatoken |
Beräknad kostnad | Kostnad för summan av kostnaden per indatatoken och kostnaden per utdatatoken, med förhållandet 3:1. |
Azure AI visar även kostnadsindexet på följande sätt:
Innehållsförteckning | Beskrivning |
---|---|
Kostnadsindex | Uppskattad kostnad. Lägre värden är bättre. |
Kvalitetsmått för inbäddningsmodeller
Kvalitetsindexet för inbäddningsmodeller definieras som de genomsnittliga noggrannhetspoängen för en omfattande uppsättning serverlösa API-benchmark-datauppsättningar som riktar sig till uppgifter för informationshämtning, dokumentklustring och sammanfattning.
Mer information finns i definitioner för precisionspoäng som är specifika för varje datauppsättning:
Måttsystem | Beskrivning |
---|---|
Noggrannhet | Noggrannhet är andelen korrekta förutsägelser bland det totala antalet bearbetade förutsägelser. |
F1-poäng | F1 Score är det viktade medelvärdet av precisionen och träffsäkerheten, där det bästa värdet är ett (perfekt precision och träffsäkerhet) och det sämsta är noll. |
Medelgenomsnittlig precision (MAP) | MAP utvärderar kvaliteten på rangordnings- och rekommendationssystem. Den mäter både relevansen av föreslagna objekt och hur bra systemet är på att placera mer relevanta objekt högst upp. Värden kan variera från noll till en, och ju högre MAP, desto bättre kan systemet placera relevanta objekt högt i listan. |
Normaliserad rabatterad ackumulerad vinst (NDCG) | NDCG utvärderar en maskininlärningsalgoritms förmåga att sortera objekt baserat på relevans. Den jämför rangordningen med en idealisk ordning där alla relevanta objekt finns överst i listan, där k är listlängden vid utvärdering av rangordningskvalitet. I våra benchmarks, k=10, som indikeras av ett mått ndcg_at_10 , vilket innebär att vi tittar på de översta 10 objekten. |
Noggrannhet | Precision mäter modellens förmåga att identifiera instanser av en viss klass korrekt. Precision visar hur ofta en maskininlärningsmodell är korrekt när målklassen förutsägas. |
Spearman-korrelation | Spearman-korrelation baserat på cosininlikitet beräknas genom att först beräkna cosinnigheten mellan variabler, sedan rangordna dessa poäng och använda rangordningen för att beräkna Spearman-korrelationen. |
V-mått | V-mått är ett mått som används för att utvärdera klustringskvaliteten. V-mått beräknas som ett harmoniskt medelvärde av homogenitet och fullständighet, vilket säkerställer en balans mellan de två för en meningsfull poäng. Möjliga poäng ligger mellan noll och ett, där ett betyder fullständig märkning. |
Beräkning av poäng
Individuella poäng
Benchmark-resultat kommer från offentliga datauppsättningar som ofta används för utvärdering av språkmodeller. I de flesta fall finns data i GitHub-lagringsplatser som underhålls av skaparna eller kuratorerna av data. Azure AI-utvärderingspipelines laddar ned data från sina ursprungliga källor, extraherar frågor från varje exempelrad, genererar modellsvar och beräknar sedan relevanta noggrannhetsmått.
Frågekonstruktion följer den bästa praxis för varje datauppsättning, enligt vad som anges i artikeln som presenterar datauppsättningen samt branschstandarder. I de flesta fall innehåller varje fråga flera bilder, det vill säga flera exempel på fullständiga frågor och svar för att få fram modellen för uppgiften. Utvärderingspipelines skapar sekvenser genom att ta prover på frågor och svar från en del av de data som inte används i utvärderingen.