Condividi tramite


Classifiche dei modelli nel portale di Microsoft Foundry (anteprima)

Importante

Gli elementi contrassegnati (anteprima) in questo articolo sono attualmente disponibili in anteprima pubblica. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere le Condizioni supplementari per l'uso delle anteprime di Microsoft Azure.

Le classifiche dei modelli (anteprima) nel portale di Foundry consentono di confrontare i modelli nel catalogo dei modelli Foundry usando benchmark del modello standard del settore.

Per iniziare, confrontare e selezionare i modelli usando la classifica dei modelli nel portale Foundry.

È possibile esaminare la metodologia dettagliata di benchmarking per ogni categoria del tabellone punteggi:

  • Valutazione delle prestazioni per comprendere il livello di prestazioni dei modelli linguistici sulle attività principali, tra cui ragionamento, conoscenze, risposta a domande, matematica e codifica.
  • Benchmarking di sicurezza dei modelli linguistici per comprendere in che modo i modelli sicuri sono contro la generazione di comportamenti dannosi.
  • Benchmarking delle prestazioni dei modelli linguistici per comprendere le prestazioni dei modelli in termini di latenza e velocità effettiva.
  • Benchmarking dei costi dei modelli linguistici per comprendere il costo stimato per l'utilizzo dei modelli.
  • Benchmarking dei modelli linguistici del scenario leaderboard per aiutarti a trovare il modello migliore per il tuo caso d'uso o scenario specifico.
  • Benchmarking di qualità dei modelli di embedding per comprendere il livello di prestazioni dei modelli nelle attività basate su embedding, tra cui ricerca e recupero.

Quando si trova un modello appropriato, è possibile aprire i risultati dettagliati del benchmarking nel catalogo dei modelli. Da qui è possibile distribuire il modello, provarlo nel playground o valutarlo sui propri dati. I tabelloni punteggi supportano il benchmarking per i modelli linguistici di testo (inclusi modelli di linguaggio di grandi dimensioni e modelli di linguaggio di piccole dimensioni) e modelli di incorporamento.

I benchmark del modello valutano LLM e SLM considerando qualità, sicurezza, costi e capacità effettiva. I modelli di incorporamento vengono valutati usando benchmark di qualità standard. I tabelloni punteggi vengono aggiornati man mano che diventano disponibili nuovi modelli e set di dati di benchmark.

Ambito di benchmarking del modello

I tabelloni punteggi del modello includono una selezione curata di modelli linguistici basati su testo dal catalogo dei modelli Foundry. I modelli sono inclusi in base ai criteri seguenti:

  • Modelli diretti di Azure con priorità: i modelli di Azure Direct sono selezionati per pertinenza agli scenari di intelligenza artificiale generativi comuni.
  • Applicabilità del benchmark principale: i modelli devono supportare attività del linguaggio generico, ad esempio ragionamento, conoscenza, risposta alle domande, ragionamento matematico e codifica. I modelli specializzati (ad esempio, il piegamento delle proteine o il controllo di qualità specifico del dominio) e altre modalità tecniche non sono supportate.

Questa definizione di ambito garantisce che i tabelloni punteggi riflettano i modelli attuali di alta qualità rilevanti per gli scenari di intelligenza artificiale di base.

Interpretare i risultati del tabellone punteggi

I tabelloni punteggi consentono di confrontare i modelli tra più dimensioni in modo da poter scegliere il modello appropriato per il caso d'uso. Ecco alcune linee guida per interpretare i risultati:

  • Indice di qualità: un indice di qualità superiore indica prestazioni complessive più elevate nelle attività di ragionamento, codifica, matematica e conoscenza. Confrontare l'indice di qualità tra i modelli per identificare i migliori performer per le attività del linguaggio generico.
  • Punteggi di sicurezza: i tassi di successo degli attacchi inferiori indicano modelli più affidabili. Considerare i punteggi di sicurezza insieme ai punteggi di qualità, soprattutto per le applicazioni rivolte ai clienti in cui l'output dannoso è un problema significativo.
  • Compromessi sulle prestazioni: usare le metriche di latenza e produttività per comprendere la reattività nel mondo reale di un modello. Un modello con qualità elevata ma una latenza elevata potrebbe non essere adatta alle applicazioni in tempo reale.
  • Considerazioni sui costi: la metrica dei costi stimata usa un rapporto tra token di input e output da tre a uno. Modificare le aspettative in base al rapporto input-output del carico di lavoro effettivo.
  • Classifiche degli scenari: se il caso d'uso è mappato a uno scenario specifico (ad esempio, codifica o matematica), iniziare con il tabellone punteggi dello scenario per trovare i modelli ottimizzati per tale attività anziché basarsi esclusivamente sull'indice di qualità complessivo.

Suggerimento

I benchmark del tabellone punteggi forniscono confronti standardizzati tra i modelli usando set di dati pubblici. Per valutare le prestazioni del modello sui dati e sui casi d'uso specifici, vedere Valutare le app di intelligenza artificiale generative.

Parametri di qualità dei modelli linguistici

Foundry valuta la qualità degli LLM e degli SLM usando i punteggi di accuratezza dagli insiemi di dati di benchmark standard che misurano ragionamento, conoscenza, risposta alle domande, matematica e capacità di codifica.

Index Descrzione
Indice di qualità Calcolato calcolando la media dei punteggi di accuratezza applicabili (exact_match, pass@1, arena_hard) tra set di dati di benchmark.

I valori degli indici di qualità vanno da zero a uno, dove i valori più elevati indicano prestazioni migliori. I set di dati inclusi nell'indice di qualità sono:

Nome del set di dati Categoria
arena_hard Garanzia di Qualità
bigbench_hard (esempi ridotti a 1.000) Ragionamento
gpqa Garanzia di Qualità
humanevalplus Scrittura del codice
ifeval Ragionamento
funzioni matematiche Matematica
mbppplus Scrittura del codice
mmlu_pro (ridotto a 1.000 esempi) Conoscenza generale

Vedere altri dettagli nei punteggi di accuratezza:

Metrica Descrzione
Accuratezza I punteggi di accuratezza sono disponibili a livello di set di dati e di modello. A livello di set di dati, il punteggio è il valore medio di una metrica di accuratezza calcolata su tutti gli esempi nel set di dati. La metrica di accuratezza usata è exact_match in tutti i casi, ad eccezione dei set di dati HumanEval e MBPP che usano una pass@1 metrica. La corrispondenza esatta confronta il testo generato dal modello con la risposta corretta secondo il set di dati, segnalando uno se il testo generato corrisponde esattamente alla risposta e zero in caso contrario. La pass@1 metrica misura la percentuale di soluzioni del modello che superano un set di unit test in un'attività di generazione del codice. A livello di modello, il punteggio di accuratezza è la media dei punteggi di accuratezza a livello di set di dati per ogni modello.

I punteggi di accuratezza vanno da zero a uno, dove i valori più elevati sono migliori.

Benchmark di sicurezza dei modelli linguistici

I benchmark di sicurezza vengono selezionati tramite un processo strutturato di filtro e convalida progettato per garantire sia rilevanza che rigore. Un benchmark è qualificato per l'onboarding se risolve i rischi ad alta priorità. Le classifiche di sicurezza includono benchmark sufficientemente affidabili da fornire segnali significativi sugli argomenti di interesse in relazione alla sicurezza. I tabelloni punteggi usano HarmBench per la sicurezza dei modelli proxy e organizzano i tabelloni di classifica degli scenari come indicato di seguito:

Nome del set di dati Scenario della classifica Metrica Interpretazione
HarmBench (standard) Comportamenti dannosi standard Tasso di successo degli attacchi Valori inferiori indicano una maggiore robustezza contro gli attacchi progettati per generare contenuto dannoso convenzionale.
HarmBench (contestuale) Comportamenti contestualmente dannosi Tasso di successo degli attacchi I valori inferiori indicano una maggiore robustezza contro gli attacchi progettati per suscitare contenuti contestualmente dannosi
HarmBench (violazioni del copyright) Violazioni del copyright Tasso di successo degli attacchi I valori inferiori indicano una maggiore affidabilità contro le violazioni del copyright
WMDP Conoscenza nei domini sensibili Accuratezza I valori più elevati indicano una maggiore conoscenza nei domini sensibili
Toxigen Rilevamento di contenuto tossico Punteggio F1 Valori più elevati indicano prestazioni di rilevamento migliori

Rilevamento di comportamenti dannosi

Il benchmark HarmBench misura comportamenti dannosi usando richieste progettate per ottenere risposte non sicure. Include sette categorie semantiche:

  • Cybercrime e intrusioni non autorizzate
  • Armi chimiche e biologiche o farmaci
  • Violazioni del copyright
  • Misinformazione e disinformazione
  • Molestie e bullismo
  • Attività illegali
  • Danno generale

Queste categorie sono raggruppate in tre aree funzionali:

  • Comportamenti dannosi standard
  • Comportamenti contestualmente dannosi
  • Violazioni del copyright

Ogni categoria funzionale è presente in una classifica per scenario separato. La valutazione usa richieste dirette da HarmBench (nessun attacco) e dagli analizzatori HarmBench per calcolare il tasso di successo degli attacchi (ASR). I valori asr inferiori indicano modelli più sicuri. Non vengono usate strategie di attacco per la valutazione e il benchmarking dei modelli viene eseguito con Foundry Guardrails (filtri di contenuto in precedenza) disattivati.

Rilevamento di contenuto tossico

Toxigen è un set di dati su larga scala per il rilevamento di discorsi di odio antagonisti e impliciti. Include frasi implicitamente tossiche e benigne che fanno riferimento a 13 gruppi di minoranza. Foundry usa campioni toxigen annotati e calcola i punteggi F1 per misurare le prestazioni di classificazione. I punteggi più alti indicano un migliore rilevamento del contenuto tossico. Il benchmarking viene eseguito con Foundry Guardrails (filtri di contenuto in precedenza) disattivati.

Conoscenza di dominio riservata

Il benchmark Proxy delle Armi di Distruzione di Massa (WMDP) valuta le conoscenze del modello in domini sensibili, tra cui biosicurezza, sicurezza informatica e sicurezza chimica. La classifica utilizza i punteggi medi di accuratezza per la sicurezza informatica, la biosicurezza e la sicurezza chimica. Un punteggio di accuratezza WMDP più elevato indica una maggiore conoscenza delle funzionalità pericolose (comportamento peggiore dal punto di vista della sicurezza). Il benchmarking dei modelli viene eseguito con le barriere predefinite di Foundry (precedentemente noti come filtri di contenuto). Queste protezioni rilevano e bloccano i danni al contenuto in violenza, autolesionismo, sesso, odio e iniquità, ma non fanno riferimento a categorie in sicurezza informatica, biosicurezza e sicurezza chimica.

Limitazioni dei benchmark di sicurezza

La sicurezza è un argomento complesso con diverse dimensioni. Nessun benchmark open source singolo può testare o rappresentare la sicurezza completa di un sistema in tutti gli scenari. Inoltre, molti benchmark soffrono di saturazione o di disallineamento tra la progettazione del benchmark e la definizione del rischio. Alcuni benchmark non dispongono anche di una documentazione chiara sul modo in cui i rischi target sono concettualizzati e operativi, rendendo difficile valutare se i risultati acquisiscono accuratamente le sfumature dei rischi reali. Queste limitazioni possono comportare una sovrastima o una sottostima delle prestazioni del modello in scenari di sicurezza reali.

Confronto delle prestazioni dei modelli linguistici

Le metriche delle prestazioni vengono aggregate su 14 giorni utilizzando 24 prove al giorno, con due richieste per prova inviate a intervalli di un'ora. Se non diversamente specificato, i parametri predefiniti seguenti si applicano sia alle distribuzioni api serverless che ad Azure OpenAI:

Parametro Value Applicabile a
Area geografica Stati Uniti orientali/Stati Uniti orientali 2 distribuzioni di API serverless e Azure OpenAI
Limite di velocità dei token al minuto (TPM) 30.000 (180 RPM basato su Azure OpenAI) per i modelli senza ragionamento e 100.000 per quelli di ragionamento
N/D (distribuzioni API serverless)
Per i modelli OpenAI di Azure, la selezione è disponibile per gli utenti con intervalli di limiti di frequenza in base al tipo di distribuzione (API serverless, globale, standard globale e così via).
Per le distribuzioni di API serverless, questa impostazione è astratta.
Numero di richieste Due richieste in una prova all'ora (24 prove al giorno) distribuzioni di API serverless, Azure OpenAI
Numero di prove/esecuzioni 14 giorni con 24 prove al giorno per 336 esecuzioni distribuzioni di API serverless, Azure OpenAI
Lunghezza del prompt e del contesto Lunghezza moderata distribuzioni di API serverless, Azure OpenAI
Numero di gettoni processati (moderato) Rapporto 80:20 per i token di input e output, ovvero 800 token di input a 200 token di output. distribuzioni di API serverless, Azure OpenAI
Numero di richieste simultanee Una (le richieste vengono inviate in sequenza una dopo l'altra) distribuzioni di API serverless, Azure OpenAI
Dati Sintetico (richieste di input preparate dal testo statico) distribuzioni di API serverless, Azure OpenAI
Tipo di distribuzione API serverless Applicabile solo per Azure OpenAI
Trasmissione in diretta Vero Si applica alle distribuzioni di API serverless e ad Azure OpenAI. Per i modelli distribuiti tramite calcolo gestito o per gli endpoint quando lo streaming non è supportato, TTFT è rappresentato come P50 della metrica di latenza.
SKU Standard_NC24ads_A100_v4 (24 core, 220 GB di RAM, 64 GB di spazio di archiviazione) Applicabile solo per il calcolo gestito (per stimare i costi e le metriche delle prestazioni)

Le prestazioni dei LLM e SLM vengono valutate sulla base delle seguenti metriche:

Metrica Descrzione
Media latenza Tempo medio in secondi per elaborare una richiesta, calcolata su più richieste. Una richiesta viene inviata all'endpoint ogni ora per due settimane e viene calcolata la media.
Latenza P50 Latenza mediano (50° percentile). 50% di richieste completate entro questo periodo.
Latenza P90 Latenza 90° percentile. 90% di richieste completate entro questo periodo.
Latenza P95 Latenza 95° percentile. 95% di richieste completate entro questo periodo.
Latenza P99 Latenza 99° percentile. 99% di richieste completate entro questo periodo.
GTPS velocità effettiva I token generati al secondo (GTPS) sono il numero di token di output generati al secondo dal momento in cui la richiesta viene inviata all'endpoint.
TTPS velocità effettiva I token totali al secondo (TTPS) sono il numero di token totali elaborati al secondo, inclusi sia dal prompt di input che dai token di output generati. Per i modelli che non supportano lo streaming, il tempo per il primo token (ttft) rappresenta il valore P50 di latenza (tempo impiegato per ricevere la risposta)
TTFT latenza Il tempo totale per il primo token (TTFT) è il tempo impiegato per il primo token nella risposta da restituire dall'endpoint quando lo streaming è abilitato.
Tempo tra i token Questa metrica è il tempo tra i token ricevuti.

Foundry riepiloga le prestazioni usando:

Metrica Descrzione
Latenza Tempo medio per il primo token. È preferibile un valore basso.
Capacità di produzione Media di token generati al secondo. Più alto è meglio.

Per le metriche delle prestazioni, ad esempio la latenza o la velocità effettiva, il tempo per il primo token e i token generati al secondo offrono un migliore senso generale delle prestazioni e del comportamento tipici del modello. I numeri di prestazioni vengono aggiornati periodicamente per riflettere le configurazioni di distribuzione più recenti.

Benchmark di costo dei modelli linguistici

I calcoli dei costi sono stime per l'uso di un endpoint modello LLM o SLM ospitato nella piattaforma Foundry. Foundry supporta la visualizzazione dei costi delle distribuzioni di API serverless e dei modelli OpenAI di Azure. Poiché questi costi sono soggetti a modifiche, i calcoli dei costi vengono aggiornati periodicamente per riflettere i prezzi più recenti.

Il costo dei modelli di linguaggio ampio (LLM) e dei modelli di linguaggio piccolo (SLM) viene valutato in base alle seguenti metriche:

Metrica Descrzione
Costo per token di input Costo per la distribuzione dell'API serverless per 1 milione di token di input
Costo per token di output Costo per la distribuzione dell'API serverless per 1 milione di token di output
Costo stimato Costo per la somma del costo per token di input e costo per token di output, con un rapporto di 3:1.

Foundry visualizza anche il costo come indicato di seguito:

Metrica Descrzione
Costo Costo stimato in dollari usa per 1 milione di token. Il carico di lavoro stimato usa il rapporto da tre a uno tra i token di input e di output. I valori inferiori sono migliori.

Benchmarking del tabellone punteggi dello scenario

Le classifiche degli scenari organizzano i dataset di benchmark in base a comuni obiettivi di valutazione reali, così puoi identificare rapidamente i punti di forza e di debolezza di un modello in base al caso d'uso. Ogni scenario aggrega uno o più set di dati di benchmark pubblici.

Usare la tabella seguente per trovare il caso d'uso nella colonna Scenario , quindi esaminare i set di dati di benchmark associati e i risultati indicati. Nella tabella seguente sono riepilogati i tabelloni punteggi dello scenario disponibili e i set di dati e le descrizioni associati:

Scenario Insiemi di dati Descrzione
Comportamento dannoso standard HarmBench (standard) Tasso di successo degli attacchi su richieste dannose standard. È preferibile un valore basso. Vedere Rilevamento di comportamenti dannosi.
Comportamento contestualmente dannoso HarmBench (contestuale) Tasso di successo degli attacchi su richieste dannose contestuali. È preferibile un valore basso. Vedere Rilevamento di comportamenti dannosi.
Violazioni del copyright HarmBench (copyright) Tasso di successo degli attacchi per richieste di violazione del copyright. È preferibile un valore basso. Vedere Rilevamento di comportamenti dannosi.
Conoscenza nei domini sensibili WMDP (biosicurezza, sicurezza chimica, cybersecurity) Accuratezza in tre subset di dominio sensibili. Maggiore accuratezza indica una maggiore conoscenza delle funzionalità sensibili. Vedere Informazioni sui domini sensibili.
Rilevamento della tossicità ToxiGen (annotato) Punteggio F1 per la capacità di rilevamento del contenuto tossico. Più alto è meglio. Vedere Rilevamento di contenuto tossico.
Ragionamento BIG-Bench Hard (1000 sottosample) Valutazione delle funzionalità di ragionamento. I valori più alti sono migliori.
Scrittura del codice BigCodeBench (instruct), HumanEvalPlus, LiveBench (programmazione), MBPPPlus Misura l'accuratezza delle attività correlate al codice. I valori più alti sono migliori.
Conoscenza generale MMLU-Pro (sottosample inglese 1K) Sottosample solo inglese di 1.000 esempi di MMLU-Pro.
Domande e risposte Arena-Hard, GPQA (diamante) QA delle preferenze umane avversarie (Arena-Hard) e QA multidisciplinare a livello post-laurea (diamante GPQA). I valori più alti sono migliori.
Matematica MATH (sottosample 500) Misura le funzionalità matematiche di ragionamento dei modelli linguistici. I valori più alti sono migliori.
Groundedness TruthfulQA (MC1) Valutazione dell'attendibilità e della veridicità dei modelli linguistici a scelta multipla. I valori più alti sono migliori.

Benchmark di qualità dei modelli di incorporamento

L'indice di qualità dei modelli di incorporamento è definito come i punteggi di accuratezza media di un set completo di set di dati di benchmark dell'API serverless destinati alle attività di recupero delle informazioni, clustering di documenti e riepilogo.

Metrica Descrzione
Accuratezza L'accuratezza è la proporzione di stime corrette tra il numero totale di stime elaborate.
Punteggio F1 F1 Score è la media ponderata della precisione e del richiamo, dove il valore migliore è uno (precisione perfetta e richiamo) e il peggiore è zero.
Precisione media (MAP) MAP valuta la qualità dei sistemi di classificazione e di raccomandazione. Misura sia la pertinenza degli elementi suggeriti sia il livello di qualità del sistema nel posizionare elementi più rilevanti nella parte superiore. I valori possono variare da zero a uno e più alto è map, meglio è che il sistema possa posizionare gli elementi pertinenti in alto nell'elenco.
Guadagno cumulativo scontato normalizzato (NDCG) NDCG valuta la capacità di un algoritmo di Machine Learning di ordinare gli elementi in base alla pertinenza. Confronta le classificazioni con un ordine ideale in cui tutti gli elementi rilevanti si trovano nella parte superiore dell'elenco, dove k è la lunghezza dell'elenco durante la valutazione della qualità della classificazione. In questi benchmark, k=10, indicato da una metrica di ndcg_at_10, significa che i primi 10 elementi vengono valutati.
Precisione La precisione misura correttamente la capacità del modello di identificare le istanze di una determinata classe. Precisione mostra la frequenza con cui un modello di Machine Learning è corretto durante la stima della classe di destinazione.
Correlazione di Spearman La correlazione spearman basata sulla somiglianza del coseno viene calcolata calcolando prima la somiglianza del coseno tra le variabili, quindi classificando questi punteggi e usando i ranghi per calcolare la correlazione Spearman.
Misura V La misura V è una metrica usata per valutare la qualità del clustering. La misura V viene calcolata come media armonica di omogeneità e completezza, garantendo un equilibrio tra i due per un punteggio significativo. I punteggi possibili vanno da zero a uno, con uno che rappresenta una valutazione perfettamente completa.

Calcolo dei punteggi

Punteggi individuali

I risultati del benchmark provengono da set di dati pubblici comunemente usati per la valutazione del modello linguistico. Nella maggior parte dei casi, i dati sono ospitati nei repository GitHub gestiti dai creatori o dai curatori dei dati. Le pipeline di valutazione della fonderia scaricano i dati dalle origini, estraggono i prompt da ogni riga di esempio, generano le risposte del modello e quindi calcolano le metriche di precisione pertinenti.

La costruzione di prompt segue le procedure consigliate per ogni set di dati, come specificato nel documento che introduce i set di dati e gli standard del settore. Nella maggior parte dei casi, ogni prompt contiene diversi shot, ossia esempi di domande e risposte o complete per preparare il modello all'attività. Il numero di scatti varia in base al set di dati e segue la metodologia specificata nella pubblicazione originale di ogni set di dati. Le pipeline di valutazione creano scatti eseguendo il campionamento di domande e risposte da una porzione dei dati destinati alla valutazione.

Limitazioni del benchmark

Tutti i benchmark presentano limitazioni intrinseche da considerare quando si interpretano i risultati:

  • Benchmark di qualità: i set di dati di benchmark possono diventare saturi nel tempo quando i modelli vengono sottoposti a training o ottimizzati su dati simili. I risultati della valutazione possono variare anche a seconda della formulazione del prompt e del numero di esempi di apprendimento con pochi dati usati.
  • Benchmark delle prestazioni: le metriche vengono raccolte usando carichi di lavoro sintetici con un rapporto di token di input-output fisso e distribuzioni a singola area. Le prestazioni reali possono variare in base ai modelli di carico di lavoro, alla concorrenza, all'area e alla configurazione della distribuzione.
  • Benchmark dei costi: le stime dei costi si basano su un rapporto token input-output di tre a uno e sui prezzi correnti al momento della misurazione. I costi effettivi dipendono dal carico di lavoro e sono soggetti a modifiche ai prezzi.