Classifiche dei modelli nel portale di Microsoft Foundry (anteprima)

Importante

Gli elementi contrassegnati (anteprima) in questo articolo sono attualmente in anteprima pubblica. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero avere funzionalità limitate. Per altre informazioni, vedere Condizioni supplementari per l'utilizzo delle anteprime di Microsoft Azure.

Le classifiche dei modelli (anteprima) nel portale di Foundry consentono di confrontare i modelli nel catalogo dei modelli Foundry usando benchmark del modello standard del settore.

Per iniziare, confronta e seleziona i modelli usando la classifica del modello nel portale Foundry.

È possibile esaminare la metodologia dettagliata di benchmarking per ogni categoria del tabellone punteggi:

Valutazione della qualità dei modelli linguistici per comprendere le prestazioni dei modelli nelle attività principali, tra cui ragionamento, risposta a domande, conoscenza, matematica e programmazione.
Benchmarking di sicurezza dei modelli linguistici per comprendere come i modelli sicuri impediscono la generazione di comportamenti dannosi.
Benchmarking delle prestazioni dei modelli linguistici per comprendere le prestazioni dei modelli in termini di latenza e velocità effettiva.
Benchmarking dei costi dei modelli linguistici per comprendere il costo stimato dell'uso dei modelli.
Benchmark della classifica di uno scenario dei modelli linguistici per trovare il modello migliore per un caso d'uso o scenario specifico.
Benchmark di qualità dei modelli di incorporamento per comprendere il livello delle prestazioni dei modelli nelle attività basate su incorporamento, tra cui ricerca e recupero.

Quando si trova un modello appropriato, è possibile aprire i risultati dettagliati del benchmarking nel catalogo dei modelli. Da qui è possibile distribuire il modello, provarlo nel playground o valutarlo sui propri dati. I tabelloni punteggi supportano il benchmarking per i modelli linguistici di testo (inclusi modelli di linguaggio di grandi dimensioni e modelli di linguaggio di piccole dimensioni) e modelli di incorporamento.

I benchmark del modello valutano i Modelli Linguistici di Grandi Dimensioni (LLMs) e i Modelli Linguistici di Piccole Dimensioni (SLMs) in termini di qualità, sicurezza, costi e capacità di elaborazione. I modelli di incorporamento vengono valutati usando benchmark di qualità standard. I tabelloni punteggi vengono aggiornati man mano che diventano disponibili nuovi modelli e set di dati di benchmark.

Ambito di benchmarking del modello

I tabelloni punteggi del modello includono una selezione curata di modelli linguistici basati su testo dal catalogo dei modelli Foundry. I modelli sono inclusi in base ai criteri seguenti:

Foundry Models venduti da Azure con priorità: i modelli venduti da Azure sono selezionati in base alla pertinenza per scenari comuni di IA generativa.
Applicabilità del benchmark principale: i modelli devono supportare attività del linguaggio generico, ad esempio ragionamento, conoscenza, risposta alle domande, ragionamento matematico e codifica. I modelli specializzati (ad esempio, la riduzione delle proteine o il controllo di qualità specifico del dominio) e altre modalità non sono supportate.

Questa definizione di ambito garantisce che i tabelloni punteggi riflettano i modelli attuali di alta qualità rilevanti per gli scenari di intelligenza artificiale di base.

Interpretare i risultati del tabellone punteggi

I tabelloni punteggi consentono di confrontare i modelli tra più dimensioni in modo da poter scegliere il modello appropriato per il caso d'uso. Ecco alcune linee guida per interpretare i risultati:

Indice di qualità: un indice di qualità superiore indica prestazioni complessive più elevate nelle attività di ragionamento, codifica, matematica e conoscenza. Confrontare l'indice di qualità tra i modelli per identificare i migliori performer per le attività del linguaggio generico.
Punteggi di sicurezza: i tassi di successo degli attacchi inferiori indicano modelli più affidabili. Considerare i punteggi di sicurezza insieme ai punteggi di qualità, soprattutto per le applicazioni rivolte ai clienti in cui l'output dannoso è un problema significativo.
Compromessi sulle prestazioni: usare le metriche di latenza e velocità effettiva per comprendere la velocità di risposta reale di un modello. Un modello con qualità elevata ma una latenza elevata potrebbe non essere adatta alle applicazioni in tempo reale.
Considerazioni sui costi: la metrica dei costi stimata usa un rapporto tra token di input e output da tre a uno. Modificare le aspettative in base al rapporto input-output del carico di lavoro effettivo.
Classifiche degli scenari: se il caso d'uso è mappato a uno scenario specifico (ad esempio, codifica o matematica), iniziare con il tabellone punteggi dello scenario per trovare i modelli ottimizzati per tale attività anziché basarsi esclusivamente sull'indice di qualità complessivo.

Suggerimento

I benchmark del tabellone punteggi forniscono confronti standardizzati tra i modelli usando set di dati pubblici. Per valutare le prestazioni del modello sui dati e sui casi d'uso specifici, vedere Valutare le app di intelligenza artificiale generative.

Parametri di riferimento qualitativi dei modelli linguistici

Foundry valuta la qualità degli LLM e degli SLM usando i punteggi di precisione dei set di dati di benchmark standard che misurano ragionamento, conoscenza, risoluzione delle domande, matematica e funzionalità di codifica.

Indice	Descrizione
Indice di qualità	Calcolato calcolando la media dei punteggi di accuratezza applicabili (`exact_match`, `pass@1`, `arena_hard`) tra set di dati di benchmark.

I valori degli indici di qualità vanno da zero a uno, dove i valori più elevati indicano prestazioni migliori. I set di dati inclusi nell'indice di qualità sono:

Nome set di dati	Categoria
bigbench_hard (ridotto a 1.000 campioni)	Ragionamento
chembench	Chimica
frontierscience	Ragionamento scientifico
gpqa	QA
mbppplus	Scrittura del codice
mmlu_pro (sottocampionato a 1.000 esempi)	Conoscenza generale
musr	Ragionamento
tau2_telecom	Selezione delle chiamate agentiche e degli strumenti

Vedere altri dettagli nei punteggi di accuratezza:

Metrica Descrizione

Precisione I punteggi di accuratezza sono disponibili nel set di dati e nei livelli del modello. A livello di set di dati, il punteggio è il valore medio di una metrica di accuratezza calcolata su tutti gli esempi nel set di dati. La metrica di accuratezza usata è exact_match in tutti i casi, ad eccezione dei set di dati HumanEval e MBPP che usano una pass@1 metrica. La corrispondenza esatta confronta il testo generato dal modello con la risposta corretta in base al set di dati, segnalando uno se il testo generato corrisponde esattamente alla risposta e zero in caso contrario. La pass@1 metrica misura la percentuale di soluzioni del modello che superano un set di unit test in un'attività di generazione del codice. A livello di modello, il punteggio di accuratezza è la media delle accuratezze a livello di set di dati per ogni modello.

Metrica	Descrizione
Precisione	I punteggi di accuratezza sono disponibili nel set di dati e nei livelli del modello. A livello di set di dati, il punteggio è il valore medio di una metrica di accuratezza calcolata su tutti gli esempi nel set di dati. La metrica di accuratezza usata è `exact_match` in tutti i casi, ad eccezione dei set di dati HumanEval e MBPP che usano una `pass@1` metrica. La corrispondenza esatta confronta il testo generato dal modello con la risposta corretta in base al set di dati, segnalando uno se il testo generato corrisponde esattamente alla risposta e zero in caso contrario. La `pass@1` metrica misura la percentuale di soluzioni del modello che superano un set di unit test in un'attività di generazione del codice. A livello di modello, il punteggio di accuratezza è la media delle accuratezze a livello di set di dati per ogni modello.

I punteggi di accuratezza vanno da zero a uno, dove i valori più elevati sono migliori.

Parametri di sicurezza dei modelli linguistici

I benchmark di sicurezza vengono selezionati tramite un processo strutturato di filtro e convalida progettato per garantire sia rilevanza che rigore. Un benchmark è qualificato per l'onboarding se risolve i rischi ad alta priorità. Le classifiche di sicurezza includono benchmark sufficientemente affidabili da fornire segnali significativi sugli argomenti di interesse in relazione alla sicurezza. I tabelloni punteggi usano HarmBench per la sicurezza dei modelli proxy e organizzano i tabelloni di classifica degli scenari come indicato di seguito:

Nome set di dati	Scenario della classifica	Metrica	Interpretazione
HarmBench (standard)	Comportamenti dannosi standard	Tasso di successo degli attacchi	Valori inferiori indicano una maggiore robustezza contro gli attacchi progettati per generare contenuti tradizionalmente dannosi.
HarmBench (contestuale)	Comportamenti contestualmente dannosi	Tasso di successo degli attacchi	I valori inferiori indicano una maggiore robustezza contro gli attacchi progettati per suscitare contenuti contestualmente dannosi
HarmBench (violazioni del copyright)	Violazioni del copyright	Tasso di successo degli attacchi	I valori inferiori indicano una maggiore affidabilità contro le violazioni del copyright
WMDP	Conoscenza nei domini sensibili	Precisione	I valori più elevati indicano una maggiore conoscenza nei domini sensibili
Toxigen	Rilevamento di contenuto tossico	Punteggio F1	Valori più elevati indicano prestazioni di rilevamento migliori

Rilevamento di comportamenti dannosi

Il benchmark HarmBench misura comportamenti dannosi usando richieste progettate per ottenere risposte non sicure. Include sette categorie semantiche:

Cybercrime e intrusioni non autorizzate
Armi chimiche e biologiche o farmaci
Violazioni del copyright
Disinformazione e incorretta informazione
Molestie e bullismo
Attività illegali
Danno generale

Queste categorie sono raggruppate in tre aree funzionali:

Comportamenti dannosi standard
Comportamenti contestualmente dannosi
Violazioni del copyright

Ogni categoria funzionale è presente in una classifica scenario separata. La valutazione usa richieste dirette da HarmBench (nessun attacco) e dagli analizzatori HarmBench per calcolare il tasso di successo degli attacchi (ASR). I valori asr inferiori indicano modelli più sicuri. Non vengono usate strategie di attacco per la valutazione e il benchmarking dei modelli viene eseguito con Foundry Guardrails (filtri di contenuto in precedenza) disattivati.

Rilevamento di contenuto tossico

Toxigen è un set di dati su larga scala per il rilevamento di discorsi di odio antagonisti e impliciti. Include frasi implicitamente tossiche e benigne che fanno riferimento a 13 gruppi di minoranza. Foundry usa campioni toxigen annotati e calcola i punteggi F1 per misurare le prestazioni di classificazione. I punteggi più alti indicano un migliore rilevamento del contenuto tossico. Il benchmarking viene eseguito con Foundry Guardrails (filtri di contenuto in precedenza) disattivati.

Conoscenza del dominio sensibile

Il benchmark Proxy sulle armi di distruzione di massa (WMDP) misura le conoscenze del modello nei domini sensibili, tra cui la biosicurezza, la cybersecurity e la sicurezza chimica. La classifica utilizza i punteggi di accuratezza media tra la sicurezza informatica, la biosicurezza e la sicurezza chimica. Un punteggio di accuratezza WMDP più elevato indica una maggiore conoscenza delle funzionalità pericolose (comportamento peggiore dal punto di vista della sicurezza). Il benchmarking dei modelli viene eseguito con le Guardrails predefinite di Foundry (filtri di contenuto in precedenza) attive. Queste protezioni rilevano e bloccano i danni al contenuto in violenza, autolesionismo, sesso, odio e iniquità, ma non fanno riferimento a categorie in sicurezza informatica, biosicurezza e sicurezza chimica.

Limitazioni dei benchmark di sicurezza

La sicurezza è un argomento complesso con diverse dimensioni. Nessun benchmark open source singolo può testare o rappresentare la sicurezza completa di un sistema in tutti gli scenari. Inoltre, molti benchmark soffrono di saturazione o di disallineamento tra la progettazione del benchmark e la definizione del rischio. Alcuni benchmark non dispongono anche di una documentazione chiara sul modo in cui i rischi target sono concettualizzati e operativi, rendendo difficile valutare se i risultati acquisiscono accuratamente le sfumature dei rischi reali. Queste limitazioni possono comportare una sovrastima o una sottostima delle prestazioni del modello in scenari di sicurezza reali.

Valutazione delle prestazioni dei modelli linguistici

Le metriche delle prestazioni vengono aggregate per 14 giorni usando 24 prove al giorno, con due richieste per ogni prova inviate a intervalli di un'ora. Se non diversamente specificato, i parametri predefiniti seguenti si applicano sia alle distribuzioni api serverless che a Azure OpenAI:

Parametro	Valore	Applicabile a
Regione	Stati Uniti orientali/Stati Uniti orientali 2	distribuzioni di API serverless e Azure OpenAI
Limite di velocità dei token al minuto (TPM)	30.000 (180 RPM basato su Azure OpenAI) per modelli non di ragionamento e 100.000 per i modelli di ragionamento N/D (distribuzioni API serverless)	Per i modelli Azure OpenAI, gli utenti possono selezionare intervalli di limiti di frequenza in base al tipo di distribuzione (API serverless, globale, standard globale e così via). Per le distribuzioni di API serverless, questa impostazione è astratta.
Numero di richieste	Due richieste in una prova ogni ora (24 prove al giorno)	distribuzioni di API serverless, Azure OpenAI
Numero di prove/esecuzioni	14 giorni con 24 prove al giorno per 336 esperimenti	distribuzioni di API serverless, Azure OpenAI
Lunghezza del prompt e del contesto	Lunghezza moderata	distribuzioni di API serverless, Azure OpenAI
Numero di token elaborati (moderato)	Rapporto 80:20 per i token di input e output, ovvero 800 token di input a 200 token di output.	distribuzioni di API serverless, Azure OpenAI
Numero di richieste simultanee	Una (le richieste vengono inviate in sequenza una dopo l'altra)	distribuzioni di API serverless, Azure OpenAI
Dati	Sintetico (richieste di input preparate dal testo statico)	distribuzioni di API serverless, Azure OpenAI
Tipo di distribuzione	API senza server	Applicabile solo per Azure OpenAI
Streaming	Vero	Si applica alle distribuzioni di API serverless e Azure OpenAI. Per i modelli distribuiti tramite calcolo gestito, o per gli endpoint quando lo streaming non è supportato, TTFT è rappresentato come il P50 della metrica di latenza.
codice articolo	Standard_NC24ads_A100_v4 (24 core, 220 GB di RAM, 64 GB di spazio di archiviazione)	Applicabile solo per il calcolo gestito (per stimare i costi e le metriche delle prestazioni)

Le prestazioni degli LLM e degli SLM vengono valutate nelle metriche seguenti:

Metrica	Descrizione
Media latenza	Tempo medio in secondi per elaborare una richiesta, calcolata su più richieste. Una richiesta viene inviata all'endpoint ogni ora per due settimane e viene calcolata la media.
Latenza P50	Latenza mediano (50° percentile). 50% di richieste completate entro questo periodo.
Latenza P90	Latenza 90° percentile. 90% di richieste completate entro questo periodo.
Latenza P95	Latenza 95° percentile. 95% di richieste completate entro questo periodo.
latenza P99	Latenza 99° percentile. 99% di richieste completate entro questo periodo.
Potenza di trasmissione GTPS	I token generati al secondo (GTPS) sono il numero di token di output generati al secondo dal momento in cui la richiesta viene inviata all'endpoint.
Contratto di servizio per la velocità effettiva	I token totali al secondo (TTPS) sono il numero di token totali elaborati al secondo, inclusi sia dal prompt di input che dai token di output generati. Per i modelli che non supportano lo streaming, il tempo per il primo token (ttft) rappresenta il valore P50 di latenza (tempo impiegato per ricevere la risposta)
Latenza TTFT	Il tempo totale per il primo token (TTFT) è il tempo impiegato per il primo token nella risposta da restituire dall'endpoint quando lo streaming è abilitato.
Tempo tra i token	Questa metrica è il tempo tra i token ricevuti.

Foundry riepiloga le prestazioni usando:

Metrica	Descrizione
Latenza	Tempo medio per il primo token. Più basso è meglio.
Capacità di trasmissione	Media di token generati al secondo. Più alto è meglio.

Per le metriche delle prestazioni, ad esempio la latenza o la velocità effettiva, il tempo per il primo token e i token generati al secondo offrono un migliore senso generale delle prestazioni e del comportamento tipici del modello. I numeri di prestazioni vengono aggiornati periodicamente per riflettere le configurazioni di distribuzione più recenti.

Parametri di riferimento dei costi dei modelli linguistici

I benchmark dei costi misurano il costo effettivo per eseguire ogni modello nei set di dati di benchmark di qualità, anziché un costo stimato in base ai prezzi dei token.

Il costo del benchmark viene calcolato usando:

Numero effettivo di token di input, ragionamento e output utilizzati durante l'esecuzione del benchmark.
Configurazione dello sforzo di ragionamento specifica del modello usata per la valutazione (tipicamente high o xhigh).
Caratteristiche e complessità del set di dati, che influiscono sull'utilizzo e sul runtime dei token.

A differenza delle stime basate su un rapporto di token fisso, questo approccio riflette il vero costo end-to-end dell'esecuzione dei carichi di lavoro di benchmark.

Come interpretare i risultati dei costi

Il costo viene segnalato in USD per benchmark eseguito nei set di dati di qualità standard.
I valori rappresentano il costo di esecuzione reale e consentono il confronto diretto tra i modelli.
I valori inferiori indicano prestazioni più efficienti in termini di costi nella suite di benchmark.

Benchmarking delle classifiche dello scenario

Le classifiche degli scenari raggruppano i set di dati di benchmark in base agli obiettivi di valutazione comuni nel mondo reale. È possibile identificare rapidamente i punti di forza e i punti deboli di un modello in base al caso d'uso. Ogni scenario aggrega uno o più set di dati di benchmark pubblici.

Usare la tabella seguente per trovare il caso d'uso nella colonna Scenario e quindi esaminare i set di dati di benchmark associati e i risultati indicati. Nella tabella seguente sono riepilogati i tabelloni punteggi dello scenario disponibili e i set di dati e le descrizioni associati:

Scenario	Dataset	Descrizione
Comportamento dannoso standard	HarmBench (standard)	Tasso di successo degli attacchi su richieste dannose standard. Più basso è meglio. Vedere Rilevamento di comportamenti dannosi.
Comportamento contestualmente dannoso	HarmBench (contestuale)	Percentuale di riuscita degli attacchi su richieste contestuali dannose. Più basso è meglio. Vedere Rilevamento di comportamenti dannosi.
Violazioni del copyright	HarmBench (copyright)	Tasso di successo degli attacchi per richieste di violazione del copyright. Più basso è meglio. Vedere Rilevamento di comportamenti dannosi.
Conoscenza nei domini sensibili	WMDP (biosicurezza, sicurezza chimica, cybersecurity)	Accuratezza in tre subset di dominio sensibili. Maggiore accuratezza indica una maggiore conoscenza delle funzionalità sensibili. Vedere Informazioni sui domini sensibili.
Rilevamento della tossicità	ToxiGen (annotato)	Punteggio F1 per la capacità di individuare contenuti tossici. Più alto è meglio. Vedere Rilevamento di contenuto tossico.
Ragionamento	BIG-Bench Hard (1.000 esempi secondari)	Valutazione delle funzionalità di ragionamento. I valori più alti sono migliori.
Scrittura del codice	BigCodeBench (instruct), LiveBench (coding), LiveCodeBench medio MBPPPlus	Misura l'accuratezza delle attività correlate al codice. I valori più alti sono migliori.
Conoscenza generale	MMLU-Pro (1.000 esempi secondari in inglese)	Esempio secondario di 1.000 esempi solo in inglese di MMLU-Pro.
Domande e risposte	Arena-Hard, GPQA (diamante)	QA delle preferenze umane antagoniste (Arena-Hard) e QA multidisciplina a livello di laurea (rombo GPQA). I valori più alti sono migliori.
Matematica	MATH (500 esempi secondari)	Misura le funzionalità matematiche di ragionamento dei modelli linguistici. I valori più alti sono migliori.
Connessione alla realtà	TruthfulQA (MC1)	Valutazione dell'attendibilità e della veridicità dei modelli linguistici a scelta multipla. I valori più alti sono migliori.

Benchmark qualitativi dei modelli di incorporamento

L'indice di qualità dei modelli di incorporamento è definito come i punteggi di accuratezza media di un set completo di set di dati di benchmark dell'API serverless destinati alle attività di recupero delle informazioni, clustering di documenti e riepilogo.

Metrica	Descrizione
Precisione	L'accuratezza è la proporzione di stime corrette tra il numero totale di stime elaborate.
Punteggio F1	F1 Score è la media ponderata della precisione e del richiamo, dove il valore migliore è uno (precisione perfetta e richiamo) e il peggiore è zero.
Precisione media (MAP)	MAP valuta la qualità dei sistemi di classificazione e di raccomandazione. Misura sia la pertinenza degli elementi suggeriti sia il livello di qualità del sistema nel posizionare elementi più rilevanti nella parte superiore. I valori possono variare da zero a uno e più alto è map, meglio è che il sistema possa posizionare gli elementi pertinenti in alto nell'elenco.
Guadagno cumulativo scontato normalizzato (NDCG)	NDCG valuta la capacità di un algoritmo di Machine Learning di ordinare gli elementi in base alla pertinenza. Confronta le classificazioni con un ordine ideale in cui tutti gli elementi rilevanti si trovano nella parte superiore dell'elenco, dove k è la lunghezza dell'elenco durante la valutazione della qualità della classificazione. In questi benchmark, k=10, indicato da una metrica di `ndcg_at_10`, significa che i primi 10 elementi vengono valutati.
Precisione	La precisione misura correttamente la capacità del modello di identificare le istanze di una determinata classe. Precisione mostra la frequenza con cui un modello di Machine Learning è corretto durante la stima della classe di destinazione.
Correlazione di Spearman	La correlazione spearman basata sulla somiglianza del coseno viene calcolata calcolando prima la somiglianza del coseno tra le variabili, quindi classificando questi punteggi e usando i ranghi per calcolare la correlazione Spearman.
Misura V	La misura V è una metrica usata per valutare la qualità del clustering. La misura V viene calcolata come media armonica di omogeneità e completezza, garantendo un equilibrio tra i due per un punteggio significativo. I punteggi possibili si trovano tra zero e uno, con uno che rappresenta un'etichettatura perfettamente completa.

Calcolo dei punteggi

Singoli punteggi

I risultati del benchmark provengono da set di dati pubblici comunemente usati per la valutazione del modello linguistico. Nella maggior parte dei casi, i dati sono ospitati in GitHub repository gestiti dai creatori o dai curatori dei dati. Le pipeline di valutazione di Fonderia scaricano i dati dalle fonti originali, estraggono le richieste da ogni riga di esempio, generano risposte per il modello e quindi calcolano le metriche di accuratezza pertinenti.

La costruzione di prompt segue le procedure consigliate per ogni set di dati, come specificato nel documento che introduce i set di dati e gli standard del settore. Nella maggior parte dei casi, ogni richiesta contiene diversi esempi, ovvero diversi esempi di domande complete e risposte per preparare il modello al compito. Il numero di scatti varia in base al set di dati e segue la metodologia specificata nella pubblicazione originale di ogni set di dati. Le pipeline di valutazione creano istantanee campionando domande e risposte da una parte dei dati esclusi dalla valutazione.

Limitazioni del benchmark

Tutti i benchmark presentano limitazioni intrinseche da considerare quando si interpretano i risultati:

Benchmark di qualità: i set di dati di benchmark possono diventare saturi nel tempo quando i modelli vengono sottoposti a training o ottimizzati su dati simili. I risultati della valutazione potrebbero variare anche a seconda della formulazione della richiesta e del numero di esempi few-shot usati.
Benchmark delle prestazioni: le metriche vengono raccolte usando carichi di lavoro sintetici con un rapporto di token di input-output fisso e distribuzioni a singola area. Le prestazioni reali possono variare in base ai modelli di carico di lavoro, alla concorrenza, all'area e alla configurazione della distribuzione.
Benchmark dei costi: le stime dei costi si basano su un rapporto tra token di input e di output di tre a uno, e sui prezzi correnti al momento della misurazione. I costi effettivi dipendono dal carico di lavoro e sono soggetti a modifiche ai prezzi.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-04-30