Tabelas de classificação de modelos no portal do IA do Azure Foundry (versão prévia)

2025-06-20

Importante

Os itens marcados (versão prévia) neste artigo estão atualmente em versão prévia pública. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou podem ter restrição de recursos. Para obter mais informações, consulte Termos de Uso Complementares para Versões Prévias do Microsoft Azure.

Os placares de líderes de modelo (versão prévia) no portal do Azure AI Foundry permitem simplificar o processo de seleção de modelos no catálogo de modelos do Azure AI Foundry. As tabelas de classificação de modelos, apoiadas por benchmarks padrão do setor, podem ajudar você a encontrar o melhor modelo para sua solução de IA personalizada. Na seção de quadros de classificação de modelos do catálogo de modelos, você pode procurar quadros de classificação para comparar os modelos disponíveis da seguinte maneira:

Tabelas de classificação de qualidade, segurança, custo e desempenho para identificar rapidamente os modelos líderes de acordo com uma única métrica (qualidade, segurança, custo ou eficiência);
Gráficos de trade-off para ver como os modelos se desempenham em uma métrica em comparação com outra, como qualidade versus custo;
Classificações por cenário para encontrar as melhores classificações que se adequam ao seu cenário.

Sempre que encontrar um modelo do seu agrado, você pode selecioná-lo e ampliar os Resultados detalhados de benchmarking do modelo no catálogo de modelos. Se estiver satisfeito com o modelo, você poderá implantá-lo, experimentá-lo no playground ou avaliá-lo em seus dados. As classificações dão suporte à avaliação comparativa entre modelos de linguagem de texto (modelos de linguagem grandes (LLMs) e modelos de linguagem pequenos (SLMs)) e modelos de embeddings.

Os parâmetros de comparação de modelo avaliam LLMs e SLMs nas seguintes categorias: qualidade, segurança, custo e taxa de transferência. Além disso, avaliamos a qualidade da inserção de modelos usando parâmetros de comparação padrão. Os placares de líderes são atualizados regularmente à medida que parâmetros de comparação melhores e mais insaturados são integrados e à medida que novos modelos são adicionados ao catálogo de modelos.

Parâmetros de comparação de qualidade de modelos de linguagem

A IA do Azure avalia a qualidade de LLMs e SLMs usando pontuações de precisão de conjuntos de dados de benchmark padrão e abrangentes que medem recursos de modelo, como raciocínio, conhecimento, resposta a perguntas, matemática e codificação.

Índice	Descrição
Índice de qualidade	O índice de qualidade é calculado pela média de pontuações de precisão aplicáveis (exact_match, pass@1, arena_hard) em conjuntos de dados de parâmetro de comparação padrão abrangentes.

O índice de qualidade é fornecido em uma escala de zero a um. Valores mais altos de índice de qualidade são melhores. Os conjuntos de dados incluídos no índice de qualidade são:

Nome do conjunto de dados	Cenário de Classificação
arena_hard	Garantia de Qualidade (QA)
bigbench_hard	Raciocínio
gpqa	Garantia de Qualidade (QA)
humanevalplus	Codificação
ifeval	Raciocínio
matemáticas	Matemática
mbppplus	Codificação
mmlu_pro	Conhecimento Geral

Veja mais detalhes em pontuações de precisão:

Métrica Descrição

Exatidão As pontuações de precisão estão disponíveis no conjunto de dados e nos níveis de modelo. No nível do conjunto de dados, a pontuação é o valor médio de uma métrica de precisão computada em todos os exemplos no conjunto de dados. A métrica de precisão usada é exact-match em todos os casos, exceto para os conjuntos de dados HumanEval e MBPP que usam uma pass@1 métrica. A correspondência exata compara o texto gerado pelo modelo com a resposta correta de acordo com o conjunto de dados, relatando um se o texto gerado corresponder exatamente à resposta e, caso contrário, zero. A métrica pass@1 mede a proporção de soluções de modelo que passam por um conjunto de testes de unidade em uma tarefa de geração de código. No nível do modelo, a pontuação de precisão é a média das precisões no nível do conjunto de dados para cada modelo.

Métrica	Descrição
Exatidão	As pontuações de precisão estão disponíveis no conjunto de dados e nos níveis de modelo. No nível do conjunto de dados, a pontuação é o valor médio de uma métrica de precisão computada em todos os exemplos no conjunto de dados. A métrica de precisão usada é `exact-match` em todos os casos, exceto para os conjuntos de dados HumanEval e MBPP que usam uma `pass@1` métrica. A correspondência exata compara o texto gerado pelo modelo com a resposta correta de acordo com o conjunto de dados, relatando um se o texto gerado corresponder exatamente à resposta e, caso contrário, zero. A métrica `pass@1` mede a proporção de soluções de modelo que passam por um conjunto de testes de unidade em uma tarefa de geração de código. No nível do modelo, a pontuação de precisão é a média das precisões no nível do conjunto de dados para cada modelo.

As pontuações de precisão são fornecidas em uma escala de zero a um. Valores mais altos são melhores.

Parâmetros de comparação de segurança de modelos de linguagem

Para orientar a seleção de parâmetros de comparação de segurança para avaliação, aplicamos um processo estruturado de filtragem e validação projetado para garantir relevância e rigor. Um parâmetro de comparação se qualifica para integração se ele resolver riscos de alta prioridade. Para as classificações de segurança, analisamos diferentes critérios de comparação que podem ser considerados confiáveis o suficiente para fornecer alguns sinais sobre determinados tópicos de interesse em relação à segurança. Selecionamos HarmBench como um proxy para a segurança do modelo e organizamos os rankings dos cenários da seguinte maneira:

Nome do conjunto de dados	Cenário de Classificação	Métrica	Interpretação
HarmBench (padrão)	Comportamentos nocivos padrão	Taxa de sucesso de ataque	Valores mais baixos significam melhor robustez contra ataques projetados para obter conteúdo prejudicial padrão
HarmBench (contextual)	Comportamentos contextualmente prejudiciais	Taxa de sucesso de ataque	Valores mais baixos significam melhor robustez contra ataques projetados para obter conteúdo prejudicial contextual
HarmBench (violações de direitos autorais)	Violações de direitos autorais	Taxa de sucesso de ataque	Valores mais baixos significam melhor robustez contra ataques projetados para violações ilícitas de direitos autorais
WMDP	Conhecimento em domínios confidenciais	Exatidão	Valores mais altos indicam mais conhecimento em domínios confidenciais (segurança cibernética, biossegurança e segurança química)
Toxigen	Capacidade de detectar conteúdo tóxico	F1_score	Valores mais altos significam melhor capacidade de detectar conteúdo tóxico

Comportamentos prejudiciais do modelo

O parâmetro de comparação HarmBench mede comportamentos prejudiciais do modelo e inclui prompts para obter comportamento prejudicial do modelo. No que diz respeito à segurança, o parâmetro de comparação abrange sete categorias semânticas de comportamento:

Cibercrime &intrusão não autorizada
Armas/drogas químicas e biológicas
Violações de direitos autorais
Informação incorreta e desinformação
Assédio e Intimidação
Atividades ilegais
Dano Geral

Essas 7 categorias podem ser resumidas em três categorias funcionais

comportamentos nocivos padrão
comportamentos contextualmente prejudiciais
violações de direitos autorais

Cada categoria funcional é apresentada em um placar de classificação por cenário separado. Usamos prompts diretos do HarmBench (sem ataques) e avaliadores do HarmBench para calcular a Taxa de Sucesso de Ataques (ASR). Valores asr mais baixos significam modelos mais seguros. Não exploramos nenhuma estratégia de ataque para avaliação e o benchmarking de modelo é executado com o Filtro de Segurança de Conteúdo de IA do Azure desativado.

Capacidade do modelo de detectar conteúdo tóxico

Toxigen é um conjunto de dados gerado por máquina em larga escala para detecção de fala de ódio implícita e adversária. Contém frases implicitamente tóxicas e benignas mencionando 13 grupos minoritários. Usamos as amostras anotadas do Toxigen para avaliação e calculamos as pontuações F1 para medir o desempenho da classificação. Pontuar mais alto nesse conjunto de dados significa que um modelo é melhor na detecção de conteúdo tóxico. O benchmarking de modelos é realizado com o Filtro de Segurança de Conteúdo da IA do Azure desativado.

Conhecimento do modelo em domínios sensíveis

O parâmetro de comparação Weapons of Mass Destruction Proxy (WMDP) mede o conhecimento do modelo em domínios confidenciais, incluindo biossegurança, cibersegurança e segurança química. A tabela de classificação usa pontuações médias de acurácia em segurança cibernética, biossegurança e segurança química. Uma pontuação de precisão de WMDP mais alta indica mais conhecimento de funcionalidades perigosas (pior comportamento do ponto de vista de segurança). A avaliação de desempenho do modelo é realizada com os filtros padrão de IA do Azure para Segurança de Conteúdo ativados. Esses filtros de segurança detectam e bloqueiam danos de conteúdo em violência, automutilação, sexual, ódio e injustiça, mas não visam categorias em segurança cibernética, biossegurança e segurança química.

Limitações dos parâmetros de comparação de segurança

Entendemos e reconhecemos que a segurança é um tópico complexo e tem várias dimensões. Nenhum parâmetro de comparação de software livre atual pode testar ou representar a segurança total de um sistema em cenários diferentes. Além disso, a maioria desses parâmetros de comparação sofre de saturação ou desalinhamento entre o design de parâmetro de comparação e a definição de risco, pode não ter documentação clara sobre como os riscos de destino são conceituados e operacionalizados, dificultando a avaliação se o parâmetro de comparação captura com precisão as nuances dos riscos. Essa limitação pode levar à superestimação ou à subestimação do desempenho do modelo em cenários de segurança do mundo real.

Parâmetros de comparação de desempenho de modelos de linguagem

As métricas de desempenho são calculadas como uma agregação ao longo de 14 dias, com base em 24 trilhas (duas solicitações por trilha) enviadas diariamente com um intervalo de uma hora entre cada trilha. Os seguintes parâmetros padrão são usados para cada solicitação para o ponto de extremidade do modelo:

Parâmetro	Valor	Aplicável para
Região	Leste dos EUA/Leste dos EUA 2	Implantações padrão e Azure OpenAI
Limite de taxa de tokens por minuto (TPM)	30k (180 RPM com base no Azure OpenAI) para modelos sem raciocínio e 100k para modelos com raciocínio N/A (implantações padrão)	Para modelos do Azure OpenAI, usuários podem selecionar entre limites de taxa com base nos tipos de implantação (padrão, global, padrão global e assim por diante). Para implantações padrão, essa configuração é abstraida.
Número de solicitações	Duas solicitações em uma trilha a cada hora (24 trilhas por dia)	Implantações padrão, Azure OpenAI
Número de trilhas/execuções	14 dias com 24 trilhas por dia para 336 corridas	Implantações padrão, Azure OpenAI
Comprimento do prompt/contexto	Comprimento moderado	Implantações padrão, Azure OpenAI
Número de tokens processados (moderado)	Taxa de 80:20 para tokens de entrada para saída, ou seja, 800 tokens de entrada para 200 tokens de saída.	Implantações padrão, Azure OpenAI
Número de solicitações simultâneas	Único (as solicitações são enviadas sequencialmente uma após a outra)	Implantações padrão, Azure OpenAI
Dados	Sintético (prompts de entrada preparados a partir de texto estático)	Implantações padrão, Azure OpenAI
Região	Leste dos EUA/Leste dos EUA 2	Implantações padrão e Azure OpenAI
Tipo de implantação	Padrão	Aplicável somente para o OpenAI do Azure
Transmissão ao vivo	Verdade	Aplica-se a implantações padrão e ao Azure OpenAI. Para modelos implantados por meio de computação gerenciada ou para pontos de extremidade quando não há suporte para streaming, o TTFT é representado como P50 da métrica de latência.
Código de Referência de Estoque (SKU)	Standard_NC24ads_A100_v4 (24 núcleos, 220 GB de RAM, 64 GB de armazenamento)	Aplicável somente para Computação Gerenciada (para estimar o custo e as métricas perf)

O desempenho de LLMs e SLMs é avaliado nas seguintes métricas:

Métrica	Descrição
Média de latência	Tempo médio em segundos necessário para processar uma solicitação, computada em várias solicitações. Para calcular essa métrica, enviamos uma solicitação para o ponto de extremidade a cada hora, por duas semanas e calculamos a média.
Latência P50	50º valor de percentil (a mediana) de latência (o tempo gasto entre a solicitação e quando recebemos toda a resposta com um código bem-sucedido). Por exemplo, quando enviamos uma solicitação para o ponto de extremidade, 50% das solicitações são concluídas em 'x' segundos, com 'x' sendo a medida de latência.
Latência P90	90º valor de percentil de latência (o tempo gasto entre a solicitação e quando recebemos toda a resposta com um código bem-sucedido). Por exemplo, quando enviamos uma solicitação para o ponto de extremidade, 90% das solicitações são concluídas em 'x' segundos, com 'x' sendo a medida de latência.
Latência P95	95º valor de percentil de latência (o tempo gasto entre a solicitação e quando recebemos toda a resposta com um código bem-sucedido). Por exemplo, quando enviamos uma solicitação para o ponto de extremidade, 95% das solicitações são concluídas em 'x' segundos, com 'x' sendo a medida de latência.
Latência P99	99º valor de percentil de latência (o tempo gasto entre a solicitação e quando recebemos toda a resposta com um código bem-sucedido). Por exemplo, quando enviamos uma solicitação para o ponto de extremidade, 99% das solicitações são concluídas em "x" segundos, com 'x' sendo a medida de latência.
Taxa de transferência GTPS	Os tokens gerados por segundo (GTPS) representam o número de tokens de saída gerados a cada segundo desde o momento em que a solicitação é enviada para o endpoint.
TTPS de taxa de transferência	O total de tokens por segundo (TTPS) é o número total de tokens processados por segundo, incluindo tanto os tokens do prompt de entrada quanto os de saída gerados. Para modelos que não dão suporte ao streaming, o tempo para o primeiro token (ttft) representa o valor P50 de latência (tempo necessário para receber a resposta)
TTFT de latência	O tempo total até o primeiro token (TTFT) é o tempo necessário para que o primeiro token na resposta seja retornado do ponto de extremidade quando o streaming está habilitado.
Tempo entre tokens	Essa métrica é o tempo entre os tokens recebidos.

A IA do Azure também exibe índices de desempenho para latência e taxa de transferência da seguinte maneira:

Índice	Descrição
Índice de latência	Tempo médio para o primeiro token. Valores menores são melhores.
Índice de taxa de transferência	Média de tokens gerados por segundo. Valores mais altos são melhores.

Para métricas de desempenho, como latência ou taxa de transferência, o tempo para o primeiro token e os tokens gerados por segundo dão uma melhor noção geral do desempenho e comportamento típicos do modelo. Atualizamos nossos números de desempenho em cadência regular.

Parâmetros de comparação de custo de modelos de linguagem

Cálculos de custo são estimativas para o uso de um endpoint de modelo LLM ou SLM hospedado na plataforma de IA do Azure. A IA do Azure dá suporte à exibição do custo de implantações padrão e modelos do Azure OpenAI. Como esses custos estão sujeitos a alterações, atualizamos nossos cálculos de custo em uma cadência regular.

O custo de LLMs e SLMs é avaliado nas seguintes métricas:

Métrica	Descrição
Custo por tokens de entrada	Custo para implantação padrão para 1 milhão de tokens de entrada
Custo por tokens de saída	Custo para implantação padrão para 1 milhão de tokens de saída
Custo estimado	Custo para a soma do custo por tokens de entrada e custo por tokens de saída, com uma taxa de 3:1.

A IA do Azure também exibe o índice de custo da seguinte maneira:

Índice	Descrição
Índice de custo	Custo estimado. Valores menores são melhores.

Parâmetros de comparação de qualidade de modelos de inserção

O índice de qualidade dos modelos de inserção é definido como as pontuações de precisão média de um conjunto abrangente de conjuntos de dados de parâmetro de comparação padrão direcionados a tarefas de Recuperação de Informações, Clustering de Documentos e Resumo.

Veja mais detalhes em definições de pontuação de precisão específicas para cada conjunto de dados:

Métrica	Descrição
Exatidão	A precisão é a proporção de previsões corretas entre o número total de previsões processadas.
F1_score	A pontuação F1 é a média ponderada da precisão e do recall, onde o melhor valor é um (a precisão perfeita e o recall), e o pior é zero.
Média de precisão (MAP)	A MAP avalia a qualidade dos sistemas de classificação e de recomendação. Ele mede tanto a relevância dos itens sugeridos quanto o quão bom o sistema é em colocar itens mais relevantes na parte superior. Os valores podem variar de zero a um e, quanto maior a MAP, melhor o sistema pode colocar itens relevantes no alto da lista.
Ganho cumulativo com desconto normalizado (NDCG)	O NDCG avalia a capacidade de um algoritmo de machine learning de classificar itens com base na relevância. Ele compara classificações a uma ordem ideal em que todos os itens relevantes estão no topo da lista, onde k é o comprimento da lista ao avaliar a qualidade da classificação. Em nossos parâmetros de comparação, k=10, indicado por uma métrica de `ndcg_at_10`, o que significa que examinamos os 10 principais itens.
Precisão	A precisão mede a capacidade do modelo de identificar instâncias de uma determinada classe corretamente. A precisão mostra a frequência com que um modelo de machine learning está correto ao prever a classe de destino.
Correlação de Spearman	A correlação de Spearman baseada na similaridade de cosseno é calculada primeiro calculando a similaridade de cosseno entre variáveis, depois classificando essas pontuações e usando as classificações para calcular a correlação de Spearman.
Medida V	A V measure é uma métrica usada para avaliar a qualidade do agrupamento. A medida V é calculada como uma média harmônica de homogeneidade e completude, garantindo um equilíbrio entre os dois para uma pontuação significativa. As pontuações possíveis ficam entre zero e um, sendo um a rotulagem perfeitamente completa.

Cálculo de pontuações

Pontuações individuais

Os resultados do parâmetro de comparação são provenientes de conjuntos de dados públicos que geralmente são usados para avaliação do modelo de linguagem. Na maioria dos casos, os dados são hospedados em repositórios do GitHub mantidos pelos criadores ou curadores dos dados. Os pipelines de avaliação de IA do Azure baixam dados das respectivas fontes originais, extraem prompts de cada linha de exemplo, geram respostas de modelo e computam métricas de precisão relevantes.

A construção de prompt segue as práticas recomendadas para cada conjunto de dados, especificadas pelo documento que apresenta o conjunto de dados e o padrão do setor. Na maioria dos casos, cada prompt contém vários shots, ou seja, vários exemplos de perguntas e respostas completas para aprimorar o modelo para a tarefa. Os pipelines de avaliação criam gatilhos através da amostragem de perguntas e respostas obtidas de uma parte dos dados obtidos na avaliação.