Modelos de fundiário vendidos diretamente por Azure

Microsoft Modelos de Fundação no catálogo de modelos compreendem duas categorias principais, ou seja, modelos Foundry vendidos diretamente por Azure e Foundry Models de parceiros e comunidade. Este artigo lista uma seleção de Modelos de Fundição vendidos diretamente por Azure, juntamente com suas funcionalidades, deployment types e regiões de disponibilidade, excluindo modelos preteridos e desativados. Modelos de fundiário vendidos diretamente por Azure também são conhecidos como Direct de modelos Azure ou Azure Direct Models.

Os modelos vendidos diretamente por Azure incluem todos os modelos openai Azure e modelos específicos selecionados dos principais provedores. Esses modelos são cobrados por meio de sua assinatura de Azure, cobertos por contratos de nível de serviço Azure e compatíveis com Microsoft. Para ver uma lista de Modelos de Fundiário compatíveis com o Serviço do Agente de Fundimento, consulte Modelos com suporte do Serviço de Agente e para obter uma lista de Modelos de Fundiário de parceiros, consulte Modelos de Fundiário de parceiros e comunidade.

Ponta

Use as guias na parte superior desta página para alternar entre Azure modelos OpenAI e coleções de modelos Other de provedores como Cohere, DeepSeek, Meta, Mistral AI e xAI.

Azure OpenAI em modelos de Microsoft Foundry

Azure OpenAI é alimentado por um conjunto diversificado de modelos com diferentes funcionalidades e pontos de preço. A disponibilidade do modelo varia de acordo com a região e a nuvem. Para obter Azure Governamental disponibilidade do modelo, consulte Azure OpenAI no Azure Governamental.

Modelos Descrição
Série GPT-5.5 NOVOgpt-5.5
Série GPT-5.4 NEWgpt-5.4-mini, gpt-5.4-nano, gpt-5.4gpt-5.4-pro
Série GPT-5.3 gpt-5.3-chat, gpt-5.3-codex
Série GPT-5.2 gpt-5.2-codex, gpt-5.2gpt-5.2-chat
Série GPT-5.1 gpt-5.1, gpt-5.1-chatvisualização, gpt-5.1-codex, gpt-5.1-codex-mini
Sora NOVO sora-2
Série GPT-5 gpt-5, gpt-5-mini, gpt-5-nanogpt-5-chat
gpt-oss modelos de raciocínio de peso aberto
codex-mini Versão ajustada de o4-mini.
Série GPT-4.1 gpt-4.1, , gpt-4.1-minigpt-4.1-nano
computer-use-preview Um modelo experimental treinado para uso com a ferramenta de uso do computador da API de Respostas.
modelos da série o Modelos de raciocínio com resolução avançada de problemas e maior foco e capacidade.
GPT-4o, GPT-4o mini e GPT-4 Turbo Capaz Azure modelos OpenAI com versões multimodal, que podem aceitar texto e imagens como entrada.
Embeddings Um conjunto de modelos que podem converter texto em formulário de vetor numérico para facilitar a similaridade de texto.
Geração de imagem Uma série de modelos que podem gerar imagens originais de linguagem natural.
Video generation Um modelo que pode gerar cenas de vídeo originais a partir de instruções de texto.
Áudio Uma série de modelos para conversão de fala em texto, tradução e texto em fala. Os modelos de áudio GPT-4o dão suporte a fala de baixa latência, interações de conversação de fala ou geração de áudio.

GPT-5.5

Modelo Região
gpt-5.5 Padrão Global:
Leste dos EUA2
Suécia Central
Centro-Sul dos EUA
Polônia Central

Datazone Standard:
Leste dos EUA2
Centro-Sul dos EUA
Polônia Central
Suécia Central
ID do modelo Descrição Janela de Contexto Tokens de saída máximos Dados de treinamento (até)
gpt-5.5 (2026-04-24) - Raciocínio
- API de respostas.
- API de Conclusões de Chat.
– Saídas estruturadas.
– Processamento de texto e imagem.
- Funções, ferramentas e chamada de ferramenta paralela.
- Uso do computador
- Resumo completo dos recursos.
1.050.000 br>
Entrada: 922.000
Saída: 128.000
128,000 Dezembro de 2025

Nota

Algumas camadas de cota exigirão solicitações de cota para gpt-5.5 poder implantar esse modelo. As assinaturas de camada 5 e 6 têm cota por padrão.

GPT-5.4

Modelo Região
gpt-5.4 Consulte a tabela de modelos
gpt-5.4-pro Consulte a tabela de modelos
gpt-5.4-mini Consulte a tabela de modelos
gpt-5.4-nano Consulte a tabela de modelos
ID do modelo Descrição Janela de Contexto Tokens de saída máximos Dados de treinamento (até)
gpt-5.4 (2026-03-05) - Raciocínio
- API de respostas.
- API de Conclusões de Chat.
– Saídas estruturadas.
– Processamento de texto e imagem.
- Funções, ferramentas e chamada de ferramenta paralela.
- Uso do computador
- Resumo completo dos recursos.
1,050,000 128,000 Agosto de 2025
gpt-5.4-pro (2026-03-05) - Raciocínio
- API de respostas.
– Processamento de texto e imagem.
- Ferramentas e funções
- Resumo completo dos recursos.
1,050,000 128,000 Agosto de 2025
gpt-5.4-mini (2026-03-17) - Raciocínio
- API de respostas.
- API de Conclusões de Chat.
– Saídas estruturadas.
– Processamento de texto e imagem.
- Funções, ferramentas e chamada de ferramenta paralela.
- Uso do computador
- Resumo completo dos recursos.
400,000

Entrada: 272.000
Saída: 128.000
128,000 Agosto de 2025
gpt-5.4-nano (2026-03-17) - Raciocínio
- API de respostas.
- API de Conclusões de Chat.
– Saídas estruturadas.
– Processamento de texto e imagem.
- Funções, ferramentas e chamada de ferramenta paralela.
- Resumo completo dos recursos.
400,000

Entrada: 272.000
Saída: 128.000
128,000 Agosto de 2025

GPT-5.3

Modelo Região
gpt-5.3-codex Consulte a tabela de modelos
gpt-5.3-chat Leste dos EUA2 & Suécia Central (Padrão Global)
ID do modelo Descrição Janela de Contexto Tokens de saída máximos Dados de treinamento (até)
gpt-5.3-codex (2026-02-24) - Raciocínio
- API de respostas.
– Saídas estruturadas.
– Processamento de texto e imagem.
- Funções, ferramentas e chamada de ferramenta paralela.
- Resumo completo dos recursos.
- Otimizado para extensão codex CLI &Codex VS Code
400,000

Entrada: 272.000
Saída: 128.000
128,000 Agosto de 2025
gpt-5.3-chat (2026-03-03)
Visualizar
- API de Conclusões de Chat.
- API de respostas.
– Saídas estruturadas
- Funções, ferramentas e chamada de ferramenta paralela.
128,000

Entrada: 111.616
Saída: 16.384
16,384 Agosto de 2025

GPT-5.2

Disponibilidade da região

Modelo Região
gpt-5.2 Consulte a tabela de modelos.
gpt-5.2-chat Visualizar Consulte a tabela de modelos.
gpt-5.2-codex Consulte a tabela de modelos
ID do modelo Descrição Janela de Contexto Tokens de saída máximos Dados de treinamento (até)
gpt-5.2-codex (2026-01-14) - Raciocínio
- API de respostas.
– Saídas estruturadas.
– Processamento de texto e imagem.
- Funções, ferramentas e chamada de ferramenta paralela.
- Resumo completo dos recursos.
- Otimizado para extensão codex CLI &Codex VS Code
400,000

Entrada: 272.000
Saída: 128.000
128,000
gpt-5.2 (2025-12-11) - Raciocínio
- API de Conclusões de Chat.
- API de respostas.
– Saídas estruturadas.
– Processamento de texto e imagem.
- Funções, ferramentas e chamada de ferramenta paralela.
- Resumo completo dos recursos.
400,000

Entrada: 272.000
Saída: 128.000
128,000 Agosto de 2025
gpt-5.2-chat (2025-12-11)
Visualizar
- API de Conclusões de Chat.
- API de respostas.
– Saídas estruturadas
- Funções, ferramentas e chamada de ferramenta paralela.
128,000

Entrada: 111.616
Saída: 16.384
16,384 Agosto de 2025
gpt-5.2-chat (2026-02-10)
Visualizar
- API de Conclusões de Chat.
- API de respostas.
– Saídas estruturadas
- Funções, ferramentas e chamada de ferramenta paralela.
128,000

Entrada: 111.616
Saída: 16.384
16,384 Agosto de 2025

Cuidado

Não recomendamos usar modelos de versão prévia em produção. Atualizaremos todas as implantações de modelos de versão prévia para versões prévias futuras ou para a versão estável e disponível mais recente. Os modelos designados não seguem o padrão Azure ciclo de vida do modelo OpenAI.

GPT-5.1

Disponibilidade da região

Modelo Região
gpt-5.1 Consulte a tabela de modelos.
gpt-5.1-chat Visualizar Consulte a tabela de modelos.
gpt-5.1-codex Consulte a tabela de modelos.
gpt-5.1-codex-mini Consulte a tabela de modelos.
gpt-5.1-codex-max Consulte a tabela de modelos.
ID do modelo Descrição Janela de Contexto Tokens de saída máximos Dados de treinamento (até)
gpt-5.1 (2025-11-13) - Raciocínio
- API de Conclusões de Chat.
- API de respostas.
– Saídas estruturadas.
– Processamento de texto e imagem.
- Funções, ferramentas e chamada de ferramenta paralela.
- Resumo completo dos recursos.
400,000

Entrada: 272.000
Saída: 128.000
128,000 30 de setembro de 2024
gpt-5.1-chat (2025-11-13)
Visualizar
- Raciocínio
- API de Conclusões de Chat.
- API de respostas.
– Saídas estruturadas
- Funções, ferramentas e chamada de ferramenta paralela.
128,000

Entrada: 111.616
Saída: 16.384
16,384 30 de setembro de 2024
gpt-5.1-codex (2025-11-13) - Somente API de respostas .
- Processamento de texto e imagem
– Saídas estruturadas.
- Funções, ferramentas e chamada de ferramenta paralela.
- Resumo completo dos recursos
- Otimizado para extensão codex CLI &Codex VS Code
400,000

Entrada: 272.000
Saída: 128.000
128,000 30 de setembro de 2024
gpt-5.1-codex-mini (2025-11-13) - Somente API de respostas .
- Processamento de texto e imagem
– Saídas estruturadas.
- Funções, ferramentas e chamada de ferramenta paralela.
- Resumo completo dos recursos
- Otimizado para extensão codex CLI &Codex VS Code
400,000

Entrada: 272.000
Saída: 128.000
128,000 30 de setembro de 2024
gpt-5.1-codex-max (2025-12-04) - Somente API de respostas .
- Processamento de texto e imagem
– Saídas estruturadas.
- Funções, ferramentas e chamada de ferramenta paralela.
- Resumo completo dos recursos
- Otimizado para extensão codex CLI &Codex VS Code
400,000

Entrada: 272.000
Saída: 128.000
128,000 30 de setembro de 2024

Cuidado

Não recomendamos usar modelos de versão prévia em produção. Atualizaremos todas as implantações de modelos de versão prévia para versões prévias futuras ou para a versão estável e disponível mais recente. Os modelos designados não seguem o padrão Azure ciclo de vida do modelo OpenAI.

Importante

  • gpt-5.1 reasoning_effort o padrão é none. Ao atualizar de modelos de raciocínio anteriores para gpt-5.1, tenha em mente que talvez seja necessário atualizar seu código para passar explicitamente um reasoning_effort nível se desejar que o raciocínio ocorra.

  • gpt-5.1-chat adiciona funcionalidades internas de raciocínio. Assim como outros modelos de raciocínio , ele não dá suporte a parâmetros como temperature. Se você atualizar do uso gpt-5-chat (que não é um modelo de raciocínio) para gpt-5.1-chat verificar se remove todos os parâmetros personalizados, como temperature do código, que não são compatíveis com modelos de raciocínio.

  • gpt-5.1-codex-max adiciona suporte para a configuração reasoning_effort como xhigh. Não há suporte para o esforço none de raciocínio .gpt-5.1-codex-max

GPT-5

Disponibilidade da região

Modelo Região
gpt-5 (2025-08-07) Consulte a tabela de modelos.
gpt-5-mini (2025-08-07) Consulte a tabela de modelos.
gpt-5-nano (2025-08-07) Consulte a tabela de modelos.
gpt-5-chat (2025-08-07) Versão prévia Consulte a tabela de modelos.
gpt-5-chat (2025-10-03) Versão prévia Consulte a tabela de modelos.
gpt-5-codex (2025-09-11) Consulte a tabela de modelos.
gpt-5-pro (2025-10-06) Consulte a tabela de modelos.
ID do modelo Descrição Janela de Contexto Tokens de saída máximos Dados de treinamento (até)
gpt-5 (2025-08-07) - Raciocínio
- API de Conclusões de Chat.
- API de respostas.
– Saídas estruturadas.
– Processamento de texto e imagem.
- Funções, ferramentas e chamada de ferramenta paralela.
- Resumo completo dos recursos.
400,000

Entrada: 272.000
Saída: 128.000
128,000 30 de setembro de 2024
gpt-5-mini (2025-08-07) - Raciocínio
- API de Conclusões de Chat.
- API de respostas.
– Saídas estruturadas.
– Processamento de texto e imagem.
- Funções, ferramentas e chamada de ferramenta paralela.
- Resumo completo dos recursos.
400,000

Entrada: 272.000
Saída: 128.000
128,000 31 de maio de 2024
gpt-5-nano (2025-08-07) - Raciocínio
- API de Conclusões de Chat.
- API de respostas.
– Saídas estruturadas.
– Processamento de texto e imagem.
- Funções, ferramentas e chamada de ferramenta paralela.
- Resumo completo dos recursos.
400,000

Entrada: 272.000
Saída: 128.000
128,000 31 de maio de 2024
gpt-5-chat (2025-08-07)
Visualizar
- API de Conclusões de Chat.
- API de respostas.
- Entrada: Texto/Imagem
- Saída: somente texto
128,000 16,384 30 de setembro de 2024
gpt-5-chat (2025-10-03)
Visualizar1
- API de Conclusões de Chat.
- API de respostas.
- Entrada: Texto/Imagem
- Saída: somente texto
128,000 16,384 30 de setembro de 2024
gpt-5-codex (2025-09-11) - Somente API de respostas .
- Entrada: Texto/Imagem
- Saída: somente texto
– Saídas estruturadas.
– Processamento de texto e imagem.
- Funções, ferramentas e chamada de ferramenta paralela.
- Resumo completo dos recursos
- Otimizado para extensão codex CLI &Codex VS Code
400,000

Entrada: 272.000
Saída: 128.000
128,000 -
gpt-5-pro (2025-10-06) - Raciocínio
- API de respostas.
– Saídas estruturadas.
– Processamento de texto e imagem.
- Funções e ferramentas
- Resumo completo dos recursos.
400,000

Entrada: 272.000
Saída: 128.000
128,000 30 de setembro de 2024

Nota

A versão gpt-5-chat2025-10-03 apresenta um aprimoramento significativo focado na inteligência emocional e nas funcionalidades de saúde mental. Essa atualização integra conjuntos de dados especializados e estratégias de resposta refinadas para melhorar a capacidade do modelo de:

  • Entenda e interprete o contexto emocional com mais precisão, permitindo interações com nuances e empáticas.
  • Forneça respostas responsáveis e solidárias em conversas relacionadas à saúde mental, garantindo sensibilidade e adesão às práticas recomendadas.

Essas melhorias visam tornar o GPT-5-chat mais consciente do contexto, centrado no homem e confiável em cenários em que o tom emocional e as considerações de bem-estar são críticas.

Cuidado

Não recomendamos usar modelos de versão prévia em produção. Atualizaremos todas as implantações de modelos de versão prévia para versões prévias futuras ou para a versão estável e disponível mais recente. Os modelos designados não seguem o padrão Azure ciclo de vida do modelo OpenAI.

gpt-oss

Disponibilidade da região

Modelo Região
gpt-oss-120b Todas as regiões do OpenAI Azure

Capacidades

ID do modelo Descrição Janela de Contexto Tokens de saída máximos Dados de treinamento (até)
gpt-oss-120b (Versão prévia) - Somente entrada/texto em texto
– API de Conclusões de Chat
-Streaming
- Chamada de função
– Saídas estruturadas
-Raciocínio
- Disponível para a implantação1 e por meio de computação gerenciada
131,072 131,072 31 de maio de 2024
gpt-oss-20b (Versão prévia) - Somente entrada/texto em texto
– API de Conclusões de Chat
-Streaming
- Chamada de função
– Saídas estruturadas
-Raciocínio
- Disponível por meio da computação gerenciada e do Foundry Local
131,072 131,072 31 de maio de 2024

1 Diferentemente de outros modelos Azure OpenAI gpt-oss-120b requer um projeto Foundry para implantar o modelo.

Implantar com código

az cognitiveservices account deployment create \
  --name "Foundry-project-resource" \
  --resource-group "test-rg" \
  --deployment-name "gpt-oss-120b" \
  --model-name "gpt-oss-120b" \
  --model-version "1" \
  --model-format "OpenAI-OSS" \
  --sku-capacity 10 \
  --sku-name "GlobalStandard"

Série GPT-4.1

Disponibilidade da região

Modelo Região
gpt-4.1 (2025-04-14) Consulte a tabela de modelos.
gpt-4.1-nano (2025-04-14) Consulte a tabela de modelos.
gpt-4.1-mini (2025-04-14) Consulte a tabela de modelos.

Capacidades

Importante

Um problema conhecido está afetando todos os modelos da série GPT 4.1. Grandes definições de chamada de função ou ferramenta que excedem 300.000 tokens resultarão em falhas, mesmo que o limite de contexto de 1 milhão de tokens dos modelos não tenha sido atingido.

Os erros podem variar com base na chamada à API e nas características de conteúdo subjacentes.

Aqui estão as mensagens de erro para a API de Conclusões de Chat:

  • Error code: 400 - {'error': {'message': "This model's maximum context length is 300000 tokens. However, your messages resulted in 350564 tokens (100 in the messages, 350464 in the functions). Please reduce the length of the messages or functions.", 'type': 'invalid_request_error', 'param': 'messages', 'code': 'context_length_exceeded'}}

  • Error code: 400 - {'error': {'message': "Invalid 'tools[0].function.description': string too long. Expected a string with maximum length 1048576, but got a string with length 2778531 instead.", 'type': 'invalid_request_error', 'param': 'tools[0].function.description', 'code': 'string_above_max_length'}}

Esta é a mensagem de erro para a API de Respostas:

  • Error code: 500 - {'error': {'message': 'The server had an error processing your request. Sorry about that! You can retry your request, or contact us through an Azure support request at: https://go.microsoft.com/fwlink/?linkid=2213926 if you keep seeing this error. (Please include the request ID d2008353-291d-428f-adc1-defb5d9fb109 in your email.)', 'type': 'server_error', 'param': None, 'code': None}}
ID do modelo Descrição Janela de contexto Tokens de saída máximos Dados de treinamento (até)
gpt-4.1 (2025-04-14) - Entrada de texto e imagem
- Saída de texto
– API de conclusões de chat
- API de respostas
-Streaming
- Chamada de função
- Saídas estruturadas (conclusões de chat)
- 1,047,576
- 300.000 (implantações gerenciadas padrão e provisionadas)
- 128.000 (implantações em lote)
32,768 31 de maio de 2024
gpt-4.1-nano (2025-04-14) - Entrada de texto e imagem
- Saída de texto
– API de conclusões de chat
- API de respostas
-Streaming
- Chamada de função
- Saídas estruturadas (conclusões de chat)
- 1,047,576
- 300.000 (implantações gerenciadas padrão e provisionadas)
- 128.000 (implantações em lote)
32,768 31 de maio de 2024
gpt-4.1-mini (2025-04-14) - Entrada de texto e imagem
- Saída de texto
– API de conclusões de chat
- API de respostas
-Streaming
- Chamada de função
- Saídas estruturadas (conclusões de chat)
- 1,047,576
- 300.000 (implantações gerenciadas padrão e provisionadas)
- 128.000 (implantações em lote)
32,768 31 de maio de 2024

computer-use-preview

Um modelo experimental treinado para uso com a ferramenta de uso do computador da API de Respostas .

Ele pode ser usado com bibliotecas de terceiros para permitir que o modelo controle a entrada do mouse e do teclado, ao mesmo tempo em que recebe o contexto de capturas de tela do ambiente atual.

Cuidado

Não recomendamos usar modelos de versão prévia em produção. Atualizaremos todas as implantações de modelos de versão prévia para versões prévias futuras ou para a versão estável e disponível mais recente. Os modelos designados não seguem o padrão Azure ciclo de vida do modelo OpenAI.

O registro é necessário para acessar computer-use-preview. O acesso é concedido com base nos critérios de qualificação do Microsoft. Os clientes que têm acesso a outros modelos de acesso limitado ainda precisam solicitar acesso para esse modelo.

Para solicitar acesso, acesse o computer-use-preview aplicativo de modelo de acesso limitado. Quando o acesso é concedido, você precisa criar uma implantação para o modelo.

Disponibilidade da região

Modelo Região
computer-use-preview Consulte a tabela de modelos.

Capacidades

ID do modelo Descrição Janela de contexto Tokens de saída máximos Dados de treinamento (até)
computer-use-preview (2025-03-11) Modelo especializado para uso com a ferramenta de uso do computador da API de Respostas

-Ferramentas
-Streaming
- Texto (entrada/saída)
- Imagem (entrada)
8,192 1,024 Outubro de 2023

modelos da série o

Os modelos de série o Azure OpenAI são projetados para lidar com tarefas de raciocínio e solução de problemas com maior foco e capacidade. Esses modelos gastam mais tempo processando e entendendo a solicitação do usuário, tornando-os excepcionalmente fortes em áreas como ciência, codificação e matemática, em comparação com iterações anteriores.

ID do modelo Descrição Solicitação máxima (tokens) Dados de treinamento (até)
codex-mini (2025-05-16) Versão ajustada de o4-mini.
- API de respostas.
– Saídas estruturadas.
– Processamento de texto e imagem.
- Funções e ferramentas.
Resumo completo dos recursos.
Entrada: 200.000
Saída: 100.000
31 de maio de 2024
o3-pro (2025-06-10) - API de respostas.
– Saídas estruturadas.
– Processamento de texto e imagem.
- Funções e ferramentas.
Resumo completo dos recursos.
Entrada: 200.000
Saída: 100.000
31 de maio de 2024
o4-mini (2025-04-16) - Novo modelo de raciocínio, oferecendo habilidades de raciocínio aprimoradas.
- API de Conclusões de Chat.
- API de respostas.
– Saídas estruturadas.
– Processamento de texto e imagem.
- Funções e ferramentas.
Resumo completo dos recursos.
Entrada: 200.000
Saída: 100.000
31 de maio de 2024
o3 (2025-04-16) - Novo modelo de raciocínio, oferecendo habilidades de raciocínio aprimoradas.
- API de Conclusões de Chat.
- API de respostas.
– Saídas estruturadas.
– Processamento de texto e imagem.
- Funções, ferramentas e chamada de ferramenta paralela.
Resumo completo dos recursos.
Entrada: 200.000
Saída: 100.000
31 de maio de 2024
o3-mini (31/01/2025) - Habilidades de raciocínio aprimoradas.
– Saídas estruturadas.
– Processamento somente texto.
- Funções e ferramentas.
Entrada: 200.000
Saída: 100.000
Outubro de 2023
o1 (2024-12-17) - Habilidades de raciocínio aprimoradas.
– Saídas estruturadas.
– Processamento de texto e imagem.
- Funções e ferramentas.
Entrada: 200.000
Saída: 100.000
Outubro de 2023
o1-preview (2024-09-12) Versão prévia mais antiga. Entrada: 128.000
Saída: 32.768
Outubro de 2023
o1-mini (2024-09-12) Uma opção mais rápida e econômica na série o1, ideal para codificar tarefas que exigem velocidade e menor consumo de recursos.
– Implantação padrão global disponível por padrão.
– As implantações padrão (regionais) estão disponíveis apenas para clientes selecionados que receberam acesso como parte da o1-preview versão de acesso limitada.
Entrada: 128.000
Saída: 65.536
Outubro de 2023

Para saber mais sobre modelos avançados da série O, consulte Introdução aos modelos de raciocínio.

Disponibilidade da região

Modelo Região
codex-mini Leste dos EUA2 & Suécia Central (Padrão Global).
o3-pro Leste dos EUA2 & Suécia Central (Padrão Global).
o4-mini Consulte a tabela de modelos.
o3 Consulte a tabela de modelos.
o3-mini Consulte a tabela de modelos.
o1 Consulte a tabela de modelos.
o1-preview Consulte a tabela de modelos. Esse modelo está disponível apenas para clientes que receberam acesso como parte do acesso limitado original.
o1-mini Consulte a tabela de modelos.

GPT-4o e GPT-4 Turbo

O GPT-4o integra texto e imagens em um único modelo, o que permite manipular vários tipos de dados simultaneamente. Essa abordagem multimodal aprimora a precisão e a capacidade de resposta nas interações entre humanos e computadores. O GPT-4o corresponde às tarefas de codificação e texto gpt-4 turbo em inglês, ao mesmo tempo em que oferece desempenho superior em tarefas de idioma não inglês e tarefas de visão, definindo novos parâmetros de comparação para os recursos de IA.

Modelos GPT-4 e GPT-4 Turbo

Esses modelos só podem ser usados com a API de Conclusões de Chat.

Consulte as versões Model para saber como Azure OpenAI lida com atualizações de versão do modelo. Consulte Trabalhar com modelos para saber como exibir e definir as configurações de versão do modelo de suas implantações gpt-4.

ID do modelo Descrição Solicitação máxima (tokens) Dados de treinamento (até)
gpt-4o (2024-11-20)
GPT-4o (Omni)
– Saídas estruturadas.
– Processamento de texto e imagem.
- Modo JSON.
- Chamada de função paralela.
- Precisão e capacidade de resposta aprimoradas.
– Paridade com texto em inglês e tarefas de codificação em comparação com GPT-4 Turbo com Visão.
– Desempenho superior em idiomas não ingleses e em tarefas de visão.
- Capacidade de escrita criativa aprimorada.
Entrada: 128.000
Saída: 16.384
Outubro de 2023
gpt-4o (2024-08-06)
GPT-4o (Omni)
– Saídas estruturadas.
– Processamento de texto e imagem.
- Modo JSON.
- Chamada de função paralela.
- Precisão e capacidade de resposta aprimoradas.
– Paridade com texto em inglês e tarefas de codificação em comparação com GPT-4 Turbo com Visão.
– Desempenho superior em idiomas não ingleses e em tarefas de visão.
Entrada: 128.000
Saída: 16.384
Outubro de 2023
gpt-4o-mini (18/07/2024)
GPT-4o mini
- Modelo rápido, barato e capaz ideal para substituir modelos da série GPT-3.5 Turbo.
– Processamento de texto e imagem.
- Modo JSON.
- Chamada de função paralela.
Entrada: 128.000
Saída: 16.384
Outubro de 2023
gpt-4o (2024-05-13)
GPT-4o (Omni)
– Processamento de texto e imagem.
- Modo JSON.
- Chamada de função paralela.
- Precisão e capacidade de resposta aprimoradas.
– Paridade com texto em inglês e tarefas de codificação em comparação com GPT-4 Turbo com Visão.
– Desempenho superior em idiomas não ingleses e em tarefas de visão.
Entrada: 128.000
Saída: 4.096
Outubro de 2023
gpt-4 (turbo-2024-04-09)
GPT-4 Turbo com Visão
Novo modelo disponível em geral.
- Substituição de todos os modelos de versão prévia do GPT-4 anteriores (vision-preview, 1106-Preview, ). 0125-Preview
- A disponibilidade do recurso é atualmente diferente, dependendo do método de entrada e do tipo de implantação.
Entrada: 128.000
Saída: 4.096
Dezembro de 2023

Cuidado

Não recomendamos que você use modelos de versão prévia em produção. Atualizaremos todas as implantações de modelos de versão prévia para versões prévias futuras ou para a versão estável e disponível mais recente. Os modelos designados não seguem o padrão Azure ciclo de vida do modelo OpenAI.

Embeddings

text-embedding-3-large é o modelo de inserção mais recente e mais capaz. Não é possível atualizar entre modelos de inserção. Para passar do uso text-embedding-ada-002 para text-embedding-3-large, você precisa gerar novas inserções.

  • text-embedding-3-large
  • text-embedding-3-small
  • text-embedding-ada-002

O OpenAI informa que os testes mostram que os modelos de inserção de terceira geração grandes e pequenos oferecem melhor desempenho médio de recuperação de vários idiomas com o parâmetro de comparação MIRACL . Eles ainda mantêm o desempenho para tarefas em inglês com o parâmetro de comparação MTEB .

Parâmetro de comparação de avaliação text-embedding-ada-002 text-embedding-3-small text-embedding-3-large
Média miracl 31.4 44.0 54.9
Média de MTEB 61.0 62.3 64.6

Os modelos de incorporação de terceira geração dão suporte à redução do tamanho da inserção por meio de um novo dimensions parâmetro. Normalmente, inserções maiores são mais caras de uma perspectiva de computação, memória e armazenamento. Quando você pode ajustar o número de dimensões, obtém mais controle sobre o custo geral e o desempenho. O parâmetro dimensions não tem suporte em todas as versões da biblioteca de Python OpenAI 1.x. Para aproveitar esse parâmetro, recomendamos que você atualize para a versão mais recente: pip install openai --upgrade.

O teste de parâmetro de comparação MTEB da OpenAI constatou que, mesmo quando as dimensões do modelo de terceira geração são reduzidas para menos do que as 1.536 dimensões de text-embeddings-ada-002, o desempenho permanece ligeiramente melhor.

Modelos de geração de imagem

Os modelos de geração de imagem geram imagens de prompts de texto que o usuário fornece. Os modelos da série GPT-image-1 incluem gpt-image-1, gpt-image-1-minie gpt-image-1.5.

Disponibilidade da região

Modelo Região
gpt-image-1 Consulte a tabela de modelos
gpt-image-1-mini Consulte a tabela de modelos
gpt-image-1.5 Consulte a tabela de modelos

Modelos de geração de vídeo

Sora é um modelo de IA do OpenAI que pode criar cenas de vídeo realistas e imaginativas a partir de instruções de texto. Sora está em versão prévia.

Disponibilidade da região

Modelo Região
sora Consulte a tabela de modelos
sora-2 Consulte a tabela de modelos

Modelos de áudio

Os modelos de áudio no Azure OpenAI estão disponíveis por meio das APIs realtime, completions e audio.

Modelos de áudio GPT-4o

Os modelos de áudio GPT-4o fazem parte da família de modelos GPT-4o e dão suporte a baixa latência, fala, interações de fala ou geração de áudio.

Cuidado

Não recomendamos usar modelos de versão prévia em produção. Atualizaremos todas as implantações de modelos de versão prévia para versões prévias futuras ou para a versão estável e disponível mais recente. Os modelos designados não seguem o padrão Azure ciclo de vida do modelo OpenAI.

Os detalhes sobre o máximo de tokens de solicitação e dados de treinamento estão disponíveis na tabela a seguir:

ID do modelo Descrição Solicitação máxima (tokens) Dados de treinamento (até)
gpt-4o-mini-audio-preview (2024-12-17)
Visualizar
Modelo de áudio para geração de áudio e texto. Entrada: 128.000
Saída: 16.384
Setembro de 2023
gpt-4o-audio-preview (2024-12-17) Modelo de áudio para geração de áudio e texto. Entrada: 128.000
Saída: 16.384
Setembro de 2023
gpt-4o-realtime-preview (2025-06-03) Modelo de áudio para processamento de áudio em tempo real. Entrada: 32.000
Saída: 4.096
Outubro de 2023
gpt-4o-realtime-preview (2024-12-17) Modelo de áudio para processamento de áudio em tempo real. Entrada: 16.000
Saída: 4.096
Outubro de 2023
gpt-4o-mini-realtime-preview (2024-12-17)
Visualizar
Modelo de áudio para processamento de áudio em tempo real. Entrada: 128.000
Saída: 4.096
Outubro de 2023
gpt-audio(28/08/2025)
gpt-audio-mini(06-10-2025)
Modelo de áudio para geração de áudio e texto. Entrada: 128,00
Saída: 16.384
Outubro de 2023
gpt-realtime (28-08-2025) (GA)
gpt-realtime-mini (2025-10-06)
gpt-realtime-mini (2025-12-15)
Modelo de áudio para processamento de áudio em tempo real. Entrada: 32,00
Saída: 4.096
Outubro de 2023
gpt-audio-1.5 (2026-02-23) Modelo de áudio para geração de áudio e texto. Entrada: 128,00
Saída: 16.384
Setembro de 2024
gpt-realtime-1.5 (2026-02-23) Modelo de áudio para processamento de áudio em tempo real. Entrada: 32,00
Saída: 4.096
Setembro de 2024

Para comparar a disponibilidade de modelos de áudio GPT-4o em todas as regiões, consulte a tabela de modelos.

API de áudio

Os modelos de áudio por meio da /audio API podem ser usados para conversão de fala em texto, tradução e conversão de texto em fala.

Modelos de conversão de fala em texto

ID do modelo Descrição Solicitação máxima (tamanho do arquivo de áudio)
whisper Modelo de reconhecimento de fala de uso geral. 25 MB
gpt-4o-transcribe (2025-03-20)
Visualizar
Modelo de conversão de fala em texto alimentado por GPT-4o. 25 MB
gpt-4o-mini-transcribe (2025-03-20)
Visualizar
Modelo de conversão de fala em texto alimentado pelo MINI GPT-4o. 25 MB
gpt-4o-transcribe-diarize (2025-10-15)
Visualizar
Modelo de conversão de fala em texto com reconhecimento automático de fala. 25 MB
gpt-4o-mini-transcribe (2025-12-15)
Visualizar
Modelo de conversão de fala em texto com reconhecimento automático de fala. Precisão e robustez da transcrição aprimoradas. 25 MB

Modelos de tradução de fala

ID do modelo Descrição Solicitação máxima (tamanho do arquivo de áudio)
whisper Modelo de reconhecimento de fala de uso geral. 25 MB

Modelos de conversão de texto em fala (versão prévia)

ID do modelo Descrição
tts
Visualizar
Modelo de conversão de texto em fala otimizado para velocidade.
tts-hd
Visualizar
Modelo de conversão de texto em fala otimizado para qualidade.
gpt-4o-mini-tts (2025-03-20) Modelo de conversão de texto em fala alimentado pelo MINI GPT-4o.

Você pode orientar a voz a falar em um estilo ou tom específico.
gpt-4o-mini-tts (2025-12-15) Modelo de conversão de texto em fala alimentado pelo MINI GPT-4o.

Você pode orientar a voz a falar em um estilo ou tom específico.

Disponibilidade da tabela de resumo do modelo e da região

Modelos por tipo de implantação

Azure OpenAI fornece aos clientes opções sobre a estrutura de hospedagem que se ajusta aos seus padrões de negócios e de uso. O serviço oferece dois tipos principais de implantação:

  • Padrão: tem uma opção de implantação global, roteando o tráfego globalmente para fornecer uma taxa de transferência mais alta.
  • Provisionado: também tem uma opção de implantação global, permitindo que os clientes comprem e implantem unidades de taxa de transferência provisionadas em Azure infraestrutura global.

Todas as implantações podem executar exatamente as mesmas operações de inferência, mas a cobrança, a escala e o desempenho são substancialmente diferentes. Para saber mais sobre Azure tipos de implantação openai, consulte nosso guia de tipos Deployment.

Disponibilidade do modelo Padrão Global

Região gpt-5.5, 2026-04-24 gpt-image-2, 2026-04-21 gpt-5.4-mini, 2026-03-17 gpt-5.4-nano, 2026-03-17 gpt-5.4, 2026-03-05 gpt-5.4-pro, 2026-03-05 gpt-5.3-chat, 2026-03-03 gpt-5.3-codex, 2026-02-24 gpt-audio-1.5, 2026-02-23 gpt-realtime-1.5, 2026-02-23 gpt-5.2-chat, 2026-02-10 gpt-5.2-chat, 2025-12-11 gpt-5.2-codex, 2026-01-14 gpt-image-1.5, 2025-12-16 gpt-4o-mini-transcribe, 2025-12-15 gpt-4o-mini-transcribe, 2025-03-20 gpt-4o-mini-tts, 2025-12-15 gpt-4o-mini-tts, 2025-03-20 gpt-audio-mini, 2025-12-15 gpt-audio-mini, 2025-10-06 gpt-realtime-mini, 2025-12-15 gpt-realtime-mini, 2025-10-06 gpt-5.2, 2025-12-11 gpt-5.1-codex-max, 2025-12-04 model-router, 2025-11-18 model-router, 2025-08-07 model-router, 2025-05-19 gpt-5.1, 2025-11-13 gpt-5.1-chat, 2025-11-13 gpt-5.1-codex, 2025-11-13 gpt-5.1-codex-mini, 2025-11-13 gpt-4o-transcribe-diarize, 2025-10-15 gpt-5-pro, 2025-10-06 gpt-image-1-mini, 2025-10-06 sora-2, 2025-10-06 gpt-5-chat, 2025-10-03 gpt-5-chat, 2025-08-07 gpt-5-codex, 2025-09-15 gpt-audio, 2025-08-28 gpt-realtime, 2025-08-28 gpt-5, 2025-08-07 gpt-5-mini, 2025-08-07 gpt-5-nano, 2025-08-07 pesquisa o3 profunda, 2025-06-26 o3-pro, 2025-06-10 codex-mini, 2025-05-16 o3, 2025-04-16 o4-mini, 2025-04-16 gpt-image-1, 2025-04-15 gpt-4.1, 2025-04-14 gpt-4.1-mini, 2025-04-14 gpt-4.1-nano, 2025-04-14 gpt-4o-transcribe, 2025-03-20 pré-visualização-do-uso-do-computador, 2025-03-11 pré-visualização-do-uso-do-computador, 11/02/2025 o3-mini, 2025-01-31 o1, 2024-12-17 gpt-4o, 2024-11-20 gpt-4o, 2024-08-06 gpt-4o, 2024-05-13 gpt-4o-mini, 2024-07-18 text-embedding-ada-002, 2 text-embedding-3-large, 1 text-embedding-3-small, 1
australiaeast - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
brazilsouth - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
canadacentral - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
canadaeast - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
centralus - - - - - - - - - - - - - - - - -
eastus - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
eastus2 - -
francecentral - - - - - - - - - - - - - - - - - - - - - -
germanywestcentral - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
italynorth - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
japaneast - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
koreacentral - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
northcentralus - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
norwayeast - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
polôniacentral - - - - - - - - - - - - - - - - - - - - - - - -
southafricanorth - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
southcentralus - - - - - - - - - - - - - - - - - - - - - - - - - - - -
southeastasia - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
southindia - - - - - - - - - - - - - - - - - - - -
spaincentral - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
swedencentral - - - -
switzerlandnorth - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
switzerlandwest - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
uaenorth - - - - - - - - - - - - - - - - - - - - - - - - - -
uksouth - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
westeurope - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
westus - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
westus3 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Nota

o3-deep-research atualmente está disponível apenas com o Serviço do Foundry Agent. Para saber mais, confira as diretrizes da ferramenta De Pesquisa Profunda.

Esta tabela não inclui informações de disponibilidade regionais de ajuste fino. Consulte a seção de ajuste fino para obter essas informações.

Modelos de inserções

Esses modelos só podem ser usados com solicitações de API de Inserção.

Nota

text-embedding-3-large é o modelo de inserção mais recente e mais capaz. Não é possível atualizar entre modelos de inserção. Para migrar do uso text-embedding-ada-002 para text-embedding-3-large, você precisa gerar novas inserções.

ID do modelo Solicitação máxima (tokens) Dimensões de saída Dados de treinamento (até)
text-embedding-ada-002 (versão 2) 8,192 1,536 Setembro de 2021
text-embedding-ada-002 (versão 1) 2,046 1,536 Setembro de 2021
text-embedding-3-large 8,192 3,072 Setembro de 2021
text-embedding-3-small 8,192 1,536 Setembro de 2021

Nota

Quando você envia uma matriz de entradas para inserção, o número máximo de itens de entrada na matriz por chamada para o ponto de extremidade de inserção é 2.048.

Modelos de geração de imagem

ID do modelo Solicitação máxima (caracteres)
gpt-image-1 4,000
gpt-image-1-mini 4,000
gpt-image-1.5 4,000

Modelos de geração de vídeo

ID do modelo Solicitação Máxima (caracteres)
Sora 4,000

Modelos de ajuste fino

Os seguintes modelos têm suporte para ajuste fino:

ID do modelo Regiões padrão Global Desenvolvedor Métodos Status Modalidade
gpt-4o-mini
(2024-07-18)
Centro-Norte dos EUA
Suécia Central
SFT GA Texto em texto
gpt-4o
(2024-08-06)
Leste dos EUA2
Centro-Norte dos EUA
Suécia Central
SFT, DPO GA Texto e visão em texto
gpt-4.1
(2025-04-14)
Centro-Norte dos EUA
Suécia Central
SFT, DPO GA Texto e visão em texto
gpt-4.1-mini
(2025-04-14)
Centro-Norte dos EUA
Suécia Central
SFT, DPO GA Texto em texto
gpt-4.1-nano (2025-04-14) Centro-Norte dos EUA
Suécia Central
SFT, DPO GA Texto em texto
o4-mini
(2025-04-16)
Leste dos EUA2
Suécia Central
RFT GA Texto em texto
gpt-5
(2025-08-07)
Centro-Norte dos EUA
Suécia Central
RFT Visualização privada Texto em texto
Ministral-3B
(2411)
Sem suporte SFT Visualização pública Texto em texto
Qwen-32B Sem suporte SFT Visualização pública Texto em texto
Llama-3.3-70B-Instruct Sem suporte SFT Visualização pública Texto em texto
gpt-oss-20b Sem suporte SFT Visualização pública Texto em texto

Ou você pode ajustar um modelo ajustado anteriormente, formatado como base-model.ft-{jobid}.

Nota

Modelos de software livre (Ministral-3B, Qwen-32B, Llama-3.3-70B-Instruct, gpt-oss-20b) só têm suporte em recursos de Fundação e na nova interface do usuário da Foundry.

Nota

O treinamento global fornece treinamento mais acessível por token, mas não oferece residência de dados. No momento, ele está disponível para recursos do Foundry nas seguintes regiões:

  • Leste da Austrália
  • Sul do Brasil
  • Canadá Central
  • Leste do Canadá
  • Leste dos EUA
  • Leste dos EUA2
  • França Central
  • Centro-oeste da Alemanha
  • Norte da Itália
  • Leste do Japão (sem suporte à visão)
  • Coreia Central
  • Centro-Norte dos EUA
  • Leste da Noruega
  • Polônia Central (sem suporte de 4,1 nano)
  • Sudeste Asiático
  • Norte da África do Sul
  • Centro-Sul dos EUA
  • Sul da Índia
  • Espanha Central
  • Suécia Central
  • Oeste da Suíça
  • Norte da Suíça
  • Sul do Reino Unido
  • Oeste da Europa
  • Oeste dos EUA
  • Oeste dos EUA3

Assistentes (versão prévia)

Para assistentes, você precisa de uma combinação de um modelo com suporte e uma região com suporte. Determinadas ferramentas e funcionalidades exigem os modelos mais recentes. Os modelos a seguir estão disponíveis na API, no SDK e no Foundry dos Assistentes. A tabela a seguir é para implantação padrão. Para obter informações sobre a disponibilidade da unidade de taxa de transferência provisionada, consulte Taxa de transferência provisionada. Os modelos e regiões listados podem ser usados com assistentes v1 e v2. Você poderá usar modelos Padrão Global se eles tiverem suporte nas regiões a seguir.

Região gpt-4o, 2024-05-13 gpt-4o, 2024-08-06 gpt-4o-mini, 2024-07-18 gpt-4, 0613 gpt-4, Versão Prévia 1106 gpt-4, 0125-Preview gpt-4, turbo-2024-04-09 gpt-4-32k, 0613 gpt-35-turbo, 0613 gpt-35-turbo, 1106 gpt-35-turbo, 0125 gpt-35-turbo-16k, 0613
australiaeast - - - - -
eastus - - - -
eastus2 - - - -
francecentral - - - - - -
japaneast - - - - - - - - -
norwayeast - - - - - - - - - - -
southindia - - - - - - - - -
swedencentral - -
uksouth - - - - - -
westus - - - - -
westus3 - - - - - -

Desativação do modelo

Para obter as informações mais recentes sobre aposentadorias de modelo, consulte o guia de desativação do modelo.

Modelos do Black Forest Labs vendidos diretamente por Azure

Os modelos flux do BFL (Black Forest Labs) trazem a geração de imagens de última geração para Microsoft Foundry, permitindo que você gere e edite imagens de alta qualidade de prompts de texto e imagens de referência. Os modelos FLUX dão suporte a uma variedade de recursos, incluindo geração de texto para imagem, edição de imagem de várias referências e geração e edição no contexto.

Você pode executar esses modelos por meio da API do provedor de serviços BFL e por meio dos pontos de extremidade de imagens/gerações e imagens/edições.

Para trabalhar com modelos FLUX na Foundry, consulte Deploy e use modelos FLUX no Microsoft Foundry.

Modelo Tipo &ponto de extremidade de API Capacidades Tipo de implantação (disponibilidade da região)
FLUX.2-flex
Visualizar
Geração de imagem
- API do provedor de serviços BFL: <resource-name>/providers/blackforestlabs/v1/flux-2-flex
- Entrada: texto e imagem (32.000 tokens e até 10 imagensi)
- Saída: Uma imagem
- Chamada de ferramenta: Não
- Formatos de resposta: Imagem (PNG e JPG)
- Principais recursos: Controle refinado; suporte de várias referências para até 10 imagens
- Parâmetros adicionais:
guidance: controla a proximidade com que a saída segue o prompt. Mínimo: 1,5, máximo: 10, padrão: 4,5. Maior = aderência de prompt mais próxima.
steps: número de etapas de inferência. Máximo: 50, padrão: 50. Mais alto = mais detalhes, mais lento.
- Padrão global (todas as regiões)
FLUX.2-pro
Visualizar
Geração de imagem
- API do provedor de serviços BFL: <resource-name>/providers/blackforestlabs/v1/flux-2-pro
- Entrada: texto e imagem (32.000 tokens e até 8 imagensii)
- Saída: Uma imagem
- Chamada de ferramenta: Não
- Formatos de resposta: Imagem (PNG e JPG)
- Principais recursos: Suporte a várias referências para até 8 imagens; mais fundamentado no conhecimento do mundo real; maior flexibilidade de saída; desempenho aprimorado
- Parâmetros adicionais:(Somente na API específica do provedor) dá suporte a todos os parâmetros.
- Padrão global (todas as regiões)
FLUX.1-Kontext-pro
Visualizar
Geração de imagem
- API de imagem: https://<resource-name>/openai/deployments/{deployment-id}/images/generations
E
https://<resource-name>/openai/deployments/{deployment-id}/images/edits

- API do provedor de serviços BFL: <resource-name>/providers/blackforestlabs/v1/flux-kontext-pro?api-version=preview
- Entrada: texto e imagem (5.000 tokens e 1 imagem)
- Saída: Uma imagem
- Chamada de ferramenta: Não
- Formatos de resposta: Imagem (PNG e JPG)
- Principais recursos: Consistência de caracteres, edição avançada
- Parâmetros adicionais:(Somente na API específica do provedor)seed, aspect ratio, , input_image, prompt_unsampling, , safety_toleranceoutput_format
- Padrão global (todas as regiões)
FLUX-1.1-pro
Visualizar
Geração de imagem
- API de imagem: https://<resource-name>/openai/deployments/{deployment-id}/images/generations

- API do provedor de serviços BFL: <resource-name>/providers/blackforestlabs/v1/flux-pro-1.1?api-version=preview
- Entrada: texto (5.000 tokens e 1 imagem)
- Saída: Uma imagem
- Chamada de ferramenta: Não
- Formatos de resposta: Imagem (PNG e JPG)
- Principais recursos: Velocidade de inferência rápida, forte adesão de prompt, preços competitivos, geração escalonável
- Parâmetros adicionais:(Somente na API específica do provedor)width, height, , prompt_unsampling, seed, , safety_toleranceoutput_format
- Padrão global (todas as regiões)

i, ii O suporte para várias imagens de referência está disponível para FLUX.2 [pro] (versão prévia) e FLUX.2 [flex] (versão prévia) usando a API, mas não no playground.

Modelos coadministrados vendidos diretamente por Azure

A família coerente de modelos inclui vários modelos otimizados para diferentes casos de uso, incluindo conclusões de chat, classificação de texto/reclassificação e inserções. Os modelos de coautoria são otimizados para vários casos de uso que incluem raciocínio, resumo e resposta a perguntas.

Modelo Tipo Capacidades Tipo de implantação (disponibilidade da região)
Cohere-rerank-v4.0-pro classificação de texto (reclassificação) - Entrada: texto
- Saída: texto
- Idiomas:en, fr, es, , it, de, pt-br, ja, zh-cn, , ar, vi, , hi, ru, , e idnl
- Chamada de ferramenta: Não
- Formatos de resposta: JSON
- Padrão global (todas as regiões)
– Computação gerenciada
Cohere-rerank-v4.0-fast classificação de texto (reclassificação) - Entrada: texto
- Saída: texto
- Idiomas:en, fr, es, , it, de, pt-br, ja, zh-cn, , ar, vi, , hi, ru, , e idnl
- Chamada de ferramenta: Não
- Formatos de resposta: JSON
- Padrão global (todas as regiões)
– Computação gerenciada
Cohere-command-a chat-completion - Entrada: texto (131.072 tokens)
- Saída: texto (8.182 tokens)
- Idiomas:en, fr, es, , it, de, pt-br, ja, ko, , zh-cne ar
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON
- Padrão global (todas as regiões)
embed-v-4-0 Embeddings - Entrada: texto (512 tokens) e imagens (2MM pixels)
- Saída: Vetor (256, 512, 1024, 1536 dim.)
- Idiomas:en, fr, es, , it, de, pt-br, ja, ko, , zh-cne ar
- Padrão global (todas as regiões)

Modelos DeepSeek vendidos diretamente por Azure

A família de modelos DeepSeek inclui vários modelos de raciocínio, que se destacam em tarefas de raciocínio usando um processo de treinamento passo a passo, como linguagem, raciocínio científico e tarefas de codificação.

Modelo Tipo Capacidades Tipo de implantação (disponibilidade da região)
DeepSeek-V3.2-Speciale
Visualizar
chat-completion
(com conteúdo de raciocínio)
- Entrada: texto (128.000 tokens)
- Saída: texto (128.000 tokens)
- Idiomas:en E zh
- Chamada de ferramenta: Não
- Formatos de resposta: Texto, JSON
- Padrão global (todas as regiões)
DeepSeek-V3.2
Visualizar
chat-completion
(com conteúdo de raciocínio)
- Entrada: texto (128.000 tokens)
- Saída: texto (128.000 tokens)
- Idiomas:en E zh
- Chamada de ferramenta: Não
- Formatos de resposta: Texto, JSON
- Padrão global (todas as regiões)
DeepSeek-V3.1
Visualizar
chat-completion
(com conteúdo de raciocínio)
- Entrada: texto (131.072 tokens)
- Saída: texto (131.072 tokens)
- Idiomas:en E zh
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON
- Padrão global (todas as regiões)
DeepSeek-R1-0528
Visualizar
chat-completion
(com conteúdo de raciocínio)
- Entrada: texto (163.840 tokens)
- Saída: texto (163.840 tokens)
- Idiomas:en E zh
- Chamada de ferramenta: Não
- Formatos de resposta: Texto
- Padrão global (todas as regiões)
- Provisionado globalmente (todas as regiões)
DeepSeek-V3-0324
Visualizar
chat-completion - Entrada: texto (131.072 tokens)
- Saída: texto (131.072 tokens)
- Idiomas:en E zh
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON
- Padrão global (todas as regiões)
- Provisionado globalmente (todas as regiões)
DeepSeek-R1 chat-completion
(com conteúdo de raciocínio)
- Entrada: texto (163.840 tokens)
- Saída: texto (163.840 tokens)
- Idiomas:en E zh
- Chamada de ferramenta: Não
- Formatos de resposta: Texto
- Padrão global (todas as regiões)
- Provisionado globalmente (todas as regiões)

Meta modelos vendidos diretamente por Azure

Os modelos e ferramentas do Meta Llama são uma coleção de modelos de texto de IA e de imagem pré-treinados e ajustados. Intervalo de meta modelos em escala para incluir:

  • Modelos de linguagem pequenos (SLMs) como modelos base 1B e 3B e instrução para inferência no dispositivo e borda
  • LlMs (modelos de linguagem grande) de tamanho médio, como modelos de base e instrução de 7B, 8B e 70B
  • Modelos de alto desempenho, como o Meta Llama 3.1-405B Instrução para casos de uso de geração de dados sintéticos e destilação.
Modelo Tipo Capacidades Tipo de implantação (disponibilidade da região)
Llama-4-Maverick-17B-128E-Instruct-FP8
Visualizar
chat-completion - Entrada: texto e imagens (tokens de 1M)
- Saída: texto (tokens de 1M)
- Idiomas:ar, en, fr, , de, hi, id, it, pt, , es, tl, , e thvi
- Chamada de ferramenta: Não
- Formatos de resposta: Texto
- Padrão global (todas as regiões)
Llama-3.3-70B-Instruct
Visualizar
chat-completion - Entrada: texto (128.000 tokens)
- Saída: texto (8.192 tokens)
- Idiomas:en, de, fr, , it, pt, hi, ese th
- Chamada de ferramenta: Não
- Formatos de resposta: Texto
- Padrão global (todas as regiões)
- Provisionado globalmente (todas as regiões)

Vários modelos meta também estão disponíveis de parceiros e comunidade.

Microsoft modelos vendidos diretamente por Azure

Microsoft modelos incluem vários grupos de modelos, como Model Router, modelos MAI, modelos Phi, modelos de IA de serviços de saúde e muito mais. Vários modelos de Microsoft também estão disponíveis de parceiros e da comunidade.

Para trabalhar com modelos de geração MAI-Image-2e e MAI-Image-2 de geração de texto para imagem no Foundry, consulte Deploy e use modelos mai em Microsoft Foundry.

Modelo Tipo Capacidades Tipo de implantação (disponibilidade da região)
MAI-Image-2e
Visualizar
Texto para Imagem. Consulte o ponto de extremidade da API para obter detalhes. - Entrada: texto
- Saída: Uma imagem
- Comprimento do contexto: 32.000 tokens
- Chamada de ferramenta: Não
- Formatos de resposta: Imagem (PNG)
- Idiomas:en
- Principais recursos: Geração de texto para imagem de alta qualidade; síntese de imagem fotorealista com estrutura visual consistente; adequado para imagens de produto, visuais de marketing, ativos de marca e fluxos de trabalho criativos comerciais.
- Parâmetros:width, , heightprompt
Mínimo de 768×768 pixels; contagem total máxima de pixels 1.048.576 (equivalente a 1024×1024). Qualquer dimensão pode exceder 1024, desde que a contagem total de pixels permaneça dentro do limite (por exemplo, 768×1365).
- Padrão global (Centro-Oeste dos EUA, Leste dos EUA, Oeste dos EUA, Europa Ocidental, Suécia Central, Sul da Índia)
MAI-Image-2
Visualizar
Texto para Imagem. Consulte o ponto de extremidade da API para obter detalhes. - Entrada: texto
- Saída: Uma imagem
- Comprimento do contexto: 32.000 tokens
- Chamada de ferramenta: Não
- Formatos de resposta: Imagem (PNG)
- Idiomas:en
- Principais recursos: Geração de texto para imagem de alta qualidade; síntese de imagem fotorealista com estrutura visual consistente; adequado para imagens de produto, visuais de marketing, ativos de marca e fluxos de trabalho criativos comerciais.
- Parâmetros:width, , heightprompt
Mínimo de 768×768 pixels; contagem total máxima de pixels 1.048.576 (equivalente a 1024×1024). Qualquer dimensão pode exceder 1024, desde que a contagem total de pixels permaneça dentro do limite (por exemplo, 768×1365).
- Padrão global (Centro-Oeste dos EUA, Leste dos EUA, Oeste dos EUA, Europa Ocidental, Suécia Central, Sul da Índia)
model-router 1 chat-completion Mais detalhes na visão geral do roteador de modelo.
- Entrada: texto, imagem
- Saída: texto (o máximo de tokens de saída varia2)
Janela de contexto: 200.0003
- Idiomas:en
- Padrão global (Leste dos EUA 2, Suécia Central)
- Zona de Dados padrão4 (Leste dos EUA 2, Suécia Central)

1 Versãodo roteador de modelo2025-11-18. Versões anteriores (2025-08-07 e 2025-05-19) também estão disponíveis.

2Os tokens de saída máximos variam para modelos subjacentes no roteador de modelo. Por exemplo, 32.768 (GPT-4.1 series), 100.000 (o4-mini), 128.000 (gpt-5 reasoning models) e 16.384 (gpt-5-chat).

3Janelas de contexto maiores são compatíveis com alguns dos modelos subjacentes do Roteador de Modelo. Isso significa que uma chamada à API com um contexto maior só terá êxito se o prompt for roteado para um desses modelos. Caso contrário, a chamada falhará.

4 A cobrança para implantações de roteador de modelo Padrão de Zona de Dados começa antes de 1º de novembro de 2025.

Modelos mistral vendidos diretamente por Azure

Modelo Tipo Capacidades Tipo de implantação (disponibilidade da região)
mistral-document-ai-2512 Imagem em Texto - Entrada: páginas de imagem ou PDF (30 páginas, no máximo 30 MB de arquivo PDF)
- Saída: texto
- Idiomas:en
- Chamada de ferramenta: não
- Formatos de resposta: Texto, JSON, Markdown
- Padrão global (todas as regiões)
- Padrão de zona de dados (EUA e UE)
mistral-document-ai-2505
Visualizar
Imagem em Texto - Entrada: páginas de imagem ou PDF (30 páginas, no máximo 30 MB de arquivo PDF)
- Saída: texto
- Idiomas:en
- Chamada de ferramenta: não
- Formatos de resposta: Texto, JSON, Markdown
- Padrão global (todas as regiões)
- Padrão de zona de dados (EUA e UE)
Mistral-Large-3
Visualizar
chat-completion - Entrada: texto, imagem
- Saída: texto
- Idiomas:en, fr, de, , es, it, pt, nl, zh, , ja, , koe ar
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON
- Padrão global (todas as regiões)
- Padrão de zona de dados (EUA e UE)

Vários modelos mistral também estão disponíveis de parceiros e comunidade.

Modelos de IA moonshot vendidos diretamente por Azure

Os modelos de IA do Moonshot incluem Kimi K2.5 (versão prévia), um modelo de raciocínio multimodal que aceita entrada de texto e imagem.

Modelo Tipo Capacidades Tipo de implantação (disponibilidade da região)
Kimi-K2.5
Visualizar
chat-completion
(com conteúdo de raciocínio)
- Entrada: texto e imagem (262.144 tokens)
- Saída: texto (262.144 tokens)
- Idiomas:en E zh
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto
- Padrão global (todas as regiões)

Consulte esta coleção de modelos no portal do Foundry.

Modelos xAI vendidos diretamente por Azure

Os modelos Grok da xAI em Modelos de Fundimento incluem um conjunto diversificado de modelos de raciocínio e não raciocínio projetados para casos de uso corporativo, como extração de dados, codificação, resumo de texto e aplicativos agente.

O registro é necessário para acesso agrok-code-fast-1 (Versão prévia) e grok-4.

Modelo Tipo Capacidades Tipo de implantação (disponibilidade da região)
grok-4-20-reasoning
Visualizar
chat-completion - Entrada: texto (262.000 tokens)
- Saída: texto (8.192 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto
- Padrão global (todas as regiões)
grok-4-20-non-reasoning
Visualizar
chat-completion - Entrada: texto (262.000 tokens)
- Saída: texto (8.192 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto
- Padrão global (todas as regiões)
grok-4.1-fast-reasoning
Visualizar
chat-completion - Entrada: texto, imagem (128.000 tokens)
- Saída: texto (128.000 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto
- Padrão global (todas as regiões)
grok-4.1-fast-non-reasoning
Visualizar
chat-completion - Entrada: texto, imagem (128.000 tokens)
- Saída: texto (128.000 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto
- Padrão global (todas as regiões)
grok-4 chat-completion - Entrada: texto (262.000 tokens)
- Saída: texto (8.192 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto
- Padrão global (todas as regiões)
grok-code-fast-1
Visualizar
chat-completion - Entrada: texto (256.000 tokens)
- Saída: texto (8.192 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto
- Padrão global (todas as regiões)

Disponibilidade da região do modelo por tipo de implantação

O Foundry Models oferece opções para a estrutura de hospedagem que se ajusta aos seus padrões de negócios e de uso. O serviço oferece dois tipos principais de implantação:

  • Padrão: tem uma opção de implantação global, roteando o tráfego globalmente para fornecer uma taxa de transferência mais alta.
  • Provisionado: também tem uma opção de implantação global, permitindo que você compre e implante unidades de taxa de transferência provisionadas em Azure infraestrutura global.

Todas as implantações executam as mesmas operações de inferência, mas a cobrança, a escala e o desempenho diferem. Para obter mais informações sobre tipos de implantação, consulte Tipos de implantação em Modelos de Fundimento.

Disponibilidade do modelo Padrão Global

Região FLUX.2-flex FLUX.2-pro FLUX.1-Kontext-pro FLUX-1.1-pro Cohere-rerank-v4.0-pro Cohere-rerank-v4.0-fast cohere-command-a inserção-v-4-0 DeepSeek-V3.2-Speciale DeepSeek-V3.2 DeepSeek-V3.1 DeepSeek-R1-0528 DeepSeek-V3-0324 DeepSeek-R1 Llama-4-Maverick-17B-128E-Instruct-FP8 Llama-3.3-70B-Instruct MAI-Image-2 model-router mistral-document-ai-2512 mistral-document-ai-2505 Mistral-Large-3 Kimi-K2.5 grok-4-1-fast-reasoning grok-4-1-fast-non-reasoning grok-4-fast-reasoning grok-4-fast-non-reasoning grok-3 grok-3-mini
australiaeast - -
brazilsouth - -
canadacentral - -
canadaeast - -
centralus - -
eastus -
eastus2 -
francecentral - -
germanywestcentral - -
italynorth - -
japaneast - -
japanwest - -
koreacentral - -
northcentralus - -
norwayeast - -
polôniacentral - -
southafricanorth - -
southcentralus - -
southindia -
spaincentral - -
swedencentral
switzerlandnorth - -
switzerlandwest - -
uaenorth - -
uksouth - -
westcentralus -
westeurope -
westus -
westus2 - -
westus3 - -