Conceitos de modelo de chat habilitado para visão

2025-07-02

Os modelos de chat habilitados para visão são grandes modelos multimodais (LMM) desenvolvidos pela OpenAI que podem analisar imagens e fornecer respostas textuais a perguntas sobre elas. Eles incorporam o processamento de linguagem natural e a compreensão visual. Este guia fornece detalhes sobre suas capacidades e limitações. Para ver quais modelos suportam a entrada de imagem, consulte a página Modelos.

Para experimentar modelos de chat habilitados para visão, consulte o Guia de início rápido.

Bate-papos habilitados para visão

Os modelos habilitados para visão respondem a perguntas gerais sobre o que está presente nas imagens que você carrega.

Limitações de entrada

Esta seção descreve as limitações dos modelos de bate-papo habilitados para visão.

Suporte de imagem

Tamanho máximo da imagem de entrada: O tamanho máximo das imagens de entrada é restrito a 20 MB.
Precisão de baixa resolução: Quando as imagens são analisadas usando a configuração de "baixa resolução", ela permite respostas mais rápidas e usa menos tokens de entrada para certos casos de uso. No entanto, isso pode afetar a precisão do reconhecimento de objeto e texto na imagem.
Restrição de chat de imagem: quando você carrega imagens no portal do Azure AI Foundry ou na API, há um limite de 10 imagens por chamada de chat.

Informações especiais sobre preços

Importante

Os detalhes de preços estão sujeitos a alterações no futuro.

Os modelos habilitados para visão acumulam encargos como outros modelos de chat do Azure OpenAI. Você paga uma taxa por token para os prompts e conclusão, detalhados na página Preços. As taxas básicas e os recursos adicionais são descritos aqui:

O preço base do GPT-4 Turbo com Visão é:

Entrada: $0.01 por 1000 tokens
Saída: $0.03 por 1000 tokens

Consulte a seção Tokens da visão geral para obter informações sobre como texto e imagens se traduzem em tokens.

Exemplo de cálculo de preço de imagem

Importante

O conteúdo a seguir é apenas um exemplo, e os preços estão sujeitos a alterações no futuro.

Para um caso de uso típico, obtenha uma imagem com objetos visíveis e texto e uma entrada de prompt de 100 tokens. Quando o serviço processa o prompt, ele gera 100 tokens de saída. Na imagem, tanto o texto quanto os objetos podem ser detetados. O preço desta transação seria:

Iteme	Detalhes	Custo
Entrada de prompt de texto	100 fichas de texto	$0,001
Exemplo de entrada de imagem (consulte Tokens de imagem)	170 + 85 tokens de imagem	$0,00255
Recursos adicionais aprimorados para OCR	$1.50 / 1000 transações	$0,0015
Recursos adicionais aprimorados para o Aterramento de objetos	$1.50 / 1000 transações	$0,0015
Tokens de saída	100 tokens (assumidos)	$0,003
Total		$0,00955

Próximos passos

Comece a usar modelos habilitados para visão seguindo o guia de início rápido.
Para uma visão mais aprofundada das APIs, siga o guia de instruções.
Veja a referência da API de conclusão e incorporação