Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Os modelos de chat habilitados para visão são grandes modelos multimodais (LMM) desenvolvidos pela OpenAI que podem analisar imagens e fornecer respostas textuais a perguntas sobre elas. Eles incorporam o processamento de linguagem natural e a compreensão visual. Este guia fornece detalhes sobre suas capacidades e limitações. Para ver quais modelos suportam a entrada de imagem, consulte a página Modelos.
Para experimentar modelos de chat habilitados para visão, consulte o Guia de início rápido.
Bate-papos habilitados para visão
Os modelos habilitados para visão respondem a perguntas gerais sobre o que está presente nas imagens que você carrega.
Limitações de entrada
Esta seção descreve as limitações dos modelos de bate-papo habilitados para visão.
Suporte de imagem
- Tamanho máximo da imagem de entrada: O tamanho máximo das imagens de entrada é restrito a 20 MB.
- Precisão de baixa resolução: Quando as imagens são analisadas usando a configuração de "baixa resolução", ela permite respostas mais rápidas e usa menos tokens de entrada para certos casos de uso. No entanto, isso pode afetar a precisão do reconhecimento de objeto e texto na imagem.
- Restrição de chat de imagem: quando você carrega imagens no portal do Azure AI Foundry ou na API, há um limite de 10 imagens por chamada de chat.
Informações especiais sobre preços
Importante
Os detalhes de preços estão sujeitos a alterações no futuro.
Os modelos habilitados para visão acumulam encargos como outros modelos de chat do Azure OpenAI. Você paga uma taxa por token para os prompts e conclusão, detalhados na página Preços. As taxas básicas e os recursos adicionais são descritos aqui:
O preço base do GPT-4 Turbo com Visão é:
- Entrada: $0.01 por 1000 tokens
- Saída: $0.03 por 1000 tokens
Consulte a seção Tokens da visão geral para obter informações sobre como texto e imagens se traduzem em tokens.
Exemplo de cálculo de preço de imagem
Importante
O conteúdo a seguir é apenas um exemplo, e os preços estão sujeitos a alterações no futuro.
Para um caso de uso típico, obtenha uma imagem com objetos visíveis e texto e uma entrada de prompt de 100 tokens. Quando o serviço processa o prompt, ele gera 100 tokens de saída. Na imagem, tanto o texto quanto os objetos podem ser detetados. O preço desta transação seria:
Iteme | Detalhes | Custo |
---|---|---|
Entrada de prompt de texto | 100 fichas de texto | $0,001 |
Exemplo de entrada de imagem (consulte Tokens de imagem) | 170 + 85 tokens de imagem | $0,00255 |
Recursos adicionais aprimorados para OCR | $1.50 / 1000 transações | $0,0015 |
Recursos adicionais aprimorados para o Aterramento de objetos | $1.50 / 1000 transações | $0,0015 |
Tokens de saída | 100 tokens (assumidos) | $0,003 |
Total | $0,00955 |
Próximos passos
- Comece a usar modelos habilitados para visão seguindo o guia de início rápido.
- Para uma visão mais aprofundada das APIs, siga o guia de instruções.
- Veja a referência da API de conclusão e incorporação