Conceitos GPT-4 Turbo com Visão
GPT-4 Turbo with Vision é um grande modelo multimodal (LMM) desenvolvido pela OpenAI que pode analisar imagens e fornecer respostas textuais a perguntas sobre elas. Incorpora processamento de linguagem natural e compreensão visual. Este guia fornece detalhes sobre as capacidades e limitações do GPT-4 Turbo com Visão.
Para experimentar o GPT-4 Turbo com Vision, consulte o início rápido.
Conversas com visão
O modelo GPT-4 Turbo com Visão responde a perguntas gerais sobre o que está presente nas imagens ou vídeos que carrega.
Informações especiais sobre preços
Importante
Os detalhes de preços estão sujeitos a alterações no futuro.
O GPT-4 Turbo com Visão acumula encargos como outros modelos de chat do Azure OpenAI. Você paga uma taxa por token para os prompts e conclusão, detalhados na página Preços. As taxas básicas e os recursos adicionais são descritos aqui:
O preço base do GPT-4 Turbo com Visão é:
- Entrada: $0.01 por 1000 tokens
- Saída: $0.03 por 1000 tokens
Consulte a seção Tokens da visão geral para obter informações sobre como texto e imagens se traduzem em tokens.
Exemplo de cálculo de preço de imagem
Importante
O conteúdo a seguir é apenas um exemplo, e os preços estão sujeitos a alterações no futuro.
Para um caso de uso típico, obtenha uma imagem com objetos visíveis e texto e uma entrada de prompt de 100 tokens. Quando o serviço processa o prompt, ele gera 100 tokens de saída. Na imagem, tanto o texto quanto os objetos podem ser detetados. O preço desta transação seria:
Item | Detalhe | Custo |
---|---|---|
Entrada de prompt de texto | 100 fichas de texto | $0,001 |
Exemplo de entrada de imagem (consulte Tokens de imagem) | 170 + 85 tokens de imagem | $0,00255 |
Recursos adicionais aprimorados para OCR | $1.50 / 1000 transações | $0,0015 |
Recursos adicionais aprimorados para o Aterramento de objetos | $1.50 / 1000 transações | $0,0015 |
Tokens de saída | 100 tokens (assumidos) | $0,003 |
Total | $0,00955 |
Exemplo de cálculo de preço de vídeo
Importante
O conteúdo a seguir é apenas um exemplo, e os preços estão sujeitos a alterações no futuro.
Para um caso de uso típico, faça um vídeo de 3 minutos com uma entrada de prompt de 100 tokens. O vídeo tem uma transcrição de 100 tokens e, quando o serviço processa o prompt, gera 100 tokens de saída. O preço para esta transação seria:
Item | Detalhe | Custo |
---|---|---|
GPT-4 Turbo com tokens de entrada Vision | 100 fichas de texto | $0,001 |
Custo adicional para identificar quadros | 100 tokens de entrada + 700 tokens + 1 transação de recuperação de vídeo | $0,00825 |
Entradas de imagem e entrada de transcrição | 20 imagens (85 tokens cada) + 100 tokens de transcrição | $0,018 |
Tokens de saída | 100 tokens (assumidos) | $0,003 |
Total | $0,03025 |
Além disso, há um custo de indexação único de US$ 0,15 para gerar o índice de recuperação de vídeo para este vídeo de 3 minutos. Este índice pode ser reutilizado em qualquer número de chamadas de recuperação de vídeo e GPT-4 Turbo com API Vision.
Limitações de entrada
Esta seção descreve as limitações do GPT-4 Turbo com Visão.
Suporte de imagem
- Tamanho máximo da imagem de entrada: O tamanho máximo das imagens de entrada é restrito a 20 MB.
- Precisão de baixa resolução: Quando as imagens são analisadas usando a configuração de "baixa resolução", ela permite respostas mais rápidas e usa menos tokens de entrada para certos casos de uso. No entanto, isso pode afetar a precisão do reconhecimento de objeto e texto na imagem.
- Restrição de bate-papo de imagem: quando você carrega imagens no Azure AI Studio ou na API, há um limite de 10 imagens por chamada de bate-papo.
Suporte de vídeo
- Baixa resolução: Os quadros de vídeo são analisados usando GPT-4 Turbo com a configuração de "baixa resolução" do Vision, o que pode afetar a precisão do reconhecimento de pequenos objetos e texto no vídeo.
- Limites de arquivos de vídeo: Os tipos de arquivo MP4 e MOV são suportados. No Azure AI Studio, os vídeos devem ter menos de 3 minutos de duração. Quando você usa a API, não há essa limitação.
- Limites de prompt: os prompts de vídeo contêm apenas um vídeo e nenhuma imagem. No Azure AI Studio, você pode limpar a sessão para tentar outro vídeo ou imagens.
- Seleção limitada de quadros: o serviço seleciona 20 quadros de todo o vídeo, que podem não capturar todos os momentos críticos ou detalhes. A seleção de quadros pode ser distribuída aproximadamente uniformemente pelo vídeo ou focada por uma consulta específica de recuperação de vídeo, dependendo do prompt.
- Suporte linguístico: O serviço suporta principalmente o inglês para fundamentação com transcrições. As transcrições não fornecem informações precisas sobre as letras das músicas.
Próximos passos
- Comece a usar o GPT-4 Turbo com Visão seguindo o início rápido.
- Para uma visão mais aprofundada das APIs e para usar prompts de vídeo no bate-papo, siga o guia de instruções.
- Veja a referência da API de conclusão e incorporação