Conceitos GPT-4 Turbo com Visão

Artigo
09/26/2024

GPT-4 Turbo with Vision é um grande modelo multimodal (LMM) desenvolvido pela OpenAI que pode analisar imagens e fornecer respostas textuais a perguntas sobre elas. Incorpora processamento de linguagem natural e compreensão visual. Este guia fornece detalhes sobre as capacidades e limitações do GPT-4 Turbo com Visão.

Para experimentar o GPT-4 Turbo com Vision, consulte o início rápido.

Conversas com visão

O modelo GPT-4 Turbo com Visão responde a perguntas gerais sobre o que está presente nas imagens ou vídeos que carrega.

Informações especiais sobre preços

Importante

Os detalhes de preços estão sujeitos a alterações no futuro.

O GPT-4 Turbo com Visão acumula encargos como outros modelos de chat do Azure OpenAI. Você paga uma taxa por token para os prompts e conclusão, detalhados na página Preços. As taxas básicas e os recursos adicionais são descritos aqui:

O preço base do GPT-4 Turbo com Visão é:

Entrada: $0.01 por 1000 tokens
Saída: $0.03 por 1000 tokens

Consulte a seção Tokens da visão geral para obter informações sobre como texto e imagens se traduzem em tokens.

Exemplo de cálculo de preço de imagem

Importante

O conteúdo a seguir é apenas um exemplo, e os preços estão sujeitos a alterações no futuro.

Para um caso de uso típico, obtenha uma imagem com objetos visíveis e texto e uma entrada de prompt de 100 tokens. Quando o serviço processa o prompt, ele gera 100 tokens de saída. Na imagem, tanto o texto quanto os objetos podem ser detetados. O preço desta transação seria:

Item	Detalhe	Custo
Entrada de prompt de texto	100 fichas de texto	$0,001
Exemplo de entrada de imagem (consulte Tokens de imagem)	170 + 85 tokens de imagem	$0,00255
Recursos adicionais aprimorados para OCR	$1.50 / 1000 transações	$0,0015
Recursos adicionais aprimorados para o Aterramento de objetos	$1.50 / 1000 transações	$0,0015
Tokens de saída	100 tokens (assumidos)	$0,003
Total		$0,00955

Exemplo de cálculo de preço de vídeo

Importante

O conteúdo a seguir é apenas um exemplo, e os preços estão sujeitos a alterações no futuro.

Para um caso de uso típico, faça um vídeo de 3 minutos com uma entrada de prompt de 100 tokens. O vídeo tem uma transcrição de 100 tokens e, quando o serviço processa o prompt, gera 100 tokens de saída. O preço para esta transação seria:

Item	Detalhe	Custo
GPT-4 Turbo com tokens de entrada Vision	100 fichas de texto	$0,001
Custo adicional para identificar quadros	100 tokens de entrada + 700 tokens + 1 transação de recuperação de vídeo	$0,00825
Entradas de imagem e entrada de transcrição	20 imagens (85 tokens cada) + 100 tokens de transcrição	$0,018
Tokens de saída	100 tokens (assumidos)	$0,003
Total		$0,03025

Além disso, há um custo de indexação único de US$ 0,15 para gerar o índice de recuperação de vídeo para este vídeo de 3 minutos. Este índice pode ser reutilizado em qualquer número de chamadas de recuperação de vídeo e GPT-4 Turbo com API Vision.

Limitações de entrada

Esta seção descreve as limitações do GPT-4 Turbo com Visão.

Suporte de imagem

Tamanho máximo da imagem de entrada: O tamanho máximo das imagens de entrada é restrito a 20 MB.
Precisão de baixa resolução: Quando as imagens são analisadas usando a configuração de "baixa resolução", ela permite respostas mais rápidas e usa menos tokens de entrada para certos casos de uso. No entanto, isso pode afetar a precisão do reconhecimento de objeto e texto na imagem.
Restrição de bate-papo de imagem: quando você carrega imagens no Azure AI Studio ou na API, há um limite de 10 imagens por chamada de bate-papo.

Suporte de vídeo

Baixa resolução: Os quadros de vídeo são analisados usando GPT-4 Turbo com a configuração de "baixa resolução" do Vision, o que pode afetar a precisão do reconhecimento de pequenos objetos e texto no vídeo.
Limites de arquivos de vídeo: Os tipos de arquivo MP4 e MOV são suportados. No Azure AI Studio, os vídeos devem ter menos de 3 minutos de duração. Quando você usa a API, não há essa limitação.
Limites de prompt: os prompts de vídeo contêm apenas um vídeo e nenhuma imagem. No Azure AI Studio, você pode limpar a sessão para tentar outro vídeo ou imagens.
Seleção limitada de quadros: o serviço seleciona 20 quadros de todo o vídeo, que podem não capturar todos os momentos críticos ou detalhes. A seleção de quadros pode ser distribuída aproximadamente uniformemente pelo vídeo ou focada por uma consulta específica de recuperação de vídeo, dependendo do prompt.
Suporte linguístico: O serviço suporta principalmente o inglês para fundamentação com transcrições. As transcrições não fornecem informações precisas sobre as letras das músicas.

Próximos passos

Comece a usar o GPT-4 Turbo com Visão seguindo o início rápido.
Para uma visão mais aprofundada das APIs e para usar prompts de vídeo no bate-papo, siga o guia de instruções.
Veja a referência da API de conclusão e incorporação

Partilhar via

Conceitos GPT-4 Turbo com Visão

Conversas com visão

Informações especiais sobre preços

Exemplo de cálculo de preço de imagem

Exemplo de cálculo de preço de vídeo

Limitações de entrada

Suporte de imagem

Suporte de vídeo

Próximos passos

Comentários

Recursos adicionais