Partilhar via


Conceitos GPT-4 Turbo com Visão

GPT-4 Turbo with Vision é um grande modelo multimodal (LMM) desenvolvido pela OpenAI que pode analisar imagens e fornecer respostas textuais a perguntas sobre elas. Incorpora processamento de linguagem natural e compreensão visual. Este guia fornece detalhes sobre as capacidades e limitações do GPT-4 Turbo com Visão.

Para experimentar o GPT-4 Turbo com Vision, consulte o início rápido.

Conversas com visão

O modelo GPT-4 Turbo com Visão responde a perguntas gerais sobre o que está presente nas imagens ou vídeos que carrega.

Informações especiais sobre preços

Importante

Os detalhes de preços estão sujeitos a alterações no futuro.

O GPT-4 Turbo com Visão acumula encargos como outros modelos de chat do Azure OpenAI. Você paga uma taxa por token para os prompts e conclusão, detalhados na página Preços. As taxas básicas e os recursos adicionais são descritos aqui:

O preço base do GPT-4 Turbo com Visão é:

  • Entrada: $0.01 por 1000 tokens
  • Saída: $0.03 por 1000 tokens

Consulte a seção Tokens da visão geral para obter informações sobre como texto e imagens se traduzem em tokens.

Exemplo de cálculo de preço de imagem

Importante

O conteúdo a seguir é apenas um exemplo, e os preços estão sujeitos a alterações no futuro.

Para um caso de uso típico, obtenha uma imagem com objetos visíveis e texto e uma entrada de prompt de 100 tokens. Quando o serviço processa o prompt, ele gera 100 tokens de saída. Na imagem, tanto o texto quanto os objetos podem ser detetados. O preço desta transação seria:

Item Detalhe Custo
Entrada de prompt de texto 100 fichas de texto $0,001
Exemplo de entrada de imagem (consulte Tokens de imagem) 170 + 85 tokens de imagem $0,00255
Recursos adicionais aprimorados para OCR $1.50 / 1000 transações $0,0015
Recursos adicionais aprimorados para o Aterramento de objetos $1.50 / 1000 transações $0,0015
Tokens de saída 100 tokens (assumidos) $0,003
Total $0,00955

Exemplo de cálculo de preço de vídeo

Importante

O conteúdo a seguir é apenas um exemplo, e os preços estão sujeitos a alterações no futuro.

Para um caso de uso típico, faça um vídeo de 3 minutos com uma entrada de prompt de 100 tokens. O vídeo tem uma transcrição de 100 tokens e, quando o serviço processa o prompt, gera 100 tokens de saída. O preço para esta transação seria:

Item Detalhe Custo
GPT-4 Turbo com tokens de entrada Vision 100 fichas de texto $0,001
Custo adicional para identificar quadros 100 tokens de entrada + 700 tokens + 1 transação de recuperação de vídeo $0,00825
Entradas de imagem e entrada de transcrição 20 imagens (85 tokens cada) + 100 tokens de transcrição $0,018
Tokens de saída 100 tokens (assumidos) $0,003
Total $0,03025

Além disso, há um custo de indexação único de US$ 0,15 para gerar o índice de recuperação de vídeo para este vídeo de 3 minutos. Este índice pode ser reutilizado em qualquer número de chamadas de recuperação de vídeo e GPT-4 Turbo com API Vision.

Limitações de entrada

Esta seção descreve as limitações do GPT-4 Turbo com Visão.

Suporte de imagem

  • Tamanho máximo da imagem de entrada: O tamanho máximo das imagens de entrada é restrito a 20 MB.
  • Precisão de baixa resolução: Quando as imagens são analisadas usando a configuração de "baixa resolução", ela permite respostas mais rápidas e usa menos tokens de entrada para certos casos de uso. No entanto, isso pode afetar a precisão do reconhecimento de objeto e texto na imagem.
  • Restrição de bate-papo de imagem: quando você carrega imagens no Azure AI Studio ou na API, há um limite de 10 imagens por chamada de bate-papo.

Suporte de vídeo

  • Baixa resolução: Os quadros de vídeo são analisados usando GPT-4 Turbo com a configuração de "baixa resolução" do Vision, o que pode afetar a precisão do reconhecimento de pequenos objetos e texto no vídeo.
  • Limites de arquivos de vídeo: Os tipos de arquivo MP4 e MOV são suportados. No Azure AI Studio, os vídeos devem ter menos de 3 minutos de duração. Quando você usa a API, não há essa limitação.
  • Limites de prompt: os prompts de vídeo contêm apenas um vídeo e nenhuma imagem. No Azure AI Studio, você pode limpar a sessão para tentar outro vídeo ou imagens.
  • Seleção limitada de quadros: o serviço seleciona 20 quadros de todo o vídeo, que podem não capturar todos os momentos críticos ou detalhes. A seleção de quadros pode ser distribuída aproximadamente uniformemente pelo vídeo ou focada por uma consulta específica de recuperação de vídeo, dependendo do prompt.
  • Suporte linguístico: O serviço suporta principalmente o inglês para fundamentação com transcrições. As transcrições não fornecem informações precisas sobre as letras das músicas.

Próximos passos

  • Comece a usar o GPT-4 Turbo com Visão seguindo o início rápido.
  • Para uma visão mais aprofundada das APIs e para usar prompts de vídeo no bate-papo, siga o guia de instruções.
  • Veja a referência da API de conclusão e incorporação