Compartilhar via


Conceitos do GPT-4 Turbo com Visão

O GPT-4 Turbo with Vision é um grande modelo multimodal (LMM) desenvolvido pela OpenAI que pode analisar imagens e fornecer respostas textuais a perguntas sobre elas. Ele incorpora o processamento de linguagem natural e a compreensão visual. Esse guia fornece detalhes sobre as funcionalidades e limitações do GPT-4 Turbo com Visão.

Para experimentar o GPT-4 Turbo com Visão, confira o início rápido.

Chats com visão

O modelo GPT-4 Turbo com Visão responde a perguntas de caráter geral sobre o que está presente nas imagens ou vídeos que você carregar.

Aprimoramentos

Os aprimoramentos permitem que você incorpore outros serviços de IA do Azure (como a Visão de IA do Azure) para adicionar novas funcionalidades à experiência de chat com visão.

Ancoragem de objetos: a Visão de IA do Azure complementa a resposta de texto do GPT-4 Turbo com Visão identificando e localizando objetos que se destacam nas imagens inseridas. Isso permite que o modelo de chat forneça respostas mais precisas e detalhadas sobre o conteúdo da imagem.

Importante

Para usar o aprimoramento da Visão, você precisa de um recurso de Pesquisa Visual Computacional. Ele precisa estar na camada paga (S1) e na mesma região do Azure que o GPT-4 Turbo com recurso de Visão.

Captura de tela de uma imagem com aterramento de objeto aplicado. Os objetos têm caixas delimitadoras com rótulos.

Captura de tela de uma resposta de chat a um prompt de imagem sobre uma roupa. A resposta é uma lista detalhada de itens de vestuário vistos na imagem.

Reconhecimento Óptico de Caracteres (OCR): a Visão de IA do Azure complementa o GPT-4 Turbo com Visão fornecendo resultados de OCR de alta qualidade como uma informação complementar para o modelo de chat. O recurso permite que o modelo produza respostas de maior qualidade para imagens com texto denso, imagens transformadas e documentos financeiros com uso intenso de números, além de aumentar a variedade de idiomas que o modelo pode reconhecer no texto.

Importante

Para usar o aprimoramento da Visão, você precisa de um recurso de Pesquisa Visual Computacional. Ele precisa estar na camada paga (S1) e na mesma região do Azure que o GPT-4 Turbo com recurso de Visão.

Foto de vários recibos.

Captura de tela da resposta JSON de uma chamada OCR.

Prompt com vídeo: o aprimoramento prompt com vídeo permite que você use clipes de vídeo como inserções no chat de IA, habilitando o modelo a gerar resumos e respostas sobre o conteúdo do vídeo. O recurso usa a Recuperação de Vídeo da Visão de IA do Azure para extrair amostras de um conjunto de quadros de um vídeo e criar uma transcrição de fala no vídeo.

Observação

Para usar o aprimoramento do prompt de vídeo, você precisa ter um recurso da Visão de IA do Azure e o seu recurso do OpenAI do Azure na camada paga (S1).

Informações sobre preços especiais

Importante

Os detalhes de preços estão sujeitos a alterações no futuro.

O GPT-4 Turbo com Visão soma as cobranças como os outros modelos de chat do OpenAI do Azure. Você paga uma tarifa por token para os prompts e preenchimentos, conforme detalhado na página Preços. As cobranças básicas e os recursos adicionais estão descritos abaixo:

O preço base do GPT-4 Turbo com Visão é:

  • Entrada: $0,01 por 1000 tokens
  • Saída: $0,03 por 1000 tokens

Confira a seção Tokens da visão geral para obter informações sobre como o texto e as imagens se traduzem em tokens.

Se ativar aprimoramentos, o uso adicional se aplica ao uso do GPT-4 Turbo com a Visão com a funcionalidade da Visão de IA do Azure.

Modelar Price
+ Recursos avançados de complemento para OCR US$ 1,5 por 1.000 transações
+ Recursos avançados de complemento para Detecção de Objetos US$ 1,5 por 1.000 transações
+ Recurso avançados de complemento para a integração “Recuperação de Vídeo” 1 Ingestão: $0,05 por minuto de vídeo
Transações: $0,25 por 1000 consultas do índice de Recuperação de Vídeo

1 O processamento de vídeos envolve o uso de tokens adicionais para identificar os quadros importantes para a análise. O número desses tokens adicionais será aproximadamente equivalente à soma dos tokens na inserção de texto mais 700 tokens.

Exemplo de cálculo de preço de imagem

Importante

O conteúdo a seguir é apenas um exemplo e os preços estão sujeitos a alterações no futuro.

Para um caso de uso típico, use uma imagem com objetos visíveis e texto e uma entrada de prompt de 100 tokens. Quando o serviço processa o prompt, ele gera 100 tokens de saída. Na imagem, texto e objetos podem ser detectados. O preço dessa transação seria:

Item Detalhe Custo
Entrada de prompt de texto 100 tokens de texto US$ 0,001
Entrada de imagem de exemplo (consulte tokens de imagem) 170 + 85 tokens de imagem $0.00255
Recursos avançados de complemento para OCR US$ 1,50/1.000 transações US$ 0,0015
Recursos avançados de complemento para Aterramento de Objeto US$ 1,50/1.000 transações US$ 0,0015
Tokens de saída 100 tokens (presumido) $ 0,003
Total $0.00955

Exemplo de cálculo de preço de vídeo

Importante

O conteúdo a seguir é apenas um exemplo e os preços estão sujeitos a alterações no futuro.

Para um caso de uso típico, considere um vídeo de 3 minutos com uma inserção de prompt com 100 tokens. O vídeo tem uma transcrição com 100 tokens de comprimento e, quando processa o prompt, o serviço gera 100 tokens de resultado. O preço dessa transação seria:

Item Detalhe Custo
Tokens da inserção do GPT-4 Turbo com Visão 100 tokens de texto US$ 0,001
Custo Adicional para identificar quadros 100 tokens da inserção + 700 tokens + 1 transação de Recuperação de Vídeo $0,00825
Entradas de imagem e entrada de transcrição 20 imagens (85 tokens cada) + 100 tokens de transcrição $ 0,018
Tokens de saída 100 tokens (presumido) $ 0,003
Total $0,03025

Além disso, há um custo de indexação único de US$ 0,15 para gerar o índice da Recuperação de Vídeo para esse segmento de vídeo de 3 minutos. Esse índice pode ser reutilizado em qualquer quantidade de chamadas a API com Recuperações de Vídeo e GPT-4 Turbo com Visão.

Limitações

Essa seção descreve as limitações do GPT-4 Turbo com Visão.

Suporte à imagem

  • Limitação nos aprimoramentos de imagem por sessão de chat: os aprimoramentos não podem ser aplicados a várias imagens em uma única chamada de chat.
  • Tamanho máximo da imagem de entrada: o tamanho máximo para imagens de entrada é restrito a 20 MB.
  • Aterramento de objeto na API de aprimoramento: quando a API de aprimoramento é usada para aterramento de objetos e o modelo detecta duplicatas de um objeto, ele gerará uma caixa delimitadora e um rótulo para todas as duplicatas em vez de separadas para cada um.
  • Precisão de baixa resolução: quando as imagens são analisadas usando a configuração de "baixa resolução", ela permite respostas mais rápidas e usa menos tokens de entrada para determinados casos de uso. No entanto, isso pode afetar a precisão do reconhecimento de objeto e texto dentro da imagem.
  • Restrição de chats de imagem: quando você carrega imagens no Estúdio do OpenAI do Azure ou na API, temos um limite de 10 imagens por chamada de chat.

Suporte a vídeo

  • Baixa resolução: os quadros de vídeo são analisados usando a configuração de “baixa resolução” do GPT-4 Turbo with Vision, o que pode afetar a precisão do reconhecimento de texto e objeto pequeno no vídeo.
  • Limites de arquivo de vídeo: há suporte para tipos de arquivo MP4 e MOV. No Estúdio do OpenAI do Azure, os vídeos devem ter menos de 3 minutos de duração. Quando você usa a API, não há essa limitação.
  • Limites de prompt: as solicitações de vídeo contêm apenas um vídeo e nenhuma imagem. No Estúdio do OpenAI do Azure, você pode limpar a sessão para experimentar outro vídeo ou outras imagens.
  • Seleção de quadro limitada: o serviço seleciona 20 quadros de todo o vídeo, o que pode não capturar todos os momentos críticos ou detalhes. A seleção de quadros pode ser distribuída uniformemente por meio do vídeo ou focada por uma consulta de recuperação de vídeo específica, dependendo do prompt.
  • Suporte ao idioma: o serviço dá suporte principalmente ao inglês para aterramento com transcrições. As transcrições não fornecem informações precisas sobre letras em músicas.

Próximas etapas