Conceptos de GPT-4 Turbo con Visión

Artículo
09/27/2024

GPT-4 Turbo con Visión es un modelo multimodal grande (LMM) desarrollado por OpenAI que puede analizar imágenes y proporcionar respuestas textuales a preguntas sobre ellas. Incorpora tanto el procesamiento del lenguaje natural como la comprensión visual. En esta guía se proporcionan detalles sobre las funcionalidades y limitaciones de GPT-4 Turbo con Visión.

Para probar GPT-4 Turbo con Visión, consulte el inicio rápido.

Chats con Visión

El modelo GPT-4 Turbo con Visión responde preguntas generales sobre lo que hay presente en las imágenes o vídeos que se carguen.

Información sobre precios especiales

Importante

Los detalles de precios están sujetos a cambios en el futuro.

GPT-4 Turbo con Visión acumula cargos como otros modelos de chat de Azure OpenAI. Se paga una tarifa por token para las solicitudes y finalizaciones, que se puede ver de forma detallada en la página Precios. Los cargos base y las características adicionales se describen aquí:

El precio base para GPT-4 Turbo con Visión es:

Entrada: 0,01 USD por 1 000 tokens
Salida: 0,03 USD por 1 000 tokens

Consulte la sección Tokens de la información general para obtener más información sobre cómo se traducen texto e imágenes a tokens.

Cálculo de precios de imagen de ejemplo

Importante

El siguiente contenido es solo un ejemplo y los precios están sujetos a cambios en el futuro.

Para un caso de uso típico, tome una imagen con objetos visibles y texto y una entrada de aviso de 100 tokens. Cuando el servicio procesa el mensaje, genera 100 tokens de salida. En la imagen, se pueden detectar texto y objetos. El precio de esta transacción sería:

Elemento	Detalle	Costos
Entrada de mensaje de texto	100 tokens de texto	0,001 USD
Entrada de imagen de ejemplo (consulte Tokens de imagen)	170 + 85 tokens de imagen	0,00255 USD
Características de complemento mejoradas para OCR	1,50 USD / 1000 transacciones	0,0015 USD
Características mejoradas del complemento para la puesta en tierra de objetos	1,50 USD / 1000 transacciones	0,0015 USD
Tokens de salida	100 tokens (supuestos)	0,003 USD
Total		0,00955 USD

Cálculo de precios de vídeo de ejemplo

Importante

El siguiente contenido es solo un ejemplo y los precios están sujetos a cambios en el futuro.

Para un caso de uso típico, haga un vídeo de 3 minutos con una entrada de solicitud de 100 tokens. El vídeo tiene una transcripción de 100 tokens de longitud y, cuando el servicio procesa el mensaje, se generan 100 tokens de salida. Los precios de esta transacción serían:

Elemento	Detalle	Costos
Tokens de entrada de GPT-4 Turbo con Visión	100 tokens de texto	0,001 USD
Costo adicional para identificar fotogramas	Transacción de 100 tokens de entrada + 700 tokens + 1 recuperación de vídeo	0,00825 USD
Entradas de imagen y entrada de transcripción	20 imágenes (85 tokens cada una) + 100 tokens de transcripción	0,018 USD
Tokens de salida	100 tokens (supuestos)	0,003 USD
Total		0,03025 USD

Además, hay un coste de indexación de un solo uso de 0,15 USD para generar el índice de recuperación de vídeo para este vídeo de 3 minutos. Este índice puede reutilizarse en cualquier número de llamadas API de recuperación de vídeo y GPT-4 Turbo con Visión.

Limitaciones de entrada

En esta sección se describen las limitaciones de GPT-4 Turbo con Visión.

Compatibilidad de imágenes

Tamaño máximo de imagen de entrada: el tamaño máximo de las imágenes de entrada está restringido a 20 MB.
Precisión de baja resolución: cuando las imágenes se analizan utilizando la configuración de "baja resolución", permite respuestas más rápidas y utiliza menos tokens de entrada para ciertos casos de uso. Sin embargo, esto podría afectar a la precisión del reconocimiento de objetos y texto dentro de la imagen.
Restricción de chat de imágenes: al cargar imágenes en Azure OpenAI Studio o en la API, hay un límite de 10 imágenes por llamada de chat.

Compatibilidad con vídeos

Baja resolución: los fotogramas de vídeo se analizan utilizando GPT-4 Turbo con la configuración de "baja resolución" de Visión, lo que puede afectar la precisión del reconocimiento de texto y objetos pequeños en el vídeo.
Límites de archivos de vídeo: se admiten los tipos de archivo MP4 y MOV. En Azure OpenAI Studio, los vídeos deben durar menos de 3 minutos. Cuando se usa la API, no hay ninguna limitación de este tipo.
Límites de avisos: los mensajes de vídeo solo contienen un vídeo y ninguna imagen. En Azure OpenAI Studio, es posible borrar la sesión para probar otro vídeo o imágenes.
Selección de fotogramas limitada: el servicio selecciona 20 fotogramas de todo el vídeo, lo que puede no capturar todos los momentos o detalles críticos. La selección de fotogramas puede distribuirse aproximadamente uniformemente a lo largo del vídeo o centrarse mediante una consulta de recuperación de vídeo específica, según el mensaje.
Compatibilidad con idiomas: el servicio admite principalmente el inglés para la base con las transcripciones. Las transcripciones no proporcionan información precisa sobre las letras de las canciones.

Pasos siguientes

Para empezar a usar GPT-4 Turbo con Visión, siga el inicio rápido.
Para obtener una visión más detallada sobre las API y usar solicitudes de vídeo en el chat, siga la guía paso a paso.
Consulte las referencia de API de finalizaciones e incrustaciones

Compartir a través de

Conceptos de GPT-4 Turbo con Visión

Chats con Visión

Información sobre precios especiales

Cálculo de precios de imagen de ejemplo

Cálculo de precios de vídeo de ejemplo

Limitaciones de entrada

Compatibilidad de imágenes

Compatibilidad con vídeos

Pasos siguientes

Comentarios

Recursos adicionales