Conceptos de GPT-4 Turbo con Visión

GPT-4 Turbo con Visión es un modelo multimodal grande (LMM) desarrollado por OpenAI que puede analizar imágenes y proporcionar respuestas textuales a preguntas sobre ellas. Incorpora tanto el procesamiento del lenguaje natural como la comprensión visual. En esta guía se proporcionan detalles sobre las funcionalidades y limitaciones de GPT-4 Turbo con Visión.

Para probar GPT-4 Turbo con Visión, consulte el inicio rápido.

Chats con Visión

El modelo GPT-4 Turbo con Visión responde preguntas generales sobre lo que hay presente en las imágenes o vídeos que se carguen.

Mejoras

Las mejoras permiten incorporar otros servicios de Azure AI (como Azure AI Vision) para agregar nuevas funcionalidades a la experiencia de chat con Visión.

Contextualización de objetos: Azure AI Vision complementa GPT-4 Turbo con la respuesta de texto de Visión mediante la identificación y la localización de objetos destacados en las imágenes de entrada. Esto permite que el modelo de chat proporcione respuestas más precisas y detalladas sobre el contenido de la imagen.

Importante

Para usar la mejora de Visión, se necesita un recurso de Computer Vision. Debe estar en el nivel de pago (S1) y en la misma región de Azure que el recurso GPT-4 Turbo con Visión.

Screenshot of an image with object grounding applied. Objects have bounding boxes with labels.

Screenshot of a chat response to an image prompt about an outfit. The response is an itemized list of clothing items seen in the image.

Reconocimiento óptico de caracteres (OCR): Visión de Azure AI complementa GPT-4 Turbo con Visión proporcionando resultados de OCR de alta calidad como información complementaria al modelo de chat. Permite al modelo generar respuestas de mayor calidad para las imágenes con texto denso, imágenes transformadas y documentos financieros con gran cantidad de números, y aumenta la variedad de idiomas que el modelo puede reconocer en el texto.

Importante

Para usar la mejora de Visión, se necesita un recurso de Computer Vision. Debe estar en el nivel de pago (S1) y en la misma región de Azure que el recurso GPT-4 Turbo con Visión.

Photo of several receipts.

Screenshot of the JSON response of an OCR call.

Solicitud de vídeo: la mejora en la solicitud de vídeo permite usar clips de vídeo como entrada para chats de IA, lo que permite al modelo generar resúmenes y respuestas sobre el contenido de vídeo. Usa la recuperación de vídeo de Visión de Azure AI para muestrear un conjunto de fotogramas de un vídeo y crear una transcripción de la voz en el vídeo.

Nota:

Para usar la mejora de la solicitud de vídeo, necesitaun recurso de Visión de Azure AI en el nivel de pago (S1), además de su recurso de Azure OpenAI.

Información sobre precios especiales

Importante

Los detalles de precios están sujetos a cambios en el futuro.

GPT-4 Turbo con Visión acumula cargos como otros modelos de chat de Azure OpenAI. Se paga una tarifa por token para las solicitudes y finalizaciones, que se puede ver de forma detallada en la página Precios. Los cargos base y las características adicionales se describen aquí:

El precio base para GPT-4 Turbo con Visión es:

  • Entrada: 0,01 USD por 1 000 tokens
  • Salida: 0,03 USD por 1 000 tokens

Consulte la sección Tokens de la información general para obtener más información sobre cómo se traducen texto e imágenes a tokens.

Si activa Mejoras, se aplica la utilización adicional para usar GPT-4 Turbo con Visión con la funcionalidad de Visión de Azure AI.

Modelo Precio
+ Características de complemento mejoradas para OCR 1,5 USD por 1000 transacciones
+ Características de complemento mejoradas para la detección de objetos 1,5 USD por 1000 transacciones
+ Característica de complemento mejorada para la inserción de imágenes de "Agregar su imagen" 1,5 USD por 1000 transacciones
+ Característica de complemento mejorada para la “integración de recuperación” de vídeo 1 Ingesta: 0,05 USD por minuto de vídeo
Transacciones: 0,25 USD por 1 000 consultas del índice de recuperación de vídeo

1 Vídeos de procesamiento implica el uso de tokens adicionales para identificar fotogramas clave para el análisis. El número de estos tokens adicionales será aproximadamente equivalente a la suma de los tokens de la entrada de texto, más 700 tokens.

Cálculo de precios de imagen de ejemplo

Importante

El siguiente contenido es solo un ejemplo y los precios están sujetos a cambios en el futuro.

Para un caso de uso típico, tome una imagen con objetos visibles y texto y una entrada de aviso de 100 tokens. Cuando el servicio procesa el mensaje, genera 100 tokens de salida. En la imagen, se pueden detectar texto y objetos. El precio de esta transacción sería:

Elemento Detalle Coste total
Tokens de entrada de GPT-4 Turbo con Visión 100 tokens de texto 0,001 USD
Características de complemento mejoradas para OCR 1,50 USD / 1000 transacciones 0,0015 USD
Características mejoradas del complemento para la puesta en tierra de objetos 1,50 USD / 1000 transacciones 0,0015 USD
Tokens de salida 100 tokens (supuestos) 0,003 USD
Costo total 0,007 $

Cálculo de precios de vídeo de ejemplo

Importante

El siguiente contenido es solo un ejemplo y los precios están sujetos a cambios en el futuro.

Para un caso de uso típico, haga un vídeo de 3 minutos con una entrada de solicitud de 100 tokens. El vídeo tiene una transcripción de 100 tokens de longitud y, cuando el servicio procesa el mensaje, se generan 100 tokens de salida. Los precios de esta transacción serían:

Elemento Detalle Coste total
Tokens de entrada de GPT-4 Turbo con Visión 100 tokens de texto 0,001 USD
Costo adicional para identificar fotogramas Transacción de 100 tokens de entrada + 700 tokens + 1 recuperación de vídeo 0,00825 USD
Entradas de imagen y entrada de transcripción 20 imágenes (85 tokens cada una) + 100 tokens de transcripción 0,018 USD
Tokens de salida 100 tokens (supuestos) 0,003 USD
Costo total 0,03025 USD

Además, hay un coste de indexación de un solo uso de 0,15 USD para generar el índice de recuperación de vídeo para este vídeo de 3 minutos. Este índice puede reutilizarse en cualquier número de llamadas API de recuperación de vídeo y GPT-4 Turbo con Visión.

Limitaciones

En esta sección se describen las limitaciones de GPT-4 Turbo con Visión.

Compatibilidad de imágenes

  • Limitación de las mejoras de imagen por sesión de chat: las mejoras no se pueden aplicar a varias imágenes dentro de una sola llamada de chat.
  • Tamaño máximo de imagen de entrada: el tamaño máximo de las imágenes de entrada está restringido a 20 MB.
  • Conexión a tierra de objetos en la API de mejora: cuando la API de mejora se utiliza para la conexión a tierra de objetos y el modelo detecta duplicados de un objeto, generará un cuadro delimitador y una etiqueta para todos los duplicados en lugar de cuadros separados para cada uno.
  • Precisión de baja resolución: cuando las imágenes se analizan utilizando la configuración de "baja resolución", permite respuestas más rápidas y utiliza menos tokens de entrada para ciertos casos de uso. Sin embargo, esto podría afectar a la precisión del reconocimiento de objetos y texto dentro de la imagen.
  • Restricción de chat de imágenes: al cargar imágenes en Azure OpenAI Studio o en la API, hay un límite de 10 imágenes por llamada de chat.

Compatibilidad con vídeos

  • Baja resolución: los fotogramas de vídeo se analizan utilizando GPT-4 Turbo con la configuración de "baja resolución" de Visión, lo que puede afectar la precisión del reconocimiento de texto y objetos pequeños en el vídeo.
  • Límites de archivos de vídeo: se admiten los tipos de archivo MP4 y MOV. En Azure OpenAI Studio, los vídeos deben durar menos de 3 minutos. Cuando se usa la API, no hay ninguna limitación de este tipo.
  • Límites de avisos: los mensajes de vídeo solo contienen un vídeo y ninguna imagen. En Azure OpenAI Studio, es posible borrar la sesión para probar otro vídeo o imágenes.
  • Selección de fotogramas limitada: el servicio selecciona 20 fotogramas de todo el vídeo, lo que puede no capturar todos los momentos o detalles críticos. La selección de fotogramas puede distribuirse aproximadamente uniformemente a lo largo del vídeo o centrarse mediante una consulta de recuperación de vídeo específica, según el mensaje.
  • Compatibilidad con idiomas: el servicio admite principalmente el inglés para la base con las transcripciones. Las transcripciones no proporcionan información precisa sobre las letras de las canciones.

Pasos siguientes