Compartir a través de


Inicio rápido: Introducción al uso de GPT-4 Turbo con Vision en sus imágenes y vídeos en Azure AI Studio

Importante

Los elementos marcados (versión preliminar) en este artículo se encuentran actualmente en versión preliminar pública. Esta versión preliminar se ofrece sin acuerdo de nivel de servicio y no se recomienda para las cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas. Para más información, consulte Términos de uso complementarios de las Versiones Preliminares de Microsoft Azure.

Use este artículo para empezar a usar Azure AI Studio para implementar y probar el modelo GPT-4 Turbo con Vision.

GPT-4 Turbo con Vision y Azure AI Vision ofrecen funcionalidad avanzada, entre las que se incluyen:

  • Reconocimiento óptico de caracteres (OCR): extrae texto de las imágenes y lo combina con el mensaje y la imagen del usuario para expandir el contexto.
  • Contextualización de objetos: complementa la respuesta de texto de GPT-4 Turbo con Vision con la contextualización de objetos y describe objetos destacados en las imágenes de entrada.
  • Avisos de vídeo: GPT-4 Turbo con Vision puede responder preguntas recuperando los fotogramas de vídeo más relevantes para el aviso del usuario.

Es posible que se apliquen tarifas de uso adicionales cuando use la funcionalidad GPT-4 Turbo con Vision y Azure AI Vision.

Requisitos previos

Preparación de los medios

Necesita una imagen para seguir los inicios rápidos de la imagen. Puede usar la imagen de muestra o cualquier otra imagen que tenga disponible.

Foto de un accidente de automóvil que se puede usar para completar el inicio rápido.

En el caso de las solicitudes de vídeo, necesita un vídeo que dure menos de tres minutos.

Implementación de un modelo GPT-4 Turbo con Visión

  1. Inicie sesión en Inteligencia artificial de Azure Studio y seleccione el centro en el que quiere trabajar.
  2. En el menú de navegación izquierdo, seleccione Servicios de IA. Seleccione el panel Probar GPT-4 Turbo.
  3. En la página gpt-4, seleccione Implementar. En la ventana que aparece, seleccione el recurso de Azure OpenAI. Seleccione vision-preview como versión del modelo.
  4. Seleccione Implementar.
  5. A continuación, vaya a la página del nuevo modelo y seleccione Abrir en el área de juegos. En el área de juegos del chat, la implementación de GPT-4 que creó debe seleccionarse en la lista desplegable Implementación.

En esta sesión de chat se indica al asistente que ayude a comprender las imágenes que introduce.

  1. En el cuadro de texto Mensaje del sistema de la pestaña Mensaje del sistema, proporcione esta solicitud para guiar al asistente: "You're an AI assistant that helps people find information." Puede adaptar la solicitud a su imagen o escenario.
  2. Seleccione Aplicar cambios para guardar los cambios.
  3. En el panel de sesión de chat, seleccione el botón de datos adjuntos y, a continuación, Cargar imagen. Elija su imagen.
  4. Agregue la siguiente pregunta al campo de chat: "Describe this image" y, a continuación, seleccione el icono de la flecha a la derecha que desea enviar.
  5. El icono de flecha derecha se reemplaza por un botón Detener. Si lo selecciona, el asistente deja de procesar la solicitud. En este inicio rápido, deje que el asistente finalice su respuesta.
  6. El asistente responde con una descripción de la imagen.
  7. Haga una pregunta de seguimiento relacionada con el análisis de la imagen. Puede escribir, "What should I highlight about this image to my insurance company?".
  8. Debería recibir una respuesta relevante similar a la que se muestra aquí:
    When reporting the incident to your insurance company, you should highlight the following key points from the image:  
    
    1. **Location of Damage**: Clearly state that the front end of the car, particularly the driver's side, is damaged. Mention the crumpled hood, broken front bumper, and the damaged left headlight.  
    
    2. **Point of Impact**: Indicate that the car has collided with a guardrail, which may suggest that no other vehicles were involved in the accident.  
    
    3. **Condition of the Car**: Note that the damage seems to be concentrated on the front end, and there is no visible damage to the windshield or rear of the car from this perspective.  
    
    4. **License Plate Visibility**: Mention that the license plate is intact and can be used for identification purposes.  
    
    5. **Environment**: Report that the accident occurred near a roadside with a guardrail, possibly in a rural or semi-rural area, which might help in establishing the accident location and context.  
    
    6. **Other Observations**: If there were any other circumstances or details not visible in the image that may have contributed to the accident, such as weather conditions, road conditions, or any other relevant information, be sure to include those as well.  
    
    Remember to be factual and descriptive, avoiding speculation about the cause of the accident, as the insurance company will conduct its own investigation.
    

Visualización y exportación de código

En cualquier momento de la sesión de chat, puede habilitar el modificador Mostrar JSON sin formato de la parte superior de la ventana de chat para ver la conversación con formato JSON. Este es el aspecto al principio de la sesión de chat de inicio rápido:

[
	{
		"role": "system",
		"content": [
			"You are an AI assistant that helps people find information."
		]
	},
]

Limpieza de recursos

Para evitar incurrir en costes innecesarios de Azure, debe eliminar los recursos que creó en este inicio rápido si ya no son necesarios. Para administrar recursos, puede usar Azure Portal.

Pasos siguientes