Técnicas de ingeniería de indicaciones para imágenes

Para desbloquear todo el potencial de los modelos de chat habilitados para la visión, es esencial adaptar las indicaciones a sus necesidades específicas. Estas son algunas directrices para mejorar la precisión y la eficacia de los mensajes.

Nota

Estas técnicas de ingeniería de solicitudes se aplican a los modelos habilitados para visión, incluyendo GPT-4 Turbo con Vision, GPT-4o y GPT-4o-mini. Para desplegar un modelo con capacidad de visión, consulte Despliegue de modelos.

Aspectos básicos de la escritura de una indicación de imagen

  • Especificidad contextual: Agregar contexto al escenario en cuestión proporciona al modelo una mejor comprensión de una salida adecuada. Este nivel de especificidad ayuda a centrarse en aspectos relevantes y evitar detalles extraños.
  • Avisos orientados a tareas: Centrarse en una tarea específica ayuda al modelo a generar la salida considerando esa perspectiva.
  • Controlar las negativas: Cuando el modelo indica la incapacidad de realizar una tarea, refinar el mensaje puede ser una solución eficaz. Las indicaciones más específicas pueden guiar el modelo hacia una comprensión más clara y una mejor ejecución de la tarea. Solicite explicaciones para las respuestas generadas, coloque la imagen antes del texto de las solicitudes de imagen única y pida al modelo que describa la imagen en detalle antes de completar la tarea específica.
  • Agregue ejemplos: Adición de ejemplos que representan el tipo de respuestas que busca
  • Desglosar solicitudes: Intente desglosar solicitudes complejas paso a paso para crear subtareas administrables
  • Definir el formato de salida: Mencione claramente el formato deseado para la salida, como Markdown, JSON, HTML, etc. También puede sugerir una estructura, longitud o atributos específicos sobre la respuesta.

Ejemplo de entradas y salidas de solicitudes

Hay muchas maneras de crear avisos del sistema para adaptar la salida específicamente a sus necesidades. Las siguientes entradas y salidas de ejemplo muestran cómo ajustar las solicitudes puede proporcionar resultados diferentes. Pruebe el modelo por su cuenta con estas imágenes y ajustando la solicitud del sistema en el Área de juegos de Microsoft Foundry.

Especificidad contextual

El contexto puede ayudar a mejorar los comentarios del modelo. Por ejemplo, si está trabajando en descripciones de imágenes para un catálogo de productos, asegúrese de que la solicitud refleje eso de forma clara y concisa. Un mensaje como "Describir imágenes para un catálogo de productos de senderismo al aire libre, centrándose en entusiasmo y profesionalismo" guía el modelo para generar respuestas que son precisas y contextualmente enriquecidas.

Mensaje básico Salida del modelo
Fotografía de una tienda de camping y sillas en un bosque. ¿Qué hay en esta imagen? The image shows a camping setup in a forest area. There is a yellow tent, two folding camping chairs—one red and one blue—and a portable camping table. The surrounding area is densely populated with trees, indicating that the campsite is in a wooded region.
Solicitud actualizada Salida del modelo
Fotografía de una tienda de camping y sillas en un bosque. Describir imágenes para un catálogo de productos de senderismo al aire libre, centrándose en entusiasmo y profesionalismo. "Embark on your next outdoor adventure with our premium hiking and camping essentials! Featured here is our vibrant, spacious tent, designed to be your home away from home amidst the serenity of nature. Crafted with top-notch materials, it promises durability and comfort in any weather. Complementing the tent are our ultra-comfortable, lightweight folding chairs, available in eye-catching red and serene blue, perfect for those moments of relaxation after a day of exploration. Don't forget our sturdy, portable table, ideal for a delightful outdoor meal or a game of cards under the stars. Elevate your camping experience with our reliable products, where quality meets the great outdoors!"

Indicaciones orientadas a tareas

Proporcionar al modelo una tarea específica que seguir es una manera de afilar la respuesta. En este ejemplo, este mensaje dirige al modelo para concentrarse en elementos cruciales para las evaluaciones de seguros, lo que mejora la precisión y la relevancia.

Mensaje básico Salida del modelo
Fotografía de un auto se estrelló en un poste. ¿Qué hay en esta imagen? The image shows a silver sedan that has been in an accident. The front end of the car is damaged, with the hood crumpled, and the bumper partially detached. The car is resting against a utility pole on the sidewalk, and there is visible smoke coming from the engine area, indicating a recent crash. The setting appears to be a residential street, as indicated by the presence of houses in the background, a neatly trimmed hedge, and a sidewalk.
Solicitud actualizada Salida del modelo
Fotografía de un auto estrellado contra un poste. Analizar este vídeo de daños en coche para un informe de seguro de auto, centrándose en identificar y detallar los daños In the image provided, we observe a silver sedan that has sustained significant front-end damage. The vehicle's hood is notably crumpled, and the front bumper has suffered substantial deformation, partially detaching from the chassis. The right headlamp assembly appears to be damaged or dislodged. There is also visible damage to the front grille area. The car is in contact with a utility pole, suggesting a frontal collision with the pole at a relatively low or moderate speed. Smoke is emanating from the engine compartment, suggesting potential mechanical or electrical damage that may need further inspection for a comprehensive assessment. The airbags do not appear to be deployed in this image. The vehicle will require a detailed inspection to evaluate the full extent of structural and mechanical damage for a complete insurance report.

Control de denegaciones

Cuando recibe una salida de denegación de un modelo, hay varias maneras de ajustar la entrada para generar una respuesta más adecuada. A continuación se muestra un ejemplo de cómo controlar una denegación y un progreso.

Mensaje básico Salida del modelo
Fotografía de una mesa de cenas con varios platos de comida. Planear esta comida Sorry, I can't provide that information.
Aviso de seguimiento Salida del modelo
¿Qué información necesita? I apologize for the confusion earlier. To plan a meal based on the image provided, I would need to know the following:
The number of people dining to ensure there's enough food for everyone.
Any dietary restrictions or preferences to accommodate (e.g., vegetarian, gluten-free, allergies).
The occasion or type of meal being planned (e.g., casual lunch, dinner party).
Desired balance of the meal in terms of food groups and nutrition.
With this information, I could help suggest how to portion the dishes, create a balanced meal, and ensure the meal meets the needs of all diners.

Adición de ejemplos

Mensaje básico Salida del modelo
Fotografía de un perro border collie acostado en un campo de hierba. ¿Cuál es esta raza de perro y cuál es su peso medio y altura? The dog in the image appears to be a Border Collie. Border Collies are known for their intelligence, agility, and herding abilities. The average weight for a Border Collie is typically around 30-45 pounds (14-20 kilograms). As for height, Border Collies generally stand about 18-22 inches (46-56 centimeters) tall at the shoulder. These figures can vary based on the individual dog's genetics, diet, and level of activity. Border Collies are medium-sized dogs with a well-proportioned body and a high level of energy.
Solicitud actualizada Salida del modelo
P: ¿Qué es esta raza de perro y cuál es su peso y altura promedio? Fotografía de un perro pomerania sentado en un tablero de buceo sobre el agua.
R: Raza: pomerania; peso medio: 3-7 lbs; altura media: 8-14 pulgadas
Fotografía de un bulldog acostado en un campo de hierba. R: Raza: bulldog inglés; peso medio: 50-55 libras (aprox. 22,7-24,9 kg); altura media: 14-16 pulgadas (aprox. 35,6-40,6 cm) Fotografía de un perro collie de la frontera acostado en un campo de hierba.
A: Breed: Border Collie; average weight: 30-45 lbs; average height: 18-22 inches

Desglosar solicitudes

Mensaje básico Salida del modelo
Fotografía de una tarjeta de receta que detalla una receta para la tarta de manzana con migas de la abuela. ¿Qué hay en esta imagen? The image contains a recipe card titled Grandma's Apple Crumb Pie. It is noted as a Thanksgiving tradition. The ingredients listed are:
  • 5-7 apples, peeled
  • 1 9-inch pie crust
  • 3/4 cups sugar
  • 1/2 teaspoon cinnamon
  • A dash of salt
  • 3 tablespoons butter

Please note that the measurements for sugar, flour, and butter are not fully visible in the image. If needed, the standard measures for a crumb topping typically involve a combination of sugar, flour, and butter mixed together until crumbly
Solicitud actualizada Salida del modelo
Fotografía de una tarjeta de receta que detalla una receta para el Pastel Crumble de Manzana de la Abuela. Usted es un asistente de IA que ayuda a crear listas de compras e instrucciones para preparar alimentos en función de las recetas. Proporcione una lista de ingredientes para comprar y, a continuación, proporcione una lista de instrucciones para preparar los ingredientes en función de la tarjeta de receta. Sure, here's a shopping list based on the recipe card:
Shopping List:
  1. 5-7 apples (suitable for baking, such as Granny Smith or Honeycrisp)
  2. 1 ready-made pie crust (9-inch)
  3. Sugar (ensure you have enough for 1/2 cup)
  4. All-purpose flour (ensure you have enough for 3/4 cup)
  5. Ground cinnamon
  6. Salt
  7. Butter (ensure you have enough for 3 tablespoons)

Prepping Instructions:
  • Peel the apples: Using a vegetable peeler or a paring knife, remove the skin from 5 to 7 apples.
  • Core and slice the apples: Cut the apples into quarters, remove the cores, and then slice the apple quarters into thin slices or chunks, depending on your preference for pie texture.
  • Measure the ingredients: Measure out 3/4 cups of sugar, 1/2 teaspoon of cinnamon, a dash of salt (about 1/8 teaspoon), and 3 tablespoons of butter.
  • Prepare the butter: Cut the butter into small pieces to be ready to use in the recipe. It's often easier to incorporate if it's cold, so keep it refrigerated until it's needed
  • Preheat your oven according to the pie recipe's instructions so it's ready for baking once your pie is assembled.
  • Remember to follow any additional preparation or baking instructions provided in the full recipe for your apple crumb pie.

Definición del formato de salida

Mensaje básico Salida del modelo
Fotografía de una villa blanca en una región tropical con piscina. Describir esta imagen The image shows a luxurious white villa with a traditional thatched roof on one section and a clear blue swimming pool in the foreground. There are sun loungers lined up along the poolside, inviting relaxation. The architecture includes elegant archways, a balcony with wooden railings, and large windows and doors that suggest a bright and airy interior. The villa is surrounded by lush tropical vegetation, including tall palm trees, which adds to the serene and exotic ambiance of the setting.
Solicitud actualizada Salida del modelo
Fotografía de una villa blanca en una región tropical con piscina. Usted es un asistente de IA que escribe listados detallados para las propiedades de alquiler vacacional. Resumir en tres oraciones las características óptimas de la lista, en función de solo lo que está visible en la imagen. Concluye con una frase sobre por qué el cliente debe reservar hoy mismo. This idyllic villa showcases an inviting private pool with steps for easy access, framed by a beautifully tiled sun deck and comfortable loungers ideal for soaking up the sun or enjoying a good book under the shade of tropical palms. Architectural charm is evident in the villa's design, featuring elegant archways, a thatched-roof gazebo, and balconies that promise serene views and a perfect spot to savor your morning or evening beverages. The lush greenery surrounding the property not only provides privacy but also enhances the sense of an exclusive paradise retreat. Don't miss the opportunity to secure this perfect blend of luxury and tranquility – book today for a tropical escape like no other!

Estas directrices y ejemplos muestran cómo las indicaciones del sistema adaptadas pueden mejorar significativamente el rendimiento de los modelos habilitados para la visión, lo que garantiza que las respuestas no son solo precisas, sino que también son perfectamente adecuadas para el contexto específico de la tarea a mano.

Pasos siguientes

Ahora que comprende las técnicas de ingeniería de avisos de imagen, pruébelas en la práctica:

  1. Abra el entorno de pruebas Microsoft Foundry e implemente un modelo con capacidad de visión.
  2. Cargue una imagen y experimente con una especificidad contextual.
  3. Compare los avisos básicos con avisos orientados a tareas para ver la diferencia en la calidad de la salida.