Compartir a través de


Almacenamiento en caché de avisos

El almacenamiento en caché de mensajes permite reducir la latencia general de las solicitudes y el costo de los mensajes más largos que tienen contenido idéntico al principio del mensaje. "Preguntar" en este contexto hace referencia a la entrada que envía al modelo como parte de la solicitud de finalización del chat. En lugar de volver a procesar los mismos tokens de entrada una y otra vez, el modelo puede conservar una caché temporal de los cálculos del token de entrada procesados para mejorar el rendimiento general. El almacenamiento en caché de mensajes no afecta al contenido de salida devuelto en la respuesta del modelo más allá de una reducción de la latencia y el costo. En el caso de los modelos compatibles, los tokens almacenados en caché se facturan con un descuento en los precios del token de entrada para los tipos de implementación estándar y un descuento de hasta un 100 % en los tokens de entrada para los tipos de implementación aprovisionados.

Las memorias caché normalmente se borran en un plazo de 5 a 10 minutos de inactividad y siempre se quitan dentro de la hora del último uso de la memoria caché. Las cachés de mensajes no se comparten entre suscripciones de Azure.

Modelos compatibles

  • El almacenamiento en caché de mensajes se admite con todos los modelos de Azure OpenAI GPT-4o o versiones posteriores.
  • El almacenamiento en caché de mensajes se aplica a los modelos que tienen operaciones en tiempo real, finalización o finalización del chat. En el caso de los modelos que no tienen estas operaciones, esta característica no está disponible.

Cómo empezar

Para que una solicitud aproveche el almacenamiento en caché de mensajes, la solicitud debe ser ambas:

  • Un mínimo de 1024 tokens de longitud.
  • Los primeros 1024 tokens del símbolo del sistema deben ser idénticos.

Las solicitudes se enrutan en función de un hash del prefijo inicial de un símbolo del sistema.

Cuando se encuentra una coincidencia entre los cálculos del token en una solicitud y el contenido actual de la memoria caché de la solicitud, se conoce como acierto de caché. Los aciertos de caché se mostrarán como cached_tokens bajoprompt_tokens_details en la respuesta de finalizaciones de chat.

{
  "created": 1729227448,
  "model": "o1-2024-12-17",
  "object": "chat.completion",
  "service_tier": null,
  "system_fingerprint": "fp_50cdd5dc04",
  "usage": {
    "completion_tokens": 1518,
    "prompt_tokens": 1566,
    "total_tokens": 3084,
    "completion_tokens_details": {
      "audio_tokens": null,
      "reasoning_tokens": 576
    },
    "prompt_tokens_details": {
      "audio_tokens": null,
      "cached_tokens": 1408
    }
  }
}

Después de que se produzcan los primeros 1024 tokens de aciertos de caché para cada 128 tokens idénticos adicionales.

Una diferencia de caracteres único en los primeros 1024 tokens dará como resultado una falta de caché que se caracteriza por uncached_tokens valor de 0. El almacenamiento en caché de mensajes está habilitado de forma predeterminada sin necesidad de configuración adicional para los modelos admitidos.

Si proporciona el parámetro user, se combina con el hash de prefijo y le permite influir en el enrutamiento y mejorar las tasas de aciertos de caché. Esto es especialmente beneficioso cuando muchas solicitudes comparten prefijos largos y comunes.

¿Qué se almacena en caché?

La compatibilidad con las características de los modelos de la serie o1 varía según el modelo. Para obtener más información, consulte nuestra guía de modelos de razonamiento dedicado.

Se admite el almacenamiento en caché de solicitudes para:

Almacenamiento en caché admitido Description Modelos admitidos
Messages La matriz de mensajes completa: contenido del sistema, desarrollador, usuario y asistente gpt-4o
gpt-4o-mini
gpt-4o-realtime-preview (versión 2024-12-17)
gpt-4o-mini-realtime-preview (versión 2024-12-17)
gpt-realtime (versión 2025-08-28)
gpt-realtime-mini (versión 2025-10-06)
o1 (versión 2024-12-17)
o3-mini (versión 2025-01-31)
Images Imágenes incluidas en los mensajes de usuario, tanto como vínculos como datos codificados en base64. El parámetro de detalle debe establecerse igual en todas las solicitudes. gpt-4o
gpt-4o-mini
o1 (versión 2024-12-17)
Uso de herramientas Tanto la matriz de mensajes como las definiciones de la herramienta. gpt-4o
gpt-4o-mini
gpt-4o-realtime-preview (versión 2024-12-17)
gpt-4o-mini-realtime-preview (versión 2024-12-17)
gpt-realtime (versión 2025-08-28)
gpt-realtime-mini (versión 2025-10-06)
o1 (versión 2024-12-17)
o3-mini (versión 2025-01-31)
Salidas estructuradas El esquema de salida estructurado se anexa como prefijo al mensaje del sistema. gpt-4o
gpt-4o-mini
o1 (versión 2024-12-17)
o3-mini (versión 2025-01-31)

Para mejorar la probabilidad de que se produzcan aciertos de caché, debe estructurar las solicitudes de forma que el contenido repetitivo se produzca al principio de la matriz de mensajes.

¿Puedo deshabilitar el almacenamiento en caché de mensajes?

El almacenamiento en caché de solicitudes está habilitado de forma predeterminada para todos los modelos admitidos. No hay compatibilidad con la exclusión para el almacenamiento en caché de mensajes.