Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Nota:
Esta característica actualmente está en su versión preliminar pública. Esta versión preliminar se ofrece sin contrato de nivel de servicio y no es aconsejable usarla en las cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas. Para más información, consulte Términos de uso complementarios para las versiones preliminares de Microsoft Azure.
En Búsqueda de Azure AI, la recuperación agéntica es una nueva canalización de consultas desarrollada para abordar preguntas complejas planteadas por usuarios o agentes en aplicaciones de chat y copilot. Usa un modelo de lenguaje grande (LLM) para dividir una pregunta en subconsultas más pequeñas, a menudo usando el historial de chats para el contexto. Estas subconsultas se ejecutan en paralelo, cada una de las cuales busca el contenido más relevante del índice. Los resultados se clasifican según su relevancia semántica, se combinan y se envían de vuelta a su LLM para ayudar a generar respuestas precisas mediante su contenido propietario.
Mediante programación, la recuperación con agente se admite a través de un nuevo objeto Knowledge Agents en la API de REST del plano de datos 2025-05-01-preview y en los paquetes de versión preliminar del SDK de Azure que proporcionan la característica. La respuesta de recuperación de información de un agente de conocimiento está diseñada para el uso posterior por parte de otros agentes y aplicaciones de chat.
Por qué utilizar la recuperación agente
Debe utilizar la recuperación agéntica cuando desee proporcionar a los agentes y las aplicaciones el contenido más relevante para responder a preguntas más difíciles, utilizando el contexto del chat y su contenido propietario.
El aspecto agéntica es un paso de razonamiento en el procesamiento de planeamiento de consultas que realiza un modelo de lenguaje grande (LLM) admitido que proporcione. LLM analiza todo el subproceso de chat para identificar la necesidad de información subyacente. En lugar de una sola consulta catch-all, el modelo divide las preguntas compuestas en subconsultas centradas en función de: preguntas de usuario, historial de chat y parámetros en la solicitud. Las subconsultas tienen como destino los documentos indexados (texto sin formato y vectores) en Azure AI Search. Este enfoque híbrido garantiza que se muestren coincidencias de palabras clave y similitudes semánticas a la vez, lo que mejora considerablemente la recuperación.
El componente de recuperación es la capacidad de ejecutar subconsultas simultáneamente, combinar resultados, clasificar semánticamente los resultados y devolver una respuesta de tres partes que incluya datos de base para el próximo turno de conversación, datos de referencia para poder inspeccionar el contenido de origen y un plan de actividad que muestre los pasos de ejecución de consultas.
La expansión de consultas y la ejecución en paralelo, además de la respuesta de recuperación, son las funcionalidades clave de la recuperación agente que lo convierten en la mejor opción para las aplicaciones de IA generativa (RAG).
La recuperación agentica agrega latencia al procesamiento de consultas, pero lo compensa agregando estas funcionalidades:
- Lee en el historial de chat como entrada para la canalización de recuperación.
- Reescribe una consulta original en varias subconsultas mediante mapas de sinónimos (opcional) y frases generadas por LLM.
- Corrige los errores ortográficos.
- Deconstruye una consulta compleja que contiene varias "preguntas" en partes de componentes. Por ejemplo: "encontrarme un hotel cerca de la playa, con transporte del aeropuerto, y eso está a poca distancia a pie de restaurantes vegetarianos".
- Ejecuta todas las subconsultas simultáneamente.
- Genera un resultado unificado como una sola cadena. Como alternativa, puede extraer partes de la respuesta para su solución. Los metadatos sobre la ejecución de consultas y los datos de referencia se incluyen en la respuesta.
La recuperación agente invoca la canalización de procesamiento de consultas completa varias veces para cada solicitud de consulta, pero lo hace en paralelo, conservando la eficiencia y el rendimiento necesarios para una experiencia de usuario razonable.
Nota:
Incluir un LLM en la planificación de consultas añade latencia a una cadena de consultas. Puede mitigar los efectos utilizando modelos más rápidos, como el gpt-4o-mini, y resumiendo los hilos de mensajes. Sin embargo, debe esperar tiempos de consulta más largos con esta canalización.
Arquitectura de recuperación agente
La recuperación agente está diseñada para una experiencia de búsqueda conversacional que incluye un LLM. Una parte importante de la recuperación agencial es la forma en que el LLM divide una consulta inicial en subconsultas, que son más eficaces para localizar las mejores coincidencias en tu índice.
La recuperación agente tiene estos componentes:
Componente | Recurso | Uso |
---|---|---|
LLM (serie gpt-4o y gpt-4.1) | Azure OpenAI | Un LLM tiene dos funciones. En primer lugar, formula subconsultas para el plan de consulta y las devuelve al agente de conocimiento. En segundo lugar, después de que se ejecute la consulta, LLM recibe datos de base de la respuesta de consulta y los usa para la formulación de respuestas. |
Índice de búsqueda | Azure AI Search | Contiene texto sin formato y contenido vectorial, una configuración semántica y otros elementos según sea necesario. |
Agente de conocimiento | Azure AI Search | Se conecta al LLM y proporciona parámetros y datos de entrada para crear un plan de consulta. |
Motor de recuperación | Azure AI Search | Se ejecuta en el plan de consulta generado por LLM y otros parámetros, devolviendo una respuesta enriquecida que incluye metadatos de contenido y plan de consulta. Las consultas son palabra clave, vector e híbrido. Los resultados se combinan y clasifican. |
Clasificador semántico | Azure AI Search | Proporciona reeranking L2, promocionando las coincidencias más relevantes. El clasificador semántico es necesario para la recuperación agente. |
La solución debe incluir una herramienta o aplicación que impulse la canalización. Una canalización de recuperación agente concluye con el objeto de respuesta que proporciona datos de fundamento. La solución debe tomarla desde allí, controlando la respuesta pasándola a un LLM para generar una respuesta, que se representa en línea en la conversación del usuario. Para obtener más información sobre este paso, consulte Compilación de una solución de recuperación de agente a agente.
La recuperación agente tiene estos procesos:
- Las solicitudes de recuperación agente se inician mediante llamadas a un agente de conocimiento en Búsqueda de Azure AI.
- Los agentes de conocimiento se conectan a un LLM y proporcionan el historial de conversaciones como entrada. Cantidad de historial configurable por el número de mensajes que proporcione.
- Los LLM examinan la conversación y determinan si se dividirán en subconsultas. El número de subconsultas depende de lo que decida LLM y de si el
maxDocsForReranker
parámetro es superior a 50. Se define una nueva subconsulta para cada lote de 50 documentos enviado al clasificador semántico. - Las subconsultas se ejecutan simultáneamente en Azure AI Search y generan resultados estructurados y referencias extraídas.
- Los resultados se clasifican y combinan.
- Las respuestas del agente de conocimiento se formulan y devuelven como una respuesta de tres partes que consta de un resultado unificado (una cadena larga), una matriz de referencia y una matriz de actividades que enumera todas las operaciones.
El índice de búsqueda determina la ejecución de consultas y las optimizaciones que se producen durante la ejecución de la consulta. Esto incluye la configuración semántica, así como perfiles de puntuación opcionales, mapas de sinónimos, analizadores y normalizadores (si agrega filtros).
Disponibilidad y precios
La recuperación agente está disponible en todas las regiones que proporcionan un clasificadorsemántico, en todos los niveles, excepto en el nivel gratis.
La facturación de la recuperación agente tiene dos partes:
La facturación por la planificación de consultas es un modelo de pago por uso en Azure OpenAI. Está basado en tokens tanto para los tokens de entrada como para los de salida. El modelo que asigna al agente de conocimiento es el que se cobra por el uso de tokens. Por ejemplo, si usa gpt-4o, el costo de tokens aparece en la factura de gpt-4o.
Facturación por la clasificación semántica durante la ejecución de consultas. La facturación se suspende durante la fase de implementación inicial, pero luego pasa al pago por uso en Azure AI Search a través del clasificador semántico. El clasificador semántico, que es una característica facturable premium, es una parte integral de la recuperación agente. Se le cobra en el lado de Azure AI Search por las entradas de token a los modelos de clasificación semántica.
La clasificación semántica se realiza para cada subconsulta del plan. Los cargos de clasificación semántica se basan en el número de tokens devueltos por cada subconsulta.
Aspecto | Canalización de consulta única clásica | Canalización de varias consultas de recuperación agente |
---|---|---|
Unidad | Basado en consultas (1000 consultas) por unidad de moneda | Basado en tokens (1 millón de tokens por unidad de moneda) |
Costo por unidad | Costo uniforme por consulta | Costo uniforme por token |
Estimación de coste | Estimación del recuento de consultas | Estimación del uso de tokens |
Nivel gratuito | 1000 consultas gratuitas | 50 millones de tokens gratuitos |
Nota:
La facturación del clasificador semántico existente no cambia si la usa fuera de la recuperación agente. Para obtener precios sin intervención de agentes, consulte la página de precios de Azure AI Search.
Ejemplo: estimación de costos
La recuperación agente tiene dos modelos de facturación: facturación de Azure OpenAI (planificación de consultas) y facturación de Azure AI Search para la clasificación semántica (ejecución de consultas).
Los precios mostrados en este artículo son hipotéticos. Se usan para ilustrar el proceso de estimación. Sus costos podrían ser más bajos. Para conocer el precio real de las transacciones, consulte Precios de Azure OpenAI. Para la ejecución de consultas, no hay ningún cargo por la clasificación semántica para la recuperación agente en la versión preliminar pública inicial.
Costos de facturación estimados para el planeamiento de consultas
Para calcular los costos del plan de consulta como pago por uso en Azure OpenAI, supongamos gpt-4o-mini:
- 15 céntimos por 1 millón de fichas de entrada.
- 60 centavos para 1 millón de tokens de salida.
- 2000 tokens de entrada para el tamaño medio de la conversación de chat.
- 350 tokens para el tamaño medio del plan de salida.
Costos estimados de facturación para la ejecución de consultas
Para calcular los costos de clasificación semántica asociados a la recuperación agente, comience con una idea de cómo es un documento promedio en el índice. Un cálculo aproximado, por ejemplo, sería:
- 10 000 fragmentos, donde cada fragmento es de uno a dos párrafos de un PDF.
- 500 tokens por fragmento.
- Cada subconsulta reordena hasta 50 fragmentos.
- En promedio, hay tres subconsultas por plan de consulta.
Cálculo del precio de ejecución
Supongamos que realizamos 2000 recuperaciones agente con tres subconsultas por plan. Esto nos proporciona aproximadamente 6000 consultas totales.
Rerankear 50 fragmentos por subconsulta, que son 300,000 fragmentos en total.
El fragmento medio es de 500 tokens, por lo que el número total de tokens para el reranking es de 150 millones.
Dado un precio hipotético de 0,022 por token, $3,30 es el costo total de reranking en dólares estadounidenses.
Pasar a los costos del plan de consulta: 2000 tokens de entrada multiplicados por 2000 recuperaciones agente equivalentes a 4 millones de tokens de entrada para un total de 60 centavos.
Calcule los costos de salida en función de un promedio de 350 tokens. Si multiplicamos 350 por 2000 recuperaciones agente, obtenemos 700 000 tokens de salida totales para un total de 42 centavos.
En conjunto, pagaría unos 3,30 USD para la clasificación semántica en Azure AI Search, 0,60 USD por tokens de entrada en Azure OpenAI y 0,42 USD por tokens de salida en Azure OpenAI, con un total de 1,02 USD para el planeamiento total de consultas. El costo combinado de la ejecución completa es de 4,32 USD.
Cómo empezar
Debe usar las API REST en versión preliminar o un paquete de AZURE SDK de versión preliminar que proporcione la funcionalidad. En este momento, no hay compatibilidad con Azure Portal ni azure AI Foundry Portal.
Elija cualquiera de estas opciones para el paso siguiente.
Artículo de inicio rápido: Ejecución de la recuperación agente en Azure AI Search. Obtenga información sobre el flujo de trabajo básico mediante datos de ejemplo y un índice y consultas preparados.
Código de ejemplo:
Guías paso a paso para una mirada centrada en las tareas de desarrollo:
Referencia de la API REST, agentes de conocimiento y recuperación de conocimiento.
Demostración de Azure OpenAI, actualizada para usar la recuperación agente.