Delen via


Agentgerichte opvragen in Azure AI Search

Opmerking

Deze functie is momenteel beschikbaar als openbare preview-versie. Deze preview wordt geleverd zonder service level agreement en wordt niet aanbevolen voor productieworkloads. Bepaalde functies worden mogelijk niet ondersteund of hebben mogelijk beperkte mogelijkheden. Voor meer informatie, zie Aanvullende Gebruiksvoorwaarden voor Microsoft Azure Previews.

Wat is agentisch ophalen? In Azure AI Search is het ophalen van agents een nieuwe pijplijn met meerdere query's die is ontworpen voor complexe vragen van gebruikers of agents in chat- en copilot-apps. Het is bedoeld voor RAG-patronen (Retrieval Augmented Generation) en agent-naar-agent-werkstromen.

Dit is wat het doet:

  • Maakt gebruik van een LLM (Large Language Model) om een complexe query op te splitsen in kleinere, gerichte subquery's voor een betere dekking van uw geïndexeerde inhoud. Subquery's kunnen chatgeschiedenis bevatten voor extra context.

  • Hiermee worden subquery's parallel uitgevoerd. Elke subquery wordt semantisch opnieuw gerangschikt om de meest relevante overeenkomsten te promoten.

  • Combineert de beste resultaten in een geïntegreerd antwoord dat een LLM kan gebruiken om antwoorden te genereren met uw eigen inhoud.

  • Het antwoord is modulair maar uitgebreid in de wijze waarop het ook een queryplan en brondocumenten bevat. U kunt ervoor kiezen om alleen de zoekresultaten als grondgegevens te gebruiken of de LLM aan te roepen om een antwoord te formuleren.

Deze pijplijn met hoge prestaties helpt u bij het genereren van hoogwaardige grondgegevens (of een antwoord) voor uw chattoepassing, met de mogelijkheid om snel complexe vragen te beantwoorden.

Programmatisch wordt agentisch ophalen ondersteund via een nieuw Knowledge Agents-object in de REST API's voor gegevensvlak 2025-08-01 en 2025-05-01-preview en in Azure SDK-previewpakketten die de functie bieden. Het opvraagantwoord van een kennisagent is ontworpen voor verbruik door andere agenten en chat-apps.

Waarom gebruik maken van op agentschap gebaseerd terughalen

U moet agentisch ophalen gebruiken wanneer u agents en apps de meest relevante inhoud wilt bieden voor het beantwoorden van moeilijkere vragen, waarbij gebruik wordt gemaakt van chatcontext en uw eigen inhoud.

Het agentische aspect is een redeneringsstap in de verwerking van queryplanning die wordt uitgevoerd door een ondersteund LLM (Large Language Model) dat u aanlevert. De LLM analyseert het volledige chatgesprek om de onderliggende informatiebehoefte te identificeren. In plaats van één algemene query worden samengestelde vragen onderverdeeld in gerichte subquery's op basis van: gebruikersvragen, chatgeschiedenis en aanvraagparameters. De subquery's zijn gericht op uw geïndexeerde documenten (tekst zonder opmaak en vectoren) in Azure AI Search. Deze hybride benadering zorgt ervoor dat zowel trefwoordovereenkomsten als semantische overeenkomsten in één keer worden weergegeven, waardoor de terugroepwaarde aanzienlijk wordt verbeterd.

Het ophaalonderdeel is de mogelijkheid om subquery's tegelijk uit te voeren, resultaten samen te voegen, resultaten semantisch te rangschikken en een driedelig antwoord te retourneren dat grondgegevens bevat voor de volgende gesprekswisseling, verwijzingsgegevens, zodat u de broninhoud kunt inspecteren en een activiteitenplan waarin de stappen voor het uitvoeren van query's worden weergegeven.

Query-uitbreiding en parallelle uitvoering, plus het antwoord op ophalen, zijn de belangrijkste mogelijkheden van agentisch ophalen die het de beste keuze maken voor generatieve AI-toepassingen (RAG).

Diagram van een complexe query met impliciete context en een opzettelijk typefout.

Agentisch ophalen voegt latentie toe aan het verwerken van query's, maar het maakt het goed door deze mogelijkheden toe te voegen:

  • Leest de chatgeschiedenis in als invoer voor de haalpijplijn.
  • Het deconstrueert een complexe query die meerdere 'vragen' bevat in componenten. Bijvoorbeeld: "vind me een hotel in de buurt van het strand, met vervoer naar de luchthaven en dat is op loopafstand van vegetarische restaurants."
  • Hiermee herschrijft u een oorspronkelijke query in meerdere subquery's met behulp van synoniemenkaarten (optioneel) en door LLM gegenereerde parafrasering.
  • Corrigeert spelfouten.
  • Hiermee worden alle subquery's tegelijk uitgevoerd.
  • Voert een uniform resultaat uit als één tekenreeks. U kunt ook delen van het antwoord voor uw oplossing extraheren. Metagegevens over het uitvoeren van query's en referentiegegevens worden opgenomen in het antwoord.

Agentic retrieval roept de volledige queryverwerkingspijplijn meerdere keren aan voor elke subquery, maar doet dit parallel, waarbij de efficiëntie en prestaties behouden blijven die nodig zijn voor een goede gebruikerservaring.

Opmerking

Het opnemen van een LLM in de queryplanning voegt latentie toe aan een querypijplijn. U kunt de effecten beperken met behulp van snellere modellen, zoals gpt-4o-mini, en het samenvatten van de berichtthreads. U kunt echter langere querytijden verwachten met deze pijplijn.

Architectuur en werkstroom

Agentieve retrieval is ontworpen voor gespreksmatige zoekervaringen die een LLM gebruiken om complexe query's op intelligente wijze op te splitsen. Het systeem coördineert meerdere Azure-services om uitgebreide zoekresultaten te leveren.

Diagram van de workflow voor agentisch ophalen met behulp van een voorbeeldquery.

Hoe het werkt

Het agent-georiënteerde ophaalproces werkt als volgt:

  1. Werkstroominitiatie: Uw toepassing roept een kennisagent aan met een ophalen-actie die de query- en gespreksgeschiedenis biedt.

  2. Queryplanning: Een kennisagent verzendt uw query- en gespreksgeschiedenis naar een LLM, waarmee de context wordt geanalyseerd en complexe vragen worden opgesplitst in gerichte subquery's. Deze stap is geautomatiseerd en kan niet worden aangepast.

  3. Queryuitvoering: de kennisagent verzendt de subquery's naar uw kennisbronnen. Alle subquery's worden gelijktijdig uitgevoerd en kunnen trefwoorden, vectoren en hybride zoekopdrachten zijn. Elke subquery ondergaat semantische rerankering om de meest relevante overeenkomsten te vinden. Verwijzingen worden geëxtraheerd en bewaard voor bronvermeldingsdoeleinden.

  4. Resultaatsynthese: het systeem combineert alle resultaten in een uniform antwoord met drie delen: samengevoegde inhoud, bronverwijzingen en uitvoeringsdetails.

Uw zoekindex bepaalt de uitvoering van query's en eventuele optimalisaties die optreden tijdens het uitvoeren van query's. Als uw index doorzoekbare tekst- en vectorvelden bevat, wordt een hybride query uitgevoerd. Als het enige doorzoekbare veld een vectorveld is, wordt alleen pure vectorzoekopdrachten gebruikt. De semantische indexconfiguratie, plus optionele scoreprofielen, synoniemenkaarten, analysefuncties en normalizers (als u filters toevoegt) worden allemaal gebruikt tijdens het uitvoeren van query's. U moet benoemde standaardwaarden hebben voor een semantische configuratie en een scoreprofiel.

Vereiste onderdelen

Onderdeel Dienst Rol
LLM Azure OpenAI Hiermee maakt u subquery's op basis van gesprekscontext en gebruikt u later grondgegevens voor het genereren van antwoorden
Kennisagent Azure AI Search De pijplijn organiseren, verbinding maken met uw LLM en queryparameters beheren
Kennisbron Azure AI Search Verpakt de zoekindex met eigenschappen die betrekking hebben op het gebruik van kennisagenten
Zoekindex Azure AI Search Slaat uw doorzoekbare inhoud (tekst en vectoren) op met semantische configuratie
Semantische rangschikking Azure AI Search Vereist onderdeel waarmee resultaten voor relevantie opnieuw worden gerankt (L2-herrankering)

Integratievereisten

Uw toepassing stuurt de pijplijn aan door de kennisagent aan te roepen en het antwoord af te handelen. De pijplijn retourneert grondgegevens die u doorgeeft aan een LLM voor het genereren van antwoorden in uw gespreksinterface. Zie Handleiding: Een oplossing voor het ophalen tussen agents bouwen voor implementatiedetails.

Opmerking

Alleen gpt-4o-, gpt-4.1- en gpt-5-seriemodellen worden ondersteund voor het plannen van query's. U kunt elk model gebruiken voor het genereren van definitieve antwoorden.

Aan de slag

U moet de preview-REST API's of een prerelease Azure SDK-pakket gebruiken dat de functionaliteit biedt. Op dit moment is er geen ondersteuning voor Azure Portal of Azure AI Foundry Portal.

Kies een van deze opties voor de volgende stap.

Beschikbaarheid en prijzen

Agentisch ophalen is beschikbaar in alle regio's die semantische ranker bieden, op alle lagen behalve de gratis laag.

Facturering voor proactief opvragen bestaat uit twee onderdelen:

  • Facturering voor queryplanning en antwoordsynthese (optioneel) is betalen per gebruik in Azure OpenAI. Het is een token dat is gebaseerd op zowel invoer- als uitvoertokens. Het model dat u aan de kennisagent toewijst, is het model waarvoor de kosten van tokens in rekening worden gebracht. Als u bijvoorbeeld gpt-4o gebruikt, worden de tokenkosten weergegeven in de factuur voor gpt-4o.

  • Facturering voor semantische rangschikking tijdens het uitvoeren van query's. Facturering wordt opgeschort tijdens de eerste implementatiefase, maar gaat vervolgens over naar betalen per gebruik aan de zijde van Azure AI Search via de semantische rangschikking. Semantische ranking, een premium betaalde functie, is een integraal onderdeel van agent-gericht ophalen. Bij Azure AI Search worden kosten in rekening gebracht voor token inputs voor de semantische classificatiemodellen.

Semantische classificatie wordt uitgevoerd voor elke subquery in het plan. Semantische classificatiekosten zijn gebaseerd op het aantal tokens dat door elke subquery wordt geretourneerd.

Kenmerk Klassieke pijplijn met één query Pijplijn voor agentgestuurd ophalen van meerdere query's
Unit Queries (1.000 queries) per eenheid van valuta Op basis van tokens (1 miljoen tokens per valuta-eenheid)
Kosten per eenheid Uniforme kosten per query Uniforme kosten per token
Kostenschatting Schat aantal query's Tokengebruik schatten
Gratis laag 1.000 gratis zoekopdrachten 50 miljoen gratis tokens

Opmerking

Bestaande semantische ranker-facturering is ongewijzigd als u deze buiten agent-gebaseerde opvraging gebruikt. Zie de pagina met prijzen van Azure AI Search voor prijzen zonder agentisch ophalen.

Voorbeeld: Kosten schatten

Het ophalen van agents heeft twee factureringsmodellen: facturering van Azure OpenAI (queryplanning en, indien ingeschakeld, antwoordsynthese) en facturering van Azure AI Search voor semantische rangschikking (queryuitvoering).

In dit prijsvoorbeeld wordt antwoordsynthese weggelaten, maar wordt het schattingsproces geïllustreerd. Uw kosten kunnen lager zijn. Zie prijzen voor Azure OpenAI voor de werkelijke prijs van transacties. Voor het uitvoeren van query's worden er geen kosten in rekening gebracht voor semantische classificatie voor agentisch ophalen in de eerste openbare preview.

Geschatte factureringskosten voor queryplanning

Als u de kosten van het queryplan wilt schatten als betalen per gebruik in Azure OpenAI, gaan we ervan uit dat gpt-4o-mini:

  • 15 cent voor 1 miljoen invoertokens.
  • 60 cent voor 1 miljoen uitvoertokens.
  • 2000 invoertokens voor de gemiddelde grootte van chatgesprekken.
  • 350 tokens voor gemiddelde uitvoerplangrootte.

Geschatte factureringskosten voor het uitvoeren van query's

Als u de semantische classificatiekosten wilt schatten die zijn gekoppeld aan agentisch ophalen, begint u met een idee van hoe een gemiddeld document in uw index eruitziet. U kunt bijvoorbeeld bij benadering het volgende doen:

  • 10.000 segmenten, waarbij elk segment één tot twee alinea's van een PDF is.
  • 500 tokens per blok.
  • Elke subquery rerankeert maximaal 50 segmenten.
  • Gemiddeld zijn er drie subquery's per query-plan.

De prijs van uitvoering berekenen

  1. Stel dat we 2000 agentgerichte verzoeken maken met drie subvraag per plan. Dit geeft ons ongeveer 6.000 totale query's.

  2. Herindelen van 50 segmenten per subquery, wat 300.000 segmenten in totaal is.

  3. Het gemiddelde segment is 500 tokens, dus het totale aantal tokens voor opnieuw rangschikken is 150 miljoen.

  4. Gezien een hypothetische prijs van 0,022 per token, is $ 3,30 de totale kosten voor rerankering in Amerikaanse dollars.

  5. Verdergaand met queryplankosten: 2 000 invoertokens vermenigvuldigd met 2 000 agentische opvragingen komt overeen met 4 miljoen invoertokens voor een totaal van 60 cent.

  6. Schat de uitvoerkosten op basis van gemiddeld 350 tokens. Als we 350 vermenigvuldigen met 2.000 agent-gestuurde ophaalacties, krijgen we in totaal 700.000 uitvoertokens voor 42 cent.

Als u alles samenbrengt, betaalt u ongeveer $ 3,30 voor semantische rangschikking in Azure AI Search, 60 cent voor invoertokens in Azure OpenAI en 42 cent voor uitvoertokens in Azure OpenAI, voor $ 1,02 voor het totaal van de queryplanning. De gecombineerde kosten voor de volledige uitvoering zijn $ 4,32.