Agentenbasierter Abruf in Azure KI-Suche

Hinweis

Einige agentische Abruffunktionen sind in der Rest-API-Version 2026-04-01 über programmgesteuerten Zugriff allgemein verfügbar. Das Azure Portal und Microsoft Foundry-Portal bieten weiterhin Nur-Vorschau-Zugriff auf alle agentischen Abruffunktionen. Anleitungen für die Migration, einschließlich einer Aufschlüsselung der allgemein verfügbaren Informationen und was in der Vorschau verbleibt, finden Sie unter Migrieren von agentischem Abrufcode zur neuesten Version.

Wenn Sie eine Vorschau-REST-API-Version verwenden, können Sie auf agentische Abruffunktionen zugreifen, die noch nicht allgemein verfügbar sind. Vorschaufunktionen werden ohne Service-Level-Vereinbarung bereitgestellt und sind für Produktionsworkloads nicht empfohlen. Weitere Informationen finden Sie unter Supplementale Nutzungsbedingungen für Microsoft Azure Previews.

In Azure KI-Suche ist Agent-Abruf eine Multiabfragepipeline, die für komplexe Fragen konzipiert ist, die von Benutzern oder Agents in Chat- und Copilot-Apps gestellt werden. Es ist für RAG-Muster (Retrieval Augmented Generation ) und Agent-zu-Agent-Workflows vorgesehen.

Hier erfahren Sie, was dies tut:

  • Verwendet ein großes Sprachmodell (LLM), um eine komplexe Abfrage in kleinere, fokussierte Unterabfragen aufzuteilen, um eine bessere Abdeckung über Ihre indizierten Inhalte zu gewährleisten. Unterabfragen können den Chatverlauf für zusätzlichen Kontext enthalten.

  • Führt Unterabfragen parallel aus. Jede Unterabfrage wird semantisch neu bewertet, um die relevantesten Übereinstimmungen höher zu stufen.

  • Kombiniert die besten Ergebnisse in einer einheitlichen Antwort, die ein LLM verwenden kann, um Antworten mit Ihren proprietären Inhalten zu generieren.

  • Die Antwort ist modular, aber dennoch umfassend, indem sie einen Abfrageplan und Quelldokumente enthält. Sie können entweder die Suchergebnisse als Referenzdaten verwenden oder das LLM aufrufen, um eine Antwort zu formulieren.

Diese leistungsstarke Pipeline hilft Ihnen, qualitativ hochwertige Antworten oder kontextualisierte Daten für Ihre Chatanwendung zu generieren und ermöglicht es Ihnen, komplexe Fragen schnell zu beantworten.

Programmgesteuert wird der Agent-Abruf über ein Wissensdatenbank-Objekt in den neuesten stabilen REST-API-Versionen (2026-04-01) und Vorschau (2025-11-01-preview) sowie in den entsprechenden Azure SDK-Paketen unterstützt. Die Antwort auf Abruf einer Knowledge Base wurde für die externe Nutzung durch andere Agents und Chat-Apps entwickelt.

Gründe für die Verwendung des agentischen Abrufs

Es gibt zwei Anwendungsfälle für den agentengesteuerten Abruf. Erstens ist es die Grundlage der Foundry IQ Erfahrung im Microsoft Foundry (new) Portal. Sie bietet die Wissensschicht für Agentenlösungen in Microsoft Foundry. Zweitens ist es die Grundlage für benutzerdefinierte agentische Lösungen, die Sie mithilfe der Azure KI-Suche-APIs erstellen.

Sie sollten den agentischen Abruf verwenden, wenn Sie Agents und Apps mit den relevantesten Inhalten für die Beantwortung schwierigerer Fragen bereitstellen möchten, den Chatkontext und Ihre proprietären Inhalte nutzen.

Der agentische Aspekt ist ein Überlegungsschritt im Abfrageplanungsprozess, der von einem unterstützten großen Sprachmodell (LLM) ausgeführt wird, das Sie bereitstellen. Die LLM analysiert den gesamten Chatthread, um die zugrunde liegende Informationsanforderung zu identifizieren. Anstelle einer einzelnen, catch-all-Abfrage unterteilt der LLM zusammengesetzte Fragen in fokussierte Unterabfragen basierend auf: Benutzerfragen, Chatverlauf und Parameter auf der Anforderung. Die Unterabfragen zielen auf Ihre indizierten Dokumente (Nur-Text und Vektoren) in Azure KI-Suche ab. Dieser Hybridansatz stellt sicher, dass Sowohl Schlüsselwort-Übereinstimmungen als auch semantische Ähnlichkeiten gleichzeitig angezeigt werden, was den Rückruf erheblich verbessert.

Die Abrufkomponente ist die Möglichkeit, Unterabfragen gleichzeitig auszuführen, Ergebnisse zusammenzuführen, ergebnisse semantisch zu rangieren und eine dreiteilige Antwort zurückzugeben, die Die Basisdaten für die nächste Unterhaltung umfasst, Referenzdaten, sodass Sie den Quellinhalt überprüfen können, und einen Aktivitätsplan, der Abfrageausführungsschritte anzeigt.

Abfrageerweiterung und parallele Ausführung sowie die Abrufantwort sind die wichtigsten Funktionen des agentischen Abrufs, die es zur besten Wahl für generative KI-Anwendungen (RAG) machen.

Diagramm einer komplexen Abfrage, die zeigt, wie der agentische Abruf implizierten Kontext und einen absichtlichen Tippfehler verarbeitet.

Der agentische Abruf fügt der Abfrageverarbeitung Latenz hinzu, macht dies jedoch durch Hinzufügen dieser Funktionen aus:

  • Liest den Chatverlauf als Eingabe für die Abrufpipeline vor.
  • Zerlegt eine komplexe Abfrage, die mehrere Anfragen enthält, in ihre Bestandteile. Beispiel: "Finde mir ein Hotel in der Nähe des Strandes, mit Flughafentransfer, und das in Laufnähe zu vegetarischen Restaurants liegt."
  • Schreibt eine ursprüngliche Abfrage mithilfe von Synonymzuordnungen (optional) und LLM-generierten Paraphrasierungen in mehrere Unterabfragen um.
  • Korrigiert Rechtschreibfehler.
  • Führt alle Unterabfragen gleichzeitig aus.
  • Gibt ein einheitliches Ergebnis als einzelne Zeichenfolge aus. Alternativ können Sie Teile der Antwort für Ihre Lösung extrahieren. Metadaten zur Abfrageausführung und Referenzdaten sind in der Antwort enthalten.

Der agentische Abruf ruft die gesamte Abfrageverarbeitungspipeline mehrmals für jede Unterabfrage auf, aber dies geschieht parallel, wobei die Effizienz und Leistung beibehalten werden, die für eine angemessene Benutzererfahrung erforderlich ist.

Hinweis

Das Einschließen eines LLM in die Abfrageplanung fügt einer Abfragepipeline Latenz hinzu. Sie können die Effekte verringern, indem Sie schnellere Modelle wie gpt-4o-mini verwenden und die Nachrichtenthreads zusammenfassen. Sie können Latenz und Kosten minimieren, indem Sie Eigenschaften festlegen, die die LLM-Verarbeitung einschränken. Sie können die LLM-Verarbeitung auch vollständig ausschließen und zwar ausschließlich für Text- und Hybridsuchen sowie Ihre eigene Abfrageplanungslogik.

Architektur und Workflow

Agentisches Abrufen ist für gesprächsbasierte Sucherfahrungen konzipiert, die ein LLM verwenden, um komplexe Anfragen intelligent aufzuschlüsseln. Das System koordiniert mehrere Azure Dienste, um umfassende Suchergebnisse bereitzustellen.

Diagramm des agentischen Abrufworkflows mithilfe einer Beispielabfrage.

Funktionsweise

Der agentische Abrufvorgang funktioniert wie folgt:

  1. Workflowinitiierung: Ihre Anwendung ruft eine Wissensdatenbank mit der Aktion „Abrufen“ auf, die eine Abfrage und den Konversationsverlauf bereitstellt.

  2. Abfrageplanung: Eine Wissensdatenbank sendet Ihren Abfrage- und Unterhaltungsverlauf an ein LLM, das den Kontext analysiert und komplexe Fragen in fokussierte Unterabfragen unterteilt. Dieser Schritt ist automatisiert und kann nicht angepasst werden.

  3. Abfrageausführung: Die Knowledge Base sendet die Unterabfragen an Ihre Wissensquellen. Alle Unterabfragen werden gleichzeitig ausgeführt und können Schlüsselwort-, Vektor- und Hybridsuche sein. Jede Unterabfrage durchläuft eine semantische Neubewertung, um die relevantesten Übereinstimmungen zu finden. Verweise werden für Zitatzwecke extrahiert und aufbewahrt.

  4. Ergebnissynthese: Das System kombiniert alle Ergebnisse in einer einheitlichen Antwort mit drei Teilen: zusammengeführte Inhalte, Quellverweise und Ausführungsdetails.

Ihr Suchindex bestimmt die Abfrageausführung und alle Optimierungen, die während der Abfrageausführung auftreten. Wenn Ihr Index durchsuchbare Text- und Vektorfelder enthält, wird eine Hybridabfrage ausgeführt. Wenn das einzige durchsuchbare Feld ein Vektorfeld ist, wird nur eine reine Vektorsuche verwendet. Die Indexsemantikkonfiguration sowie optionale Bewertungsprofile, Synonymzuordnungen, Analyseanalysen und Normalisierer (wenn Sie Filter hinzufügen) werden alle während der Abfrageausführung verwendet. Sie müssen benannte Standardwerte für eine semantische Konfiguration und ein Bewertungsprofil haben.

Erforderliche Komponenten

Komponente Dienst Rolle
LLM Azure OpenAI Erstellt Subabfragen aus dem Unterhaltungskontext und verwendet später Basisdaten zur Erzeugung von Antworten.
Wissensdatenbank Azure KI-Suche Koordiniert die Pipeline, stellt eine Verbindung mit Ihrem LLM her und verwaltet die Abfrageparameter.
Wissensquelle Azure KI-Suche Umschließt den Suchindex mit Eigenschaften, die sich auf die Knowledge Base-Nutzung beziehen
Suchindex Azure KI-Suche Speichert ihre durchsuchbaren Inhalte (Text und Vektoren) mit semantischer Konfiguration
Semantisches Bewertungssystem Azure KI-Suche Wird intern von der agentischen Retrieval-Pipeline verwendet, um Ergebnisse hinsichtlich ihrer Relevanz neu zu bewerten (L2-Neubewertung).

Integrationsanforderungen

Ihre Anwendung steuert die Pipeline, indem sie die Knowledge Base aufruft und die Antwort verarbeitet. Die Pipeline gibt Grundlagendaten zurück, die Sie an ein LLM zur Antwortgenerierung in Ihrer Konversationsschnittstelle übergeben. Details zur Implementierung finden Sie im Lernprogramm: Erstellen einer End-to-End-Agentic-Abruflösung.

Hinweis

Nur gpt-4o-, gpt-4.1- und gpt-5-Serienmodelle werden für die Abfrageplanung unterstützt. Sie können ein beliebiges Modell für die endgültige Antwortgenerierung verwenden.

Verfügbarkeit und Preise

Agentic-Abruf ist in ausgewählten Regionen verfügbar. Wissensquellen und Wissensdatenbanken haben auch Höchstgrenzen, die je nach Preisniveau und Abrufaufwand variieren.

Abrechnung

Agentic-Abruf verursacht Gebühren von zwei Diensten:

  • Azure KI-Suche stellt Gebühren in Rechnung für die während der Ausführung von Unterabfragen und der semantischen Rangfolge verbrauchten Abruf-Token. Der kostenlose Plan (standardmäßig) bietet ein monatliches Token-Kontingent. Der Standardplan ermöglicht eine Abrechnung nach Verbrauch, sobald das kostenlose Freikontingent aufgebraucht ist. Weitere Informationen finden Sie unter Aktivieren oder Deaktivieren von agentischer Abrufabrechnung.

  • Azure OpenAI stellt Rechnungen für Eingabe- und Ausgabetoken, die in der LLM-basierten Abfrageplanung und Antwortsynthese verwendet werden. Die Preisgestaltung erfolgt stets nutzungsabhängig und basiert auf dem Modell, das Sie der Wissensdatenbank zuweisen. Gebühren werden auf Ihrer Azure OpenAI-Rechnung angezeigt. Preise finden Sie unter Azure OpenAI-Preise.

In der folgenden Tabelle wird die Abrechnung zwischen der klassischen Einzelabfragepipeline und der agentischen Abrufpipeline mit mehreren Abfragen verglichen. In der klassischen Pipeline ist die abrechnende Komponente semantischer Sortierer.

Aspekt Klassische Pipeline Agentenbasiertes Abrufen
Einheit Abfragebasiert Tokenbasiert
Kosten pro Einheit Einheitliche Kosten pro Abfrage Variable Kosten pro Token (abhängig vom Abrufaufwand)
Kostenschätzung Anzahl der Geschätzten Abfragen Tokenverbrauch schätzen
Freibetrag Monatliches kostenloses Abfragekontingent Monatliches kostenloses Token-Kontingent

Beispiel: Kosten schätzen

In diesem Beispiel wird der Kostenschätzungsprozess für die Abfrageplanung und Abfrageausführung veranschaulicht, aber keine Antwortsynthese. Ihre Kosten könnten niedriger sein. Aktuelle Preise finden Sie unter Azure KI-Suche pricing und Azure OpenAI pricing.

Um die Kosten des Abfrageplans als "pay-as-you-go" in Azure OpenAI zu schätzen, gehen wir davon aus, dass gpt-4o-mini:

  • 15 Cent für 1 Millionen Eingabetoken.
  • 60 Cent für 1 Millionen Ausgabetoken.
  • 2.000 Eingabetoken für die durchschnittliche Größe einer Chatunterhaltung.
  • 350 Tokens für die durchschnittliche Ausgabeplangröße.

Geschätzte Abrechnungskosten für die Abfrageausführung

Um die Anzahl agentischer Abruftoken zu schätzen, beginnen Sie mit einer Vorstellung davon, wie ein durchschnittliches Dokument in Ihrem Index aussieht. Zum Beispiel könnten Sie Annahmen treffen:

  • 10.000 Blöcke, wobei jeder Block ein bis zwei Absätze einer PDF-Datei ist.
  • 500 Token pro Block.
  • Jede Unterabfrage ordnet bis zu 50 Blöcke neu ein.
  • Im Durchschnitt gibt es drei Unterabfragen pro Abfrageplan.

Berechnung des Preises der Ausführung

  1. Angenommen, wir erstellen 2.000 Agent-Abrufe mit drei Unterabfragen pro Plan. Dies gibt uns ca. 6.000 Gesamtabfragen.

  2. Ordnen Sie 50 Datenblöcke pro Unterabfrage neu, was insgesamt 300.000 Datenblöcke ergibt.

  3. Ein durchschnittlicher Token-Bruch beträgt 500 Token, sodass insgesamt 150 Millionen Token für das Reranking benötigt werden.

  4. Angesichts eines hypothetischen Preises von 0,022 pro Token sind 3,30 $ die Gesamtkosten für Reranking in US-Dollar.

  5. Die Kosten für den Abfrageplan: 2.000 Eingabetoken multipliziert mit 2.000 agentischen Abrufen entsprechen 4 Millionen Eingabetoken für insgesamt 60 Cent.

  6. Schätzen Sie die Ausgabekosten basierend auf einem Durchschnitt von 350 Token. Wenn wir 350 mit 2.000 agentischen Abrufen multiplizieren, erhalten wir insgesamt 700.000 Ausgabetoken für insgesamt 42 Cent.

Wenn Sie alles zusammensetzen, zahlen Sie ca. 3,30 $ für den Agentenabruf in Azure KI-Suche, 60 Cent für Eingabetoken in Azure OpenAI und 42 Cent für Ausgabetoken in Azure OpenAI, bei einem Gesamtbetrag von 1,02 $ für die Abfrageplanung. Die kombinierten Kosten für die vollständige Ausführung betragen 4,32 $.

Tipps zum Steuern von Kosten

  • Überprüfen Sie das Aktivitätsprotokoll in der Antwort, um herauszufinden, welche Abfragen für welche Quellen und welche Parameter verwendet wurden. Sie können diese Abfragen für Ihre Indizes neu erstellen und einen öffentlichen Tokenizer verwenden, um Token zu schätzen und mit der api-gemeldeten Verwendung zu vergleichen. Eine genaue Wiederherstellung einer Abfrage oder Antwort ist jedoch nicht gewährleistet. Zu den Faktoren gehören die Art der Wissensquelle, z. B. öffentliche Webdaten oder eine Remote-SharePoint Wissensquelle, die auf eine Benutzeridentität prädiziert ist, was sich auf die Wiedergabe von Abfragen auswirken kann.

  • Verringern Sie die Anzahl der Wissensquellen (Indizes); das Konsolidieren von Inhalten kann die Verteilung (fan-out) und das Tokenvolumen reduzieren.

  • Verringern Sie den Denkaufwand, um während der Abfrageplanung und der iterativen Suche bei der Abfrageerweiterung die LLM-Nutzung zu reduzieren.

  • Organisieren Sie Inhalte so, dass die relevantesten Informationen mit weniger Quellen und Dokumenten gefunden werden können (z. B. kuratierte Zusammenfassungen oder Tabellen).

Erste Schritte

Zum Erstellen einer agentischen Abruflösung können Sie das Azure Portal, REST-APIs oder ein Azure SDK Paket verwenden, das die Funktionalität bereitstellt.

Nächster Schritt