Agentenbasierter Abruf in Azure KI-Suche

Hinweis

Einige agentische Abruffeatures sind in der Regel über programmgesteuerten Zugriff in der REST-API 2026-04-01 verfügbar. Das Azure Portal und Microsoft Foundry-Portal bieten weiterhin Nur-Vorschau-Zugriff auf alle agentischen Abruffunktionen. Anleitungen für die Migration, einschließlich einer Aufschlüsselung der allgemein verfügbaren Informationen und was in der Vorschau verbleibt, finden Sie unter Migrieren von agentischem Abrufcode zur neuesten Version.

Wenn Sie eine Vorschau-REST-API verwenden, können Sie auf agentische Abruffunktionen zugreifen, die noch nicht allgemein verfügbar sind. Vorschaufunktionen werden ohne Service-Level-Vereinbarung bereitgestellt und sind für Produktionsworkloads nicht empfohlen. Weitere Informationen finden Sie unter Supplementale Nutzungsbedingungen für Microsoft Azure Previews.

Important

Diese Features und Funktionen sind Teil der REST-API 2026-05-01-Preview. Die 2026-05-01-preview wird Ihnen als Teil Ihres Azure-Abonnements zur Verfügung gestellt und unterliegt den für „Previews“ geltenden Bestimmungen in den Microsoft-Produktbestimmungen, dem Nachtrag zum Datenschutz für Microsoft-Produkte und -Dienste („DPA“) und den Ergänzenden Nutzungsbedingungen für Microsoft Azure-Vorschauen.

Die Vorschauversion 2026-05-01 unterstützt Verbindungen mit anderen Microsoft-Diensten und Diensten von Drittanbietern. Die Nutzung dieser Dienste unterliegt den jeweiligen Bestimmungen und kann dazu führen, dass Daten außerhalb der Azure-Compliancegrenze verarbeitet oder gespeichert werden und dass Daten in die Azure-Compliancegrenze fließen.

Es liegt in Ihrer Verantwortung, zu verwalten, ob Ihre Daten außerhalb der Compliance- und geografischen Grenzen Ihrer Organisation und alle damit verbundenen Auswirkungen fließen und dass entsprechende Berechtigungen, Grenzen und Genehmigungen bereitgestellt werden.

Sie sind dafür verantwortlich, Anwendungen, die Sie im Kontext Ihrer spezifischen Anwendungsfälle erstellen, sorgfältig zu überprüfen und zu testen und alle geeigneten Entscheidungen und Anpassungen zu treffen. Dazu gehört die Implementierung ihrer eigenen verantwortungsvollen KI-Entschärfungen, wie Metaprompts, Inhaltsfilter oder andere Sicherheitssysteme, und sicherzustellen, dass Ihre Anwendungen angemessene Qualität, Zuverlässigkeit, Sicherheit und Vertrauenswürdigkeitsstandards erfüllen. Weitere Informationen finden Sie im Azure KI-Suche Transparenzhinweis.

In Azure KI-Suche ist Agent-Abruf eine Multiabfragepipeline, die für komplexe Fragen konzipiert ist, die von Benutzern oder Agents in Chat- und Copilot-Apps gestellt werden. Es ist für RAG-Muster (Retrieval Augmented Generation ) und Agent-zu-Agent-Workflows vorgesehen.

Hier erfahren Sie, was dies tut:

  • Kann ein großes Sprachmodell (LLM) verwenden, um eine komplexe Abfrage in kleinere, fokussierte Unterabfragen aufzuteilen, um eine bessere Abdeckung über proprietäre und externe Inhalte zu gewährleisten. Unterabfragen können den Chatverlauf für zusätzlichen Kontext enthalten.

  • Führt Unterabfragen parallel aus. Jede Unterabfrage wird semantisch neu bewertet, um die relevantesten Übereinstimmungen höher zu stufen.

  • Kombiniert die besten Ergebnisse in einer einheitlichen Antwort, die ein LLM verwenden kann, um geerdete Antworten zu generieren.

  • Es kann Quellverweise und ein Aktivitätsprotokoll zusammen mit den zusammengeführten Inhalten zurückgeben, sodass Sie entweder nur die Grounding-Daten verwenden oder sie für eine vollständige Antwort an ein LLM weitergeben können.

Diese leistungsstarke Pipeline hilft Ihnen, qualitativ hochwertige Bodendaten oder Antworten für Ihre Chatanwendung zu generieren, mit der Möglichkeit, komplexe Fragen schnell zu beantworten.

Warum Agentic-Abruf verwenden?

Es gibt zwei Anwendungsfälle für den agentengesteuerten Abruf. Zunächst unterstützt sie Foundry IQ im Microsoft Foundry-Portal, indem sie die Wissensschicht für Agentenlösungen bereitstellt. Zweitens ist es die Basis für benutzerdefinierte agentische Lösungen, die Sie mit den Azure KI-Suche-APIs erstellen.

Verwenden Sie die agentische Suche, wenn Sie Agenten und Apps die relevantesten Inhalte zur Beantwortung schwierigerer Fragen bereitstellen möchten, gestützt auf den Chatkontext, Ihre proprietären Inhalte und externe Quellen.

Die agentische Suche erhöht im Vergleich zu einer Single-Query-Pipeline die Latenz, bewältigt jedoch die Komplexität von Abfragen, die mit einer einzelnen Abfrage nicht bewältigt werden kann. So kann es z. B. folgendes behandeln:

  • Fragen mit mehreren Anliegen, z. B. „Finde mir ein Hotel in Strandnähe, mit Flughafentransfer und in fußläufiger Entfernung zu vegetarischen Restaurants.“

  • Fragen, die von einem früheren Kontext in der Unterhaltung abhängen.

  • Abfragen, die von einer Umformulierung profitieren, wobei Synonymzuordnungen und von LLMs erzeugte Paraphrasen verwendet werden, um die Abdeckung in Ihren Inhalten zu erweitern.

  • Rechtschreibfehler.

Diagramm einer komplexen Abfrage, die zeigt, wie der agentische Abruf implizierten Kontext und einen absichtlichen Tippfehler verarbeitet.

Architektur und Workflow

Der agentische Abrufvorgang funktioniert wie folgt:

  1. Workflow-Initiierung: Ihre Anwendung ruft eine Wissensbasis mit der Aktion „Abrufen“ auf und übergibt dabei eine Abfrage und den Konversationsverlauf.

  2. Abfrageplanung: Bei low und medium Reasoning-Aufwand für den Abruf sendet die Wissensdatenbank Ihre Abfrage und den Unterhaltungsverlauf an ein LLM, das gezielte Unterabfragen generiert. Bei minimal Aufwand wird dieser Schritt übersprungen und Abfragen direkt an Wissensquellen gerichtet. Der Reasoning-Aufwand ist standardmäßig auf low gesetzt und wird in der Wissensdatenbank konfiguriert.

  3. Abfrageausführung: Die Wissensdatenbank sendet die Unterabfragen an Ihre Wissensquellen. Alle Unterabfragen werden gleichzeitig ausgeführt und können Schlüsselwort, Vektor oder Hybridsuche sein. Jede Unterabfrage durchläuft eine semantische Neubewertung, um die relevantesten Übereinstimmungen zu finden. Verweise werden für Zitatzwecke extrahiert und aufbewahrt.

  4. Ergebnissynthese: Das System kombiniert alle Ergebnisse in einer einheitlichen Antwort. Zusammengeführte Inhalte werden immer zurückgegeben. Quellverweise und ein Ausführungsaktivitätsprotokoll sind optional.

Diagramm des agentischen Abrufworkflows mithilfe einer Beispielabfrage.

Components

Für alle agentischen Abrufszenarien sind eine Wissensbasis und mindestens eine Wissensquelle erforderlich. Andere Komponenten sind optional und hängen von Ihrer Konfiguration ab.

Komponente Dienst Rolle
Wissensdatenbank Azure KI-Suche Koordiniert die Pipeline, die Verwaltung von Wissensquellen und Abfrageparametern.
Wissensquelle Azure KI-Suche Definiert den Inhalt, der in der Pipeline verwendet wird. Kann indiziert werden (unterstützt durch einen Suchindex in Ihrem Dienst) oder remote sein (Inhalte werden zum Zeitpunkt der Abfrage von einer externen Plattform abgerufen).
Suchindex Azure KI-Suche Speichert durchsuchbare Inhalte (Text und Vektoren) mit einer semantischen Konfiguration. Bestimmt, welche Abfragetypen ausgeführt werden und welche Optimierungen gelten. Nur für indizierte Wissensquellen erforderlich.
Semantischer Sortierer Azure KI-Suche Wird intern von der agentenbasierten Retrieval-Pipeline verwendet, um Ergebnisse nach Relevanz neu zu ordnen (L2 reranking).
LL.M. (Master of Laws) Azure OpenAI Plant Abfragen und wählt Wissensquellen aus. Wird nur für low und medium beim Retrieval-Reasoning-Aufwand verwendet. Mit einem Aufwand von minimal umgangen.

Integrationsanforderungen

Ihre Anwendung steuert die Pipeline, indem sie die Knowledge Base aufruft und die Antwort verarbeitet. Die Pipeline gibt Grounding-Daten zurück, die Sie für die Antwortgenerierung an ein LLM übergeben oder direkt in Ihrer Konversationsoberfläche verwenden können. Details zur Implementierung finden Sie im Lernprogramm: Erstellen einer End-to-End-Agentic-Abruflösung.

Verfügbarkeit und Preise

Agentic-Abruf ist in ausgewählten Regionen verfügbar. Wissensquellen und Wissensdatenbanken haben auch Höchstgrenzen, die je nach Preisniveau und Abrufaufwand variieren.

Abrechnung

Agentic-Abruf verursacht Gebühren von zwei Diensten:

  • Azure KI-Suche stellt Gebühren in Rechnung für die während der Ausführung von Unterabfragen und der semantischen Rangfolge verbrauchten Abruf-Token. Der kostenlose Plan (standardmäßig) bietet ein monatliches Token-Kontingent. Der Standardplan ermöglicht eine Abrechnung nach Verbrauch, sobald das kostenlose Freikontingent aufgebraucht ist. Weitere Informationen finden Sie unter Aktivieren oder Deaktivieren von agentischer Abrufabrechnung.

  • Azure OpenAI stellt Rechnungen für Eingabe- und Ausgabetoken, die in der LLM-basierten Abfrageplanung und Antwortsynthese verwendet werden. Die Preisgestaltung erfolgt stets nutzungsabhängig und basiert auf dem Modell, das Sie der Wissensdatenbank zuweisen. Gebühren werden auf Ihrer Azure OpenAI-Rechnung angezeigt. Preise finden Sie unter Azure OpenAI-Preise.

In der folgenden Tabelle wird die Abrechnung zwischen der klassischen Einzelabfragepipeline und der agentischen Abrufpipeline mit mehreren Abfragen verglichen. In der klassischen Pipeline ist die abrechnende Komponente semantischer Sortierer.

Aspekt Klassische Pipeline Agentenbasiertes Abrufen
Einheit Abfragebasiert Tokenbasiert
Kosten pro Einheit Einheitliche Kosten pro Abfrage Variable Kosten pro Token (abhängig vom Abrufaufwand)
Kostenschätzung Anzahl der Geschätzten Abfragen Tokenverbrauch schätzen
Freibetrag Monatliches kostenloses Abfragekontingent Monatliches kostenloses Token-Kontingent

Beispiel: Kosten schätzen

In diesem Beispiel wird der Kostenschätzungsprozess für die Abfrageplanung und Abfrageausführung veranschaulicht, aber keine Antwortsynthese. Ihre Kosten könnten niedriger sein. Aktuelle Preise finden Sie unter Azure KI-Suche pricing und Azure OpenAI pricing.

Um die Kosten des Abfrageplans als "pay-as-you-go" in Azure OpenAI zu schätzen, gehen wir davon aus, dass gpt-4o-mini:

  • 15 Cent für 1 Millionen Eingabetoken.
  • 60 Cent für 1 Millionen Ausgabetoken.
  • 2.000 Eingabetoken für die durchschnittliche Größe einer Chatunterhaltung.
  • 350 Tokens für die durchschnittliche Ausgabeplangröße.

Geschätzte Abrechnungskosten für die Abfrageausführung

Um die Anzahl agentischer Abruftoken zu schätzen, beginnen Sie mit einer Vorstellung davon, wie ein durchschnittliches Dokument in Ihrem Index aussieht. Zum Beispiel könnten Sie Annahmen treffen:

  • 10.000 Blöcke, wobei jeder Block ein bis zwei Absätze einer PDF-Datei ist.
  • 500 Token pro Block.
  • Jede Unterabfrage ordnet bis zu 50 Blöcke neu ein.
  • Im Durchschnitt gibt es drei Unterabfragen pro Abfrageplan.

Berechnung des Preises der Ausführung

  1. Angenommen, wir erstellen 2.000 Agent-Abrufe mit drei Unterabfragen pro Plan. Dies gibt uns ca. 6.000 Gesamtabfragen.

  2. Ordnen Sie 50 Datenblöcke pro Unterabfrage neu, was insgesamt 300.000 Datenblöcke ergibt.

  3. Ein durchschnittlicher Token-Bruch beträgt 500 Token, sodass insgesamt 150 Millionen Token für das Reranking benötigt werden.

  4. Angesichts eines hypothetischen Preises von 0,022 pro Token sind 3,30 $ die Gesamtkosten für Reranking in US-Dollar.

  5. Die Kosten für den Abfrageplan: 2.000 Eingabetoken multipliziert mit 2.000 agentischen Abrufen entsprechen 4 Millionen Eingabetoken für insgesamt 60 Cent.

  6. Schätzen Sie die Ausgabekosten basierend auf einem Durchschnitt von 350 Token. Wenn wir 350 mit 2.000 agentischen Abrufen multiplizieren, erhalten wir insgesamt 700.000 Ausgabetoken für insgesamt 42 Cent.

Wenn Sie alles zusammensetzen, zahlen Sie ca. 3,30 $ für den Agentenabruf in Azure KI-Suche, 60 Cent für Eingabetoken in Azure OpenAI und 42 Cent für Ausgabetoken in Azure OpenAI, bei einem Gesamtbetrag von 1,02 $ für die Abfrageplanung. Die kombinierten Kosten für die vollständige Ausführung betragen 4,32 $.

Tipps zum Steuern von Kosten

  • Überprüfen Sie das Aktivitätsprotokoll in der Antwort, um herauszufinden, welche Abfragen für welche Quellen und welche Parameter verwendet wurden. Sie können diese Abfragen für Ihre Indizes neu erstellen und einen öffentlichen Tokenizer verwenden, um Token zu schätzen und mit der api-gemeldeten Verwendung zu vergleichen. Eine genaue Wiederherstellung einer Abfrage oder Antwort ist jedoch nicht gewährleistet. Zu den Faktoren gehören die Art der Wissensquelle, z. B. öffentliche Webdaten oder eine Remote-SharePoint Wissensquelle, die auf eine Benutzeridentität prädiziert ist, was sich auf die Wiedergabe von Abfragen auswirken kann.

  • Verringern Sie die Anzahl der Wissensquellen (Indizes); das Konsolidieren von Inhalten kann die Verteilung (fan-out) und das Tokenvolumen reduzieren.

  • Verringern Sie den Denkaufwand, um während der Abfrageplanung und der iterativen Suche bei der Abfrageerweiterung die LLM-Nutzung zu reduzieren.

  • Organisieren Sie Inhalte so, dass die relevantesten Informationen mit weniger Quellen und Dokumenten gefunden werden können (z. B. kuratierte Zusammenfassungen oder Tabellen).

Erste Schritte

Um eine agentische Abruflösung zu erstellen, können Sie das Azure Portal, Microsoft Foundry (neues) Portal, REST-APIs oder ein entsprechendes Azure SDK-Paket verwenden.

Nächster Schritt