Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Hinweis
Einige agentische Abruffeatures sind in der Regel in der REST-API 2026-04-01 verfügbar. Dieses Feature bleibt jedoch in der Vorschau und erfordert eine Vorschau-REST-API. Vorschaufunktionen werden ohne Service-Level-Agreement bereitgestellt und sind für produktive Arbeitslasten nicht empfohlen. Weitere Informationen finden Sie unter Supplementale Nutzungsbedingungen für Microsoft Azure Previews.
Important
Diese Features und Funktionen sind Teil der REST-API 2026-05-01-Preview. Die 2026-05-01-preview wird Ihnen als Teil Ihres Azure-Abonnements zur Verfügung gestellt und unterliegt den für „Previews“ geltenden Bestimmungen in den Microsoft-Produktbestimmungen, dem Nachtrag zum Datenschutz für Microsoft-Produkte und -Dienste („DPA“) und den Ergänzenden Nutzungsbedingungen für Microsoft Azure-Vorschauen.
Die Vorschauversion 2026-05-01 unterstützt Verbindungen mit anderen Microsoft-Diensten und Diensten von Drittanbietern. Die Nutzung dieser Dienste unterliegt den jeweiligen Bestimmungen und kann dazu führen, dass Daten außerhalb der Azure-Compliancegrenze verarbeitet oder gespeichert werden und dass Daten in die Azure-Compliancegrenze fließen.
Es liegt in Ihrer Verantwortung, zu verwalten, ob Ihre Daten außerhalb der Compliance- und geografischen Grenzen Ihrer Organisation und alle damit verbundenen Auswirkungen fließen und dass entsprechende Berechtigungen, Grenzen und Genehmigungen bereitgestellt werden.
Sie sind dafür verantwortlich, Anwendungen, die Sie im Kontext Ihrer spezifischen Anwendungsfälle erstellen, sorgfältig zu überprüfen und zu testen und alle geeigneten Entscheidungen und Anpassungen zu treffen. Dazu gehört die Implementierung ihrer eigenen verantwortungsvollen KI-Entschärfungen, wie Metaprompts, Inhaltsfilter oder andere Sicherheitssysteme, und sicherzustellen, dass Ihre Anwendungen angemessene Qualität, Zuverlässigkeit, Sicherheit und Vertrauenswürdigkeitsstandards erfüllen. Weitere Informationen finden Sie im Azure KI-Suche Transparenzhinweis.
Beim agentischen Abruf können Sie die Ebene der Verarbeitung eines großen Sprachmodells (LLM) für die Abfrageplanung und Die Antwortformulierung angeben. Verwenden Sie den Abruflogikaufwand (Vorschau), um LLM-Verarbeitungsstufen festzulegen, die sich auf Kosten und Latenz auswirken. Die zusätzliche LLM-Verarbeitung verbessert die Relevanz, benötigt aber auch länger und verwendet abrechnende LLM-Ressourcen.
Sie können diese Eigenschaft in einer Wissensdatenbank oder einer Abrufanforderung festlegen. Die Einstellung der Knowledge Base legt den Standard für alle Abfragen fest, während die Einstellung für die Abrufanfrage diesen Standard für jede Abfrage einzeln außer Kraft setzt.
Voraussetzungen
Ein Azure KI-Suche-Dienst mit knowledge base.
Berechtigungen zum Aktualisieren von Wissensdatenbanken. Konfigurieren Sie die schlüssellose Authentifizierung mit der Rolle "Mitwirkender des Suchdiensts ", die Ihrem Benutzerkonto zugewiesen ist (empfohlen), oder verwenden Sie einen API-Schlüssel.
Wenn die Wissensbasis ein LLM angibt, muss der Suchdienst über eine managed Identity mit Cognitive Services UserBerechtigungen für die ressource Microsoft Foundry verfügen.
Die 2026-05-01-preview REST-API oder eine entsprechende Azure SDK Vorschaupaket: .NET | Java | JavaScript | Python
Wählen Sie einen Denkaufwand aus.
Wählen Sie einen Denkaufwand je nach dem gewünschten Kompromiss zwischen Latenz, Kosten und Abruftiefe.
Begründungsanstrengungsstufen
| Ebene | Beschreibung | Empfehlung | Grenzen |
|---|---|---|---|
minimal |
Deaktiviert die auf LLM basierende Abfrageplanung, um die Kosten und Latenz bei der Verwendung von agentisch gesteuerten Abrufen zu minimieren. Es gibt direkte Text- und Vektorsuchen in den Wissensquellen aus, die in der Wissensbasis aufgeführt sind, und gibt die am besten passenden Passagen zurück. Da alle Wissensquellen in der Wissensbasis immer durchsucht werden und keine Abfrageerweiterung ausgeführt wird, ist das Verhalten vorhersehbar und einfach zu steuern. Dies bedeutet auch, dass die alwaysQueryKnowledgeSource Eigenschaft für eine Abrufanforderung ignoriert wird. |
Verwenden Sie minimal sie für Migrationen aus der Such-API oder wenn Sie die Abfrageplanung selbst verwalten möchten. |
|
low |
Der Standardmodus des agentischen Abrufs, wobei ein einzelner Pass der LLM-basierten Abfrageplanung und der Wissensquellenauswahl ausgeführt wird. Das agentische Abrufmodul generiert Unterabfragen und fächert sie an die ausgewählten Wissensquellen weiter und führt dann die Ergebnisse zusammen. Sie können die Antwortsynthese ermöglichen, um eine geerdete natürliche Sprachantwort mit Inlinezitationen zu erzeugen. | Verwenden Sie low, wenn Sie ein Gleichgewicht zwischen minimaler Latenz und umfangreicherer Verarbeitung wünschen. |
|
medium |
Fügt eine tiefere Suche und einen erweiterten Abrufstapel zum agentischen Abruf hinzu, um die Vollständigkeit zu maximieren. Nachdem die erste Suche durchgeführt wurde, wertet ein präziser semantischer Klassifizierer die abgerufenen Dokumente aus, um festzustellen, ob eine weitere Verarbeitung und L3-Rangfolge erforderlich ist. Wenn die anfänglichen Ergebnisse des ersten Durchlaufs für die Abfrage unzureichend relevant sind, wird eine Nachverfolgungs iteration mithilfe eines überarbeiteten Abfrageplans durchgeführt. Dieser überarbeitete Abfrageplan berücksichtigt die vorherigen Ergebnisse und iteriert durch Feinabstimmung von Abfragen, Erweitern von Begriffen oder Hinzufügen anderer Wissensquellen wie das Web. Es erhöht auch die Ressourcengrenzwerte im Vergleich zu geringem und minimalem Aufwand. Dieses Denkniveau optimiert die Relevanz statt der vollständigen Erinnerung. | Verwenden Sie medium, um den Nutzen des LLM-gestützten Wissensabrufs zu maximieren. |
|
Iterative Suche für mittlere Abrufe
Ein mittlerer Abruf von Gründen bietet iterative Suche, wenn die anfänglichen Ergebnisse nicht ausreichend relevant sind. Ein zusätzliches semantisches Klassifizierermodell wird aufgerufen, um festzustellen, ob eine zweite Iteration erforderlich ist.
Der semantische Klassifizierer:
Erkennt, wenn genügend Kontext vorhanden ist, um die Frage zu beantworten.
Erneute Versuche bei unzureichenden Ergebnissen unter Verwendung vorhandener Informationen für den Kontext. Neue Abfragen können einen Drilldown für genauere Details ausführen oder die Suche erweitern. Das Aktivitätsprotokoll in der Antwort zeigt die generierten Abfragen an, die für eine umfassendere Antwort verwendet werden.
Neubewertung unter Verwendung der L3-Klassifikation. Der Bereich ist identisch mit der L2-Rangfolge, einem absoluten Bereich von Null bis 4,0.
Es gibt nur einen Wiederholungsversuch. Jede Iteration fügt Latenz und Kosten hinzu, sodass das System den Wiederholungsversuche auf einen Durchlauf beschränkt. Eine zweite Iteration fügt der Abfragepipeline Eingabe-Token hinzu, was zur insgesamt in Rechnung stellbaren Eingabe-Token-Anzahl beiträgt.
Iteration kann verschiedene Quellen wiederverwenden oder auswählen. Der zweite Durchgang wählt die vielversprechendste Wissensressource aus, um die fehlenden Informationen bereitzustellen.
Regionsunterstützung für mittleren Abruf
Sie können einen mittleren Abrufbegründungsaufwand festlegen, wenn sich Ihr Suchdienst in einer der folgenden Regionen befindet:
- Ost-USA 2
- Ost-USA
- Süd-Mittel-USA
- USA, Westen 3
- USA, Westen 2
- USA, Westen
- Deutschland West Central
- Nordeuropa
- Schweiz Nord
- Schweden Zentral
- Spanien Zentral
- Vereinigtes Königreich Süd
- Korea Zentral
- Japan Ost
- Südostasien
Festlegen des Begründungsaufwands in einer Wissensbasis
In diesem Abschnitt wird gezeigt, wie Sie den Reasoning-Aufwand für den Abruf in einer vorhandenen Wissensbasis festlegen. Obwohl Sie diese Konfiguration für neue Wissensdatenbanken verwenden können, liegt die Erstellung von Knowledge Basen außerhalb des Umfangs dieses Artikels.
Um das Standardverhalten festzulegen, legen Sie in der Knowledge Base-Definition fest retrievalReasoningEffort .
### Set retrieval reasoning effort in a knowledge base
PUT {{search-url}}/knowledgebases/{{knowledge-base-name}}?api-version=2026-05-01-preview
Content-Type: application/json
api-key: {{api-key}}
{
"name": "{{knowledge-base-name}}",
"knowledgeSources": [ ... // OMITTED FOR BREVITY ],
"retrievalReasoningEffort": {
"kind": "low"
}
}
Referenz:Knowledge Basen – Erstellen oder Aktualisieren
Festlegen des Aufwands für die Begründung in einer Abruf-Anforderung
Um die Standardeinstellung für jede Abfrage einzeln zu überschreiben, setzen Sie retrievalReasoningEffort im Anforderungstext der Retrieve-Anforderung fest.
### Override retrieval reasoning effort in a retrieve request
POST {{search-url}}/knowledgebases/{{knowledge-base-name}}/retrieve?api-version=2026-05-01-preview
Content-Type: application/json
api-key: {{api-key}}
{
"messages": [ ... // OMITTED FOR BREVITY ],
"retrievalReasoningEffort": {
"kind": "low"
},
"outputMode": "answerSynthesis",
"maxRuntimeInSeconds": 30,
"maxOutputSize": 6000
}
Reference:Knowledge Retrieval - Abrufen