Referenz zu integrierten Evaluatoren

Important

In diesem Artikel markierte Elemente (Vorschau) befinden sich derzeit in der öffentlichen Vorschau. Diese Vorschau wird ohne Vereinbarung auf Serviceebene bereitgestellt und wird für Produktionsworkloads nicht empfohlen. Bestimmte Features werden möglicherweise nicht unterstützt oder weisen eingeschränkte Funktionen auf. Weitere Informationen finden Sie unter Supplementale Nutzungsbedingungen für Microsoft Azure Previews.

Microsoft Foundry umfasst integrierte Bewerter, um die Qualität, Sicherheit und Zuverlässigkeit von KI-Antworten während des gesamten Entwicklungslebenszyklus zu bewerten. In dieser Referenz werden alle verfügbaren Bewerter, ihre Zwecke und Anleitungen zum Auswählen des richtigen Für Ihren Anwendungsfall aufgeführt. Sie können auch benutzerdefinierte Bewerter erstellen, die auf Ihre spezifischen Bewertungskriterien zugeschnitten sind.

Allgemeine Bewertungen

Evaluator	Purpose
Coherence	Misst logische Konsistenz und Reaktionsfluss.
Fluency	Misst qualität und Lesbarkeit der natürlichen Sprache.

Weitere Informationen finden Sie unter "Allgemeine Bewertungen".

Textbezogene Ähnlichkeitsbewertungen

Evaluator	Purpose
Similarity	KI-unterstützte Textgleichheitsmessung.
F1 Score	Harmonisches Mittel der Präzision und Rückruf im Token überlappt zwischen Reaktion und Bodenwahrung.
BLEU	Zweisprachige Bewertungs-Understudy-Bewertung für Übersetzungsqualitätsmaßnahmen überlappen sich in n-Gramm zwischen Reaktion und Bodenwahrung.
GLEU	Google-BLEU Variante für Bewertungsmaße auf Satzebene überschneidet sich in n-Grammen zwischen Antwort und Ground Truth.
ROUGE	Recall-Oriented Understudy for Gisting Evaluation Messgrößen überschneiden sich in n-Gramm zwischen Response und Ground Truth.
METEOR	Metrik für die Auswertung der Übersetzung mit expliziten Sortierungsmaßen überlappen sich in n-Gramm zwischen Reaktion und Bodenwahrung.

Weitere Informationen finden Sie unter "Textbezogene Ähnlichkeitsbewertungen".

RAG evaluators

Evaluator	Purpose
Retrieval	Misst, wie effektiv das System relevante Informationen abruft.
Document Retrieval	Misst die Genauigkeit bei abrufergebnissen gegebener Bodenwahrheit.
Groundedness	Misst, wie sich die Antwort im abgerufenen Kontext befindet. Gibt eine Bewertung von 1 bis 5 mithilfe eines modellbasierten Urteils zurück.
Geerdetheit Pro (Vorschau)	Misst, ob die Antwort im abgerufenen Kontext mithilfe des Azure KI Inhaltssicherheit-Diensts geerdet wird. Gibt einen binären Pass/Fail zurück, ohne dass eine Modellbereitstellung erforderlich ist.
Relevance	Misst, wie relevant die Antwort in Bezug auf die Abfrage ist.
Antwort-Vollständigkeit (Vorschau)	Maßnahmen, in welchem Umfang die Antwort abgeschlossen ist (keine kritischen Informationen fehlen) im Hinblick auf die Bodenwahrung.

Weitere Informationen finden Sie unter "Retrieval-Augmented Generation (RAG)-Evaluatoren".

Risiko- und Sicherheitsbewertungen

Evaluator	Purpose
Hass und Unfairness	Identifiziert voreingenommene, diskriminierende oder hassfähige Inhalte.
Sexual	Identifiziert unangemessene sexuelle Inhalte.
Violence	Erkennt gewaltsame Inhalte oder Aufregung.
Self-Harm	Erkennt Inhalte, die Selbstschäden fördern oder beschreiben.
Protected Materials	Erkennt nicht autorisierte Verwendung urheberrechtlich geschützter oder geschützter Inhalte.
Indirekter Angriff (XPIA)	Misst, ob die Antwort auf einen indirekten Jailbreak-Versuch fiel, der durch den abgerufenen Kontext injiziert wurde.
Code Vulnerability	Identifiziert Sicherheitsprobleme im generierten Code.
Ungrounded Attributes	Erkennt fabricierte oder halluzinierte Informationen, die von Benutzerinteraktionen abgeleitet werden.
Verbotene Aktionen (Vorschau)	Misst die Fähigkeit eines KI-Agents, verhaltensweisen zu interagieren, die explizit unzulässige Aktionen verletzen.
Vertrauliche Datenlecks (Vorschau)	Misst die Sicherheitsanfälligkeit eines KI-Agents, um vertrauliche Informationen verfügbar zu machen.

Weitere Informationen finden Sie unter Risiko- und Sicherheitsbewertungen.

Agent evaluators

Evaluator	Purpose
Aufgabentreue (Vorschau)	Misst, ob der Agent anhand von systemanweisungen identifizierten Aufgaben folgt.
Vorgangsabschluss (Vorschau)	Misst, ob der Agent den angeforderten Vorgang erfolgreich abgeschlossen hat.
Intent-Auflösung (Vorschau)	Misst, wie genau der Agent Benutzerabsichten identifiziert und adressiert.
Effizienz der Vorgangsnavigation	Bestimmt, ob die Sequenz der Schritte des Agents mit einem optimalen oder erwarteten Pfad übereinstimmt, um die Effizienz zu messen.
Genauigkeit des Toolaufrufs	Misst die Gesamtqualität von Toolaufrufen, einschließlich Auswahl, Parameterkorrektur und Effizienz.
Tool Selection	Misst, ob der Agent die am besten geeigneten und effizientesten Tools für einen Vorgang ausgewählt hat.
Eingabegenauigkeit des Tools	Überprüft, ob alle Parameter für Den Toolaufruf mit strengen Kriterien wie Erdung, Typ, Format, Vollständigkeit und Angemessenheit korrekt sind.
Toolausgabeverwendung	Misst, ob der Agent Die Toolausgabe in Antworten und nachfolgenden Aufrufen ordnungsgemäß interpretiert und verwendet.
Erfolg des Toolaufrufs	Wertet aus, ob alle Toolaufrufe ohne technische Fehler erfolgreich ausgeführt werden.

Weitere Informationen finden Sie unter Agent-Bewertungen.

Azure OpenAI-Grader

Evaluator	Purpose
Model Labeler	Klassifiziert Inhalte mithilfe von benutzerdefinierten Richtlinien und Bezeichnungen.
String Checker	Führt flexible Textüberprüfungen und Musterabgleiche durch.
Text Similarity	Wertet die Textqualität aus oder bestimmt die semantische Nähe.
Model Scorer	Generiert numerische Bewertungen (angepasster Bereich) für Inhalte basierend auf benutzerdefinierten Richtlinien.

Weitere Informationen finden Sie unter Azure OpenAI Graders.

Benutzerdefinierte Auswertungen (Vorschau)

Zusätzlich zu integrierten Bewertern können Sie benutzerdefinierte Bewerter erstellen, die auf Ihre spezifischen Bewertungskriterien zugeschnitten sind. Mit benutzerdefinierten Bewertern können Sie eindeutige Bewertungslogik, Validierungsregeln und Qualitätsmetriken definieren, die ihren geschäftlichen Anforderungen und anwendungsspezifischen Anforderungen entsprechen.

Weitere Informationen finden Sie unter "Benutzerdefinierte Auswertungen".

Combining evaluators

Kombinieren Sie für eine umfassende Qualitätsbewertung mehrere Bewertungen:

RAG-Anwendungen: Abruf + Erdung + Relevanz + Inhaltssicherheit
Agent-Anwendungen: Tool-Anrufgenauigkeit + Aufgabenbefolgung + Absichtsauflösung + Inhaltssicherheit
Übersetzungsanwendungen: BLEU + METEOR + Fluency + Coherence
Alle Anwendungen: Fügen Sie Risiko- und Sicherheitsprüfer hinzu (Hass und Ungerechtigkeit, Sexualität, Gewalt Self-Harm) für verantwortungsvolle KI-Praktiken

Feedback

War diese Seite hilfreich?

Last updated on 2026-04-30