Referenz zu integrierten Evaluatoren

Important

In diesem Artikel markierte Elemente (Vorschau) befinden sich derzeit in der öffentlichen Vorschau. Diese Vorschau wird ohne Vereinbarung auf Serviceebene bereitgestellt und wird für Produktionsworkloads nicht empfohlen. Bestimmte Features werden möglicherweise nicht unterstützt oder weisen eingeschränkte Funktionen auf. Weitere Informationen finden Sie unter Supplementale Nutzungsbedingungen für Microsoft Azure Previews.

Microsoft Foundry umfasst integrierte Bewerter, um die Qualität, Sicherheit und Zuverlässigkeit von KI-Antworten während des gesamten Entwicklungslebenszyklus zu bewerten. In dieser Referenz werden alle verfügbaren Bewerter, ihre Zwecke und Anleitungen zum Auswählen des richtigen Für Ihren Anwendungsfall aufgeführt. Sie können auch benutzerdefinierte Bewerter erstellen, die auf Ihre spezifischen Bewertungskriterien zugeschnitten sind.

Allgemeine Bewertungen

Evaluator Purpose
Coherence Misst logische Konsistenz und Reaktionsfluss.
Fluency Misst qualität und Lesbarkeit der natürlichen Sprache.

Weitere Informationen finden Sie unter "Allgemeine Bewertungen".

Textbezogene Ähnlichkeitsbewertungen

Evaluator Purpose
Similarity KI-unterstützte Textgleichheitsmessung.
F1 Score Harmonisches Mittel der Präzision und Rückruf im Token überlappt zwischen Reaktion und Bodenwahrung.
BLEU Zweisprachige Bewertungs-Understudy-Bewertung für Übersetzungsqualitätsmaßnahmen überlappen sich in n-Gramm zwischen Reaktion und Bodenwahrung.
GLEU Google-BLEU Variante für Bewertungsmaße auf Satzebene überschneidet sich in n-Grammen zwischen Antwort und Ground Truth.
ROUGE Recall-Oriented Understudy for Gisting Evaluation Messgrößen überschneiden sich in n-Gramm zwischen Response und Ground Truth.
METEOR Metrik für die Auswertung der Übersetzung mit expliziten Sortierungsmaßen überlappen sich in n-Gramm zwischen Reaktion und Bodenwahrung.

Weitere Informationen finden Sie unter "Textbezogene Ähnlichkeitsbewertungen".

RAG evaluators

Evaluator Purpose
Retrieval Misst, wie effektiv das System relevante Informationen abruft.
Document Retrieval Misst die Genauigkeit bei abrufergebnissen gegebener Bodenwahrheit.
Groundedness Misst, wie sich die Antwort im abgerufenen Kontext befindet. Gibt eine Bewertung von 1 bis 5 mithilfe eines modellbasierten Urteils zurück.
Geerdetheit Pro (Vorschau) Misst, ob die Antwort im abgerufenen Kontext mithilfe des Azure KI Inhaltssicherheit-Diensts geerdet wird. Gibt einen binären Pass/Fail zurück, ohne dass eine Modellbereitstellung erforderlich ist.
Relevance Misst, wie relevant die Antwort in Bezug auf die Abfrage ist.
Antwort-Vollständigkeit (Vorschau) Maßnahmen, in welchem Umfang die Antwort abgeschlossen ist (keine kritischen Informationen fehlen) im Hinblick auf die Bodenwahrung.

Weitere Informationen finden Sie unter "Retrieval-Augmented Generation (RAG)-Evaluatoren".

Risiko- und Sicherheitsbewertungen

Evaluator Purpose
Hass und Unfairness Identifiziert voreingenommene, diskriminierende oder hassfähige Inhalte.
Sexual Identifiziert unangemessene sexuelle Inhalte.
Violence Erkennt gewaltsame Inhalte oder Aufregung.
Self-Harm Erkennt Inhalte, die Selbstschäden fördern oder beschreiben.
Protected Materials Erkennt nicht autorisierte Verwendung urheberrechtlich geschützter oder geschützter Inhalte.
Indirekter Angriff (XPIA) Misst, ob die Antwort auf einen indirekten Jailbreak-Versuch fiel, der durch den abgerufenen Kontext injiziert wurde.
Code Vulnerability Identifiziert Sicherheitsprobleme im generierten Code.
Ungrounded Attributes Erkennt fabricierte oder halluzinierte Informationen, die von Benutzerinteraktionen abgeleitet werden.
Verbotene Aktionen (Vorschau) Misst die Fähigkeit eines KI-Agents, verhaltensweisen zu interagieren, die explizit unzulässige Aktionen verletzen.
Vertrauliche Datenlecks (Vorschau) Misst die Sicherheitsanfälligkeit eines KI-Agents, um vertrauliche Informationen verfügbar zu machen.

Weitere Informationen finden Sie unter Risiko- und Sicherheitsbewertungen.

Agent evaluators

Evaluator Purpose
Aufgabentreue (Vorschau) Misst, ob der Agent anhand von systemanweisungen identifizierten Aufgaben folgt.
Vorgangsabschluss (Vorschau) Misst, ob der Agent den angeforderten Vorgang erfolgreich abgeschlossen hat.
Intent-Auflösung (Vorschau) Misst, wie genau der Agent Benutzerabsichten identifiziert und adressiert.
Effizienz der Vorgangsnavigation Bestimmt, ob die Sequenz der Schritte des Agents mit einem optimalen oder erwarteten Pfad übereinstimmt, um die Effizienz zu messen.
Genauigkeit des Toolaufrufs Misst die Gesamtqualität von Toolaufrufen, einschließlich Auswahl, Parameterkorrektur und Effizienz.
Tool Selection Misst, ob der Agent die am besten geeigneten und effizientesten Tools für einen Vorgang ausgewählt hat.
Eingabegenauigkeit des Tools Überprüft, ob alle Parameter für Den Toolaufruf mit strengen Kriterien wie Erdung, Typ, Format, Vollständigkeit und Angemessenheit korrekt sind.
Toolausgabeverwendung Misst, ob der Agent Die Toolausgabe in Antworten und nachfolgenden Aufrufen ordnungsgemäß interpretiert und verwendet.
Erfolg des Toolaufrufs Wertet aus, ob alle Toolaufrufe ohne technische Fehler erfolgreich ausgeführt werden.

Weitere Informationen finden Sie unter Agent-Bewertungen.

Azure OpenAI-Grader

Evaluator Purpose
Model Labeler Klassifiziert Inhalte mithilfe von benutzerdefinierten Richtlinien und Bezeichnungen.
String Checker Führt flexible Textüberprüfungen und Musterabgleiche durch.
Text Similarity Wertet die Textqualität aus oder bestimmt die semantische Nähe.
Model Scorer Generiert numerische Bewertungen (angepasster Bereich) für Inhalte basierend auf benutzerdefinierten Richtlinien.

Weitere Informationen finden Sie unter Azure OpenAI Graders.

Benutzerdefinierte Auswertungen (Vorschau)

Zusätzlich zu integrierten Bewertern können Sie benutzerdefinierte Bewerter erstellen, die auf Ihre spezifischen Bewertungskriterien zugeschnitten sind. Mit benutzerdefinierten Bewertern können Sie eindeutige Bewertungslogik, Validierungsregeln und Qualitätsmetriken definieren, die ihren geschäftlichen Anforderungen und anwendungsspezifischen Anforderungen entsprechen.

Weitere Informationen finden Sie unter "Benutzerdefinierte Auswertungen".

Combining evaluators

Kombinieren Sie für eine umfassende Qualitätsbewertung mehrere Bewertungen:

  • RAG-Anwendungen: Abruf + Erdung + Relevanz + Inhaltssicherheit
  • Agent-Anwendungen: Tool-Anrufgenauigkeit + Aufgabenbefolgung + Absichtsauflösung + Inhaltssicherheit
  • Übersetzungsanwendungen: BLEU + METEOR + Fluency + Coherence
  • Alle Anwendungen: Fügen Sie Risiko- und Sicherheitsprüfer hinzu (Hass und Ungerechtigkeit, Sexualität, Gewalt Self-Harm) für verantwortungsvolle KI-Praktiken