Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Important
In diesem Artikel markierte Elemente (Vorschau) befinden sich derzeit in der öffentlichen Vorschau. Diese Vorschau wird ohne Vereinbarung auf Serviceebene bereitgestellt und wird für Produktionsworkloads nicht empfohlen. Bestimmte Features werden möglicherweise nicht unterstützt oder weisen eingeschränkte Funktionen auf. Weitere Informationen finden Sie unter Supplementale Nutzungsbedingungen für Microsoft Azure Previews.
Microsoft Foundry umfasst integrierte Bewerter, um die Qualität, Sicherheit und Zuverlässigkeit von KI-Antworten während des gesamten Entwicklungslebenszyklus zu bewerten. In dieser Referenz werden alle verfügbaren Bewerter, ihre Zwecke und Anleitungen zum Auswählen des richtigen Für Ihren Anwendungsfall aufgeführt. Sie können auch benutzerdefinierte Bewerter erstellen, die auf Ihre spezifischen Bewertungskriterien zugeschnitten sind.
Allgemeine Bewertungen
| Evaluator | Purpose |
|---|---|
| Coherence | Misst logische Konsistenz und Reaktionsfluss. |
| Fluency | Misst qualität und Lesbarkeit der natürlichen Sprache. |
Weitere Informationen finden Sie unter "Allgemeine Bewertungen".
Textbezogene Ähnlichkeitsbewertungen
| Evaluator | Purpose |
|---|---|
| Similarity | KI-unterstützte Textgleichheitsmessung. |
| F1 Score | Harmonisches Mittel der Präzision und Rückruf im Token überlappt zwischen Reaktion und Bodenwahrung. |
| BLEU | Zweisprachige Bewertungs-Understudy-Bewertung für Übersetzungsqualitätsmaßnahmen überlappen sich in n-Gramm zwischen Reaktion und Bodenwahrung. |
| GLEU | Google-BLEU Variante für Bewertungsmaße auf Satzebene überschneidet sich in n-Grammen zwischen Antwort und Ground Truth. |
| ROUGE | Recall-Oriented Understudy for Gisting Evaluation Messgrößen überschneiden sich in n-Gramm zwischen Response und Ground Truth. |
| METEOR | Metrik für die Auswertung der Übersetzung mit expliziten Sortierungsmaßen überlappen sich in n-Gramm zwischen Reaktion und Bodenwahrung. |
Weitere Informationen finden Sie unter "Textbezogene Ähnlichkeitsbewertungen".
RAG evaluators
| Evaluator | Purpose |
|---|---|
| Retrieval | Misst, wie effektiv das System relevante Informationen abruft. |
| Document Retrieval | Misst die Genauigkeit bei abrufergebnissen gegebener Bodenwahrheit. |
| Groundedness | Misst, wie sich die Antwort im abgerufenen Kontext befindet. Gibt eine Bewertung von 1 bis 5 mithilfe eines modellbasierten Urteils zurück. |
| Geerdetheit Pro (Vorschau) | Misst, ob die Antwort im abgerufenen Kontext mithilfe des Azure KI Inhaltssicherheit-Diensts geerdet wird. Gibt einen binären Pass/Fail zurück, ohne dass eine Modellbereitstellung erforderlich ist. |
| Relevance | Misst, wie relevant die Antwort in Bezug auf die Abfrage ist. |
| Antwort-Vollständigkeit (Vorschau) | Maßnahmen, in welchem Umfang die Antwort abgeschlossen ist (keine kritischen Informationen fehlen) im Hinblick auf die Bodenwahrung. |
Weitere Informationen finden Sie unter "Retrieval-Augmented Generation (RAG)-Evaluatoren".
Risiko- und Sicherheitsbewertungen
| Evaluator | Purpose |
|---|---|
| Hass und Unfairness | Identifiziert voreingenommene, diskriminierende oder hassfähige Inhalte. |
| Sexual | Identifiziert unangemessene sexuelle Inhalte. |
| Violence | Erkennt gewaltsame Inhalte oder Aufregung. |
| Self-Harm | Erkennt Inhalte, die Selbstschäden fördern oder beschreiben. |
| Protected Materials | Erkennt nicht autorisierte Verwendung urheberrechtlich geschützter oder geschützter Inhalte. |
| Indirekter Angriff (XPIA) | Misst, ob die Antwort auf einen indirekten Jailbreak-Versuch fiel, der durch den abgerufenen Kontext injiziert wurde. |
| Code Vulnerability | Identifiziert Sicherheitsprobleme im generierten Code. |
| Ungrounded Attributes | Erkennt fabricierte oder halluzinierte Informationen, die von Benutzerinteraktionen abgeleitet werden. |
| Verbotene Aktionen (Vorschau) | Misst die Fähigkeit eines KI-Agents, verhaltensweisen zu interagieren, die explizit unzulässige Aktionen verletzen. |
| Vertrauliche Datenlecks (Vorschau) | Misst die Sicherheitsanfälligkeit eines KI-Agents, um vertrauliche Informationen verfügbar zu machen. |
Weitere Informationen finden Sie unter Risiko- und Sicherheitsbewertungen.
Agent evaluators
| Evaluator | Purpose |
|---|---|
| Aufgabentreue (Vorschau) | Misst, ob der Agent anhand von systemanweisungen identifizierten Aufgaben folgt. |
| Vorgangsabschluss (Vorschau) | Misst, ob der Agent den angeforderten Vorgang erfolgreich abgeschlossen hat. |
| Intent-Auflösung (Vorschau) | Misst, wie genau der Agent Benutzerabsichten identifiziert und adressiert. |
| Effizienz der Vorgangsnavigation | Bestimmt, ob die Sequenz der Schritte des Agents mit einem optimalen oder erwarteten Pfad übereinstimmt, um die Effizienz zu messen. |
| Genauigkeit des Toolaufrufs | Misst die Gesamtqualität von Toolaufrufen, einschließlich Auswahl, Parameterkorrektur und Effizienz. |
| Tool Selection | Misst, ob der Agent die am besten geeigneten und effizientesten Tools für einen Vorgang ausgewählt hat. |
| Eingabegenauigkeit des Tools | Überprüft, ob alle Parameter für Den Toolaufruf mit strengen Kriterien wie Erdung, Typ, Format, Vollständigkeit und Angemessenheit korrekt sind. |
| Toolausgabeverwendung | Misst, ob der Agent Die Toolausgabe in Antworten und nachfolgenden Aufrufen ordnungsgemäß interpretiert und verwendet. |
| Erfolg des Toolaufrufs | Wertet aus, ob alle Toolaufrufe ohne technische Fehler erfolgreich ausgeführt werden. |
Weitere Informationen finden Sie unter Agent-Bewertungen.
Azure OpenAI-Grader
| Evaluator | Purpose |
|---|---|
| Model Labeler | Klassifiziert Inhalte mithilfe von benutzerdefinierten Richtlinien und Bezeichnungen. |
| String Checker | Führt flexible Textüberprüfungen und Musterabgleiche durch. |
| Text Similarity | Wertet die Textqualität aus oder bestimmt die semantische Nähe. |
| Model Scorer | Generiert numerische Bewertungen (angepasster Bereich) für Inhalte basierend auf benutzerdefinierten Richtlinien. |
Weitere Informationen finden Sie unter Azure OpenAI Graders.
Benutzerdefinierte Auswertungen (Vorschau)
Zusätzlich zu integrierten Bewertern können Sie benutzerdefinierte Bewerter erstellen, die auf Ihre spezifischen Bewertungskriterien zugeschnitten sind. Mit benutzerdefinierten Bewertern können Sie eindeutige Bewertungslogik, Validierungsregeln und Qualitätsmetriken definieren, die ihren geschäftlichen Anforderungen und anwendungsspezifischen Anforderungen entsprechen.
Weitere Informationen finden Sie unter "Benutzerdefinierte Auswertungen".
Combining evaluators
Kombinieren Sie für eine umfassende Qualitätsbewertung mehrere Bewertungen:
- RAG-Anwendungen: Abruf + Erdung + Relevanz + Inhaltssicherheit
- Agent-Anwendungen: Tool-Anrufgenauigkeit + Aufgabenbefolgung + Absichtsauflösung + Inhaltssicherheit
- Übersetzungsanwendungen: BLEU + METEOR + Fluency + Coherence
- Alle Anwendungen: Fügen Sie Risiko- und Sicherheitsprüfer hinzu (Hass und Ungerechtigkeit, Sexualität, Gewalt Self-Harm) für verantwortungsvolle KI-Praktiken