Auswerten von generativer KI

3 Minuten

Bewertungen sind systematische Prozesse zur Bewertung der Leistung, Zuverlässigkeit und Wirksamkeit von generativen KI-Anwendungen. Diese Bewertungen umfassen eine Reihe von Tests und Metriken, die darauf ausgelegt sind, zu quantifizieren, wie gut ein KI-Modell seine beabsichtigte Aufgabe ausführt. Ziel ist es, sicherzustellen, dass sich die KI-Anwendung erwartungsgemäß verhält und in verschiedenen Szenarien genaue und relevante Ergebnisse liefert.

Bewertungen sind aus mehreren Gründen von entscheidender Bedeutung:

Qualitätssicherung: Sie helfen dabei, sicherzustellen, dass die KI-Systeme die gewünschten Standards für Genauigkeit und Zuverlässigkeit erfüllen.
Leistungsmetriken: Auswertungen liefern wesentliche Daten über die Effektivität der Ergebnisse der KI-App, wobei Bereiche zur Verbesserung hervorgehoben werden.
Bias Detection: Sie helfen bei der Identifizierung und Messung der Prävalenz von Verzerrungen, die im KI-Modell vorhanden sind, wobei Bereiche zur Verbesserung hervorgehoben werden.
Benutzervertrauen: KI-Anwendungen, die konsistent gut funktionieren, helfen, Vertrauen mit Benutzern zu schaffen, höhere Zufriedenheit und Nutzung zu verdienen.

KI-unterstützte Auswertungen mit Azure

Die Bewertung von Modellen der künstlichen Intelligenz stellt aufgrund ihrer dynamischen und oft kreativen Ergebnisse einzigartige Herausforderungen dar. Herkömmliche Auswertungsmethoden erfassen möglicherweise nicht vollständig die Ungenauigkeiten von generativen Modellen und erfordern spezialisiertere Ansätze. So stellen wir KI-unterstützte Auswertungen bereit, die maschinelle Lerntechniken verwenden, um den Evaluierungsprozess zu erweitern. Die Auswahl von Modellen für die KI-unterstützte Auswertung kann die Ergebnisse erheblich beeinflussen. Daher empfehlen wir, Ihre Auswertungen mit dem unterstützten GPT 3.5-, GPT 4- oder Davinci-Modell für Ihre Berechnungen zu testen und zu vergleichen.

Sie haben die Flexibilität, Evaluierungen mit Azure entweder über die Benutzeroberfläche in Azure AI Foundry oder programmgesteuert mit dem Azure AI Evaluation SDK auszuführen. Beide Tools bieten Zugriff auf eine Reihe von Leistungs- und Qualitäts- und Risiko- und Sicherheitsmetriken. Programmgesteuert können Sie jedoch auch eigene codebasierte und promptbasierte benutzerdefinierte Auswertungen erstellen und ihre benutzerdefinierten Bewerter auch bei Ihrem Azure AI-Projekt protokollieren.

Bewerten mit Azure AI Foundry

Azure AI Foundry unterstützt die Ausführung manueller und automatisierter Auswertungen. Die manuelle Auswertung ermöglicht es menschlichen Bewertenden, generierte Ergebnisse sowohl für manuelle Eingaben als auch für einen hochgeladenen Datensatz manuell zu bewerten. Nachdem Sie die Auswertung abgeschlossen haben, können Sie jeder Antwort einen Daumen hoch oder runter geben, um das Ergebnis der Eingabeaufforderung zu beurteilen. Beim Abmildern bestimmter Risiken ist es hilfreich, den Fortschritt manuell mit einem kleinen Datensatz zu überprüfen, bis Anzeichen des Risikos nicht mehr beobachtet werden, bevor man zur automatisierten Auswertung übergeht.

Mithilfe der automatisierten Auswertung können Sie Ausgaben für jede Datenzeile in Ihrem Test-Dataset generieren. Sie können eine oder mehrere integrierte Auswertungsmetriken auswählen, um die Ausgabe für verschiedene Qualitäten zu bewerten.

Auswerten mit dem Azure KI-Auswertungs-SDK

Anhand eines Testdatasets oder eines Ziels werden die Generierungen Ihrer generativen KI-Anwendung quantitativ mit mathematischen Metriken und KI-gestützten Qualitäts- und Sicherheitsauswertungen gemessen. Integrierte oder benutzerdefinierte Auswertungsfunktionen bieten Ihnen umfassende Einblicke in die Fähigkeiten und Grenzen der Anwendung. Die programmgesteuerte Durchführung von Auswertungen bietet die Flexibilität, in vorhandene Workflows und Pipelines zu integrieren. Obwohl programmgesteuerte Auswertungen nicht in Azure AI Foundry ausgeführt werden, können Sie Ihre Auswertungsergebnisse in Ihrem Azure AI Foundry-Projekt nachverfolgen und vergleichen.

Im Allgemeinen sollte ein Gleichgewicht zwischen automatisierten und menschlichen Bewertungen bestehen. Um quantitative und qualitative Erkenntnisse zu erfassen, verwenden Sie eine Kombination aus KI-unterstützten Bewertungen und menschlicher Bewertung.

Feedback

War diese Seite hilfreich?