Beobachtbarkeit in generativer KI

2025-05-20

Von Bedeutung

Die in diesem Artikel markierten Elemente (Vorschau) sind aktuell als öffentliche Vorschau verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.

In der heutigen KI-gesteuerten Welt revolutioniert generative AI Operations (GenAIOps), wie Organisationen intelligente Systeme erstellen und bereitstellen. Da Unternehmen zunehmend KI nutzen, um Entscheidungsfindung zu transformieren, Kundenerfahrungen zu verbessern und Innovationen zu fördern, steht ein Element von größter Bedeutung: robuste Evaluierungsframeworks. Die Auswertung ist nicht nur ein Prüfpunkt. Es ist die Grundlage des Vertrauens in KI-Anwendungen. Ohne strenge Bewertung können KI-Systeme Inhalte erzeugen, die folgendes sind:

Erfunden oder nicht in der Realität begründet
Irrelevant oder unkohärent für Benutzeranforderungen
Schädlich bei der Aufrechterhaltung von Inhaltsrisiken und der Verfestigung von Stereotypen.
Gefährlich bei der Verbreitung von Falschinformationen
Anfällig für Sicherheits exploits

Hier werden Evaluatoren wesentlich. Diese spezialisierten Tools messen sowohl die Häufigkeit als auch den Schweregrad von Risiken in KI-Ausgaben und ermöglichen es Teams, Qualität, Sicherheit und Sicherheitsbedenken während der gesamten KI-Entwicklungsreise systematisch zu behandeln – von der Auswahl des richtigen Modells zur Überwachung der Produktionsleistung, Qualität und Sicherheit.

Was sind Bewerter?

Bewertungen sind spezielle Werkzeuge, die die Qualität, Sicherheit und Zuverlässigkeit von KI-Antworten messen. Durch die Implementierung systematischer Auswertungen im gesamten LEBENSZYKLUS der KI-Entwicklung können Teams potenzielle Probleme identifizieren und beheben, bevor sie sich auf die Benutzer auswirken. Die folgenden unterstützten Bewertungsfunktionen bieten umfassende Bewertungsfunktionen für verschiedene KI-Anwendungstypen und -bedenken:

RAG (Retrieval Augmented Generation):

Auswerter	Zweck
Abruf	Misst, wie effektiv das System relevante Informationen abruft.
Dokumentabruf	Misst die Genauigkeit der Abfrageergebnisse unter Berücksichtigung der Grundwahrheit.
Verankerung	Misst, wie konsistent die Antwort in Bezug auf den abgerufenen Kontext ist.
Fundiertheit Pro	Misst, ob die Antwort im Hinblick auf den abgerufenen Kontext konsistent ist.
Relevanz	Misst, wie relevant die Antwort in Bezug auf die Anfrage ist.
Antwort-Vollständigkeit	Misst, inwieweit die Antwort in Bezug auf die Grundwahrheit vollständig ist (es fehlen keine wichtigen Informationen).

Agents (Vorschau):

Auswerter	Zweck
Auflösung der Absicht	Misst, wie genau der Agent die Benutzerabsichten erkennt und berücksichtigt.
Aufgabentreue	Misst, wie gut der Agent identifizierte Aufgaben zu Ende führt.
Genauigkeit des Toolaufrufs	Misst, wie gut der Agent die richtigen Tools auswählt und aufruft.

Allgemeiner Zweck:

Auswerter	Zweck
Geläufigkeit	Misst die Qualität und Lesbarkeit natürlicher Sprache.
Kohärenz	Misst die logische Konsistenz und die Flüssigkeit der Antworten.
Qualitätssicherung	Misst umfassend verschiedene Qualitätsaspekte bei der Beantwortung von Fragen.

Sicherheit und Sicherheit (Vorschau):

Auswerter	Zweck
Gewalt	Erkennt gewaltsame Inhalte oder Aufregung.
Sexuell	Identifiziert unangemessene sexuelle Inhalte.
Selbstverletzung	Erkennt Inhalte, die Selbstschäden fördern oder beschreiben.
Hass und Unfairness	Identifiziert voreingenommene, diskriminierende oder hassfähige Inhalte.
Nicht fundierte Attribute	Erkennt fabricierte oder halluzinierte Informationen, die von Benutzerinteraktionen abgeleitet werden.
Sicherheitsanfälligkeit in Code	Identifiziert Sicherheitsprobleme im generierten Code.
Geschützte Materialien	Erkennt nicht autorisierte Verwendung urheberrechtlich geschützter Inhalte.
Inhaltssicherheit	Umfassende Bewertung verschiedener Sicherheitsbedenken.

Textbezogene Ähnlichkeit:

Auswerter	Zweck
Ähnlichkeit	KI-unterstützte Textgleichheitsmessung.
F1-Bewertung	Harmonisches Mittel der Präzision und der Wiedererkennung in Token-Überschneidungen zwischen Antwort und Grundwahrheit.
BLEU	Die „Bilingual Evaluation Understudy“-Bewertung (Zweisprachige Bewertungsstudie) für die Übersetzungsqualität misst Überschneidungen in n-Grammen zwischen Antwort und Grundwahrheit.
GLEU	Die Google-BLEU-Variante für die Bewertung auf Satzebene misst Überschneidungen in n-Grammen zwischen der Antwort und der Grundwahrheit.
Rot	Die „Recall-Oriented Understudy for Gisting Evaluation“ (Erinnerungsorientierte Studie zur Bewertung von Gisting) misst Überschneidungen in n-Grammen zwischen Antwort und Grundwahrheit.
METEOR	Die „Metric for Evaluation of Translation with Explicit Ordering“ (Metrik zur Bewertung von Übersetzungen mit expliziter Ordnung) misst Überschneidungen in n-Grammen zwischen der Antwort und der Grundwahrheit.

Azure OpenAI Graders (Vorschau):

Auswerter	Zweck
Modellbezeichner	Klassifiziert Inhalte mithilfe von benutzerdefinierten Richtlinien und Bezeichnungen.
Modellbewertung	Generiert numerische Bewertungen (angepasster Bereich) für Inhalte basierend auf benutzerdefinierten Richtlinien.
Zeichenfolgenprüfung	Führt flexible Textüberprüfungen und Musterabgleiche durch.
Textähnlichkeit	Wertet die Textqualität aus oder bestimmt die semantische Nähe.

Durch die strategische Verwendung dieser Bewerter während des gesamten Entwicklungslebenszyklus können Teams zuverlässigere, sichere und effektive KI-Anwendungen erstellen, die den Anforderungen des Benutzers entsprechen und gleichzeitig potenzielle Risiken minimieren.

Die drei Stufen der GenAIOps-Bewertung

Auswahl des Basismodells

Bevor Sie Ihre Anwendung erstellen, müssen Sie die richtige Grundlage auswählen. Diese erste Bewertung hilft Ihnen, verschiedene Modelle auf der Grundlage von Kriterien zu vergleichen:

Qualität und Genauigkeit: Wie relevant und kohärent sind die Antworten des Modells?
Aufgabenleistung: Verarbeitet das Modell Ihre spezifischen Anwendungsfälle effizient?
Ethische Überlegungen: Ist das Modell frei von schädlichen Verzerrungen?
Sicherheitsprofil: Welches Risiko besteht darin, unsichere Inhalte zu generieren?

Verfügbare Tools: Azure AI Foundry-Benchmark zum Vergleichen von Modellen für öffentliche Datasets oder Ihre eigenen Daten und das Azure AI Evaluation SDK zum Testen bestimmter Modellendpunkte.

Bewertung vor der Produktion

Nachdem Sie ein Basismodell ausgewählt haben, besteht der nächste Schritt darin, eine KI-Anwendung zu entwickeln, z. B. einen KI-basierten Chatbot, eine abruferweiterte Generierungsanwendung (RAG), eine agentenbasierte KI-Anwendung oder ein anderes generatives KI-Tool. Sobald die Entwicklung abgeschlossen ist, beginnt die Vorabproduktionsbewertung. Vor der Bereitstellung in einer Produktionsumgebung sind gründliche Tests unerlässlich, um sicherzustellen, dass das Modell für den realen Einsatz bereit ist.

Die Bewertung der Vorproduktion umfasst:

Tests mit Auswertungsdatensätzen: Diese Datasets simulieren realistische Benutzerinteraktionen, um sicherzustellen, dass die KI-Anwendung erwartungsgemäß funktioniert.
Identifizierung von Randfällen: Erforschung von Szenarien, in denen die Antwortqualität der KI-Anwendung möglicherweise nachlässt oder unerwünschte Ergebnisse erzeugt.
Bewertung der Robustheit: Sicherstellen, dass das Modell eine Reihe von Eingabevariationen ohne erhebliche Qualitätseinbußen oder Sicherheit verarbeiten kann.
Messen wichtiger Metriken: Metriken wie Reaktionsgrund, Relevanz und Sicherheit werden ausgewertet, um die Bereitschaft zur Produktion zu bestätigen.

Die Präproduktionsphase dient als endgültige Qualitätsprüfung und reduziert das Risiko, eine KI-Anwendung bereitzustellen, die nicht den gewünschten Leistungs- oder Sicherheitsstandards entspricht.

Evaluierungstools und -ansätze:

Bringen Sie Ihre eigenen Daten mit: Sie können Ihre KI-Anwendungen in der Vorproduktion mit Ihren eigenen Auswertungsdaten mit unterstützten Bewertern auswerten, einschließlich Generationsqualität, Sicherheit oder benutzerdefinierter Bewerter, und Ergebnisse über das Azure AI Foundry-Portal anzeigen. Verwenden Sie den Evaluierungs-Assistenten von Azure AI Foundry oder die unterstützten Evaluatoren des Azure AI Evaluation SDK , einschließlich Erzeugungsqualität, Sicherheit oder benutzerdefinierter Bewerter, und zeigen Sie Ergebnisse über das Azure AI Foundry-Portal an.
Simulatoren und KI-Rotteam-Agent (Vorschau): Wenn Sie keine Auswertungsdaten (Testdaten) haben, können die Simulatoren des Azure AI Evaluation SDK helfen, indem sie themenbezogene oder gegnerische Abfragen generieren. Diese Simulatoren testen die Reaktion des Modells auf situationsgerechte oder angriffsähnliche Abfragen (Randfälle).
- Angriffssimulatoren fügen Abfragen ein, die potenzielle Sicherheitsrisiken oder Angriffe nachahmen oder Jailbreaks versuchen, um Einschränkungen zu identifizieren und das Modell auf unerwartete Bedingungen vorzubereiten.
- Kontextgerechte Simulatoren generieren typische, relevante Unterhaltungen, die Sie von Benutzern erwarten, um die Qualität der Antworten zu testen. Mit kontextgerechten Simulatoren können Sie Metriken wie Erdheit, Relevanz, Kohärenz und Flukanz generierter Antworten bewerten.
- AI Red-Teaming-Agent (Vorschau) simuliert komplexe Adversarialangriffe auf Ihr KI-System unter Einsatz eines breiten Spektrums von Sicherheits- und Schutzangriffen mithilfe des offenen Frameworks von Microsoft für das Python Risk Identification Tool (PyRIT). Automatisierte Scans mit dem KI-Red-Teaming-Agent verbessern die Risikobewertung vor der Produktion, indem KI-Anwendungen systematisch auf Risiken getestet werden. Dieser Prozess umfasst simulierte Angriffsszenarien, um Schwachstellen in Modellantworten vor der realen Bereitstellung zu identifizieren. Durch das Ausführen von KI-Red-Teaming-Scans können Sie potenzielle Sicherheitsprobleme vor der Bereitstellung erkennen und mindern. Dieses Tool wird für den Einsatz mit Human-in-the-Loop-Prozessen wie herkömmlichen KI-Red-Teaming-Prüfungen empfohlen, um die Risikoidentifikation zu beschleunigen und die Bewertung durch einen menschlichen Experten zu unterstützen.

Alternativ können Sie auch das Auswertungs-Widget des Azure AI Foundry-Portals verwenden, um Ihre generativen KI-Anwendungen zu testen.

Sobald zufriedenstellende Ergebnisse erzielt wurden, kann die KI-Anwendung in der Produktion bereitgestellt werden.

Postproduktionsüberwachung

Nach der Bereitstellung sorgt die kontinuierliche Überwachung dafür, dass Ihre KI-Anwendung unter realen Bedingungen die Qualität aufrecht erhält:

Leistungsnachverfolgung: Regelmäßige Messung der wichtigsten Metriken.
Reaktion auf Vorfälle: Schnelles Handeln, wenn schädliche oder unangemessene Ergebnisse auftreten.

Effektive Überwachung trägt dazu bei, die Benutzervertrauensstellung aufrechtzuerhalten und eine schnelle Problembehebung zu ermöglichen.

Azure AI Foundry Observability bietet umfassende Überwachungsfunktionen, die für die komplexe und sich schnell entwickelnde KI-Landschaft von heute unerlässlich sind. Nahtlos in Azure Monitor Application Insights integriert, ermöglicht diese Lösung die kontinuierliche Überwachung bereitgestellter KI-Anwendungen, um eine optimale Leistung, Sicherheit und Qualität in Produktionsumgebungen sicherzustellen. Das Foundry Observability-Dashboard bietet Echtzeiteinblicke in kritische Metriken, sodass Teams Leistungsprobleme, Sicherheitsbedenken oder Qualitätsbeeinträchtigungen schnell erkennen und beheben können. Für agentbasierte Anwendungen bietet Foundry erweiterte Kontinuierliche Auswertungsfunktionen, die ermöglicht werden können, um tiefere Einblicke in Qualitäts- und Sicherheitsmetriken zu bieten und ein robustes Überwachungsökosystem zu schaffen, das sich an die dynamische Natur von KI-Anwendungen anpasst und gleichzeitig hohe Anforderungen an Leistung und Zuverlässigkeit gewährleistet.

Indem Sie das Verhalten der KI-Anwendung in der Produktion kontinuierlich überwachen, können Sie qualitativ hochwertige Benutzererfahrungen beibehalten und alle Probleme, die sich auf der Oberfläche befinden, schnell beheben.

Vertrauen durch systematische Bewertung aufbauen

GenAIOps stellt einen zuverlässigen Prozess für die Verwaltung von KI-Anwendungen im gesamten Lebenszyklus her. Durch die Implementierung einer gründlichen Bewertung in jeder Phase – von der Modellauswahl bis hin zur Bereitstellung und darüber hinaus – können Teams KI-Lösungen erstellen, die nicht nur leistungsfähig, sondern vertrauenswürdig und sicher sind.

Spickzettel für die Auswertung

Zweck	Prozess	Die Parameter
Was wird ausgewertet?	Identifizieren oder Erstellen relevanter Evaluatoren	- Beispielnotizbuch für Qualität und Leistung - Agent-Antwortqualität - Sicherheit (Beispielnotebook für Sicherheit) - Benutzerdefiniert (Benutzerdefiniertes Beispiel-Notebook)
Welche Daten sollten Sie verwenden?	Hochladen oder Generieren relevanter Datasets	Generischer Simulator zur Messung der Qualität und Leistung (Beispielnotebook für den generischen Simulator) - Gegnerischer Simulator zur Messung von Sicherheit und Schutz (Gegnerischer Simulator Beispielnotizbuch) KI-Red-Teaming-Agent für die Durchführung automatisierter Scans zur Bewertung von Sicherheits- und Schutzlücken (Beispielnotebook für KI-Red-Teaming-Agent)
Welche Ressourcen sollten die Auswertung durchführen?	Auswertung ausführen	- Lokale Ausführung - Remotecloudausführung
Wie war die Leistung meines Modell/meiner App?	Ergebnisanalysen	Aggregierte Scores anzeigen, Details anzeigen, Scoredetails anzeigen, Auswertungsausführungen vergleichen
Wie kann ich etwas verbessern?	Vornehmen von Änderungen an Modellen, Apps oder Evaluators	– Wenn die Auswertungsergebnisse nicht dem menschlichen Feedback entsprechen, passen Sie Ihren Evaluator an. – Wenn Auswertungsergebnisse dem menschlichen Feedback entsprechen, aber die Qualitäts-/Sicherheitsschwellenwerte nicht erfüllen, wenden Sie gezielte Maßnahmen an. Beispiel für die Anwendung von Abhilfemaßnahmen: Azure KI Inhaltssicherheit

Regionsunterstützung

Derzeit sind bestimmte KI-gestützte Auswertungen nur in den folgenden Regionen verfügbar:

Region	Hass und Ungerechtigkeit, Sexuell, Gewalttätig, Selbstverletzung, Indirekter Angriff, Code-Sicherheitslücken, ungeerdete Attribute	Fundiertheit Pro	Geschütztes Material
Ost-USA 2	Unterstützt	Unterstützt	Unterstützt
Schweden, Mitte	Unterstützt	Unterstützt	Nicht verfügbar
USA Nord-Mittel	Unterstützt	Nicht verfügbar	Nicht verfügbar
Frankreich, Mitte	Unterstützt	Nicht verfügbar	Nicht verfügbar
Westschweiz	Unterstützt	Nicht verfügbar	Nicht verfügbar

Preisgestaltung

Observability-Features wie Risiko- und Sicherheitsbewertungen und fortlaufende Auswertungen werden basierend auf dem Verbrauch abgerechnet, wie auf unserer Azure-Preisseite aufgeführt. Wählen Sie die Registerkarte "Vollständige KI-Toolkette " aus, um die Preisdetails für Auswertungen anzuzeigen.