Freigeben über


Beobachtbarkeit in generativer KI

Von Bedeutung

Die in diesem Artikel markierten Elemente (Vorschau) sind aktuell als öffentliche Vorschau verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.

In der heutigen KI-gesteuerten Welt revolutioniert generative AI Operations (GenAIOps), wie Organisationen intelligente Systeme erstellen und bereitstellen. Da Unternehmen zunehmend KI nutzen, um Entscheidungsfindung zu transformieren, Kundenerfahrungen zu verbessern und Innovationen zu fördern, steht ein Element von größter Bedeutung: robuste Evaluierungsframeworks. Die Auswertung ist nicht nur ein Prüfpunkt. Es ist die Grundlage des Vertrauens in KI-Anwendungen. Ohne strenge Bewertung können KI-Systeme Inhalte erzeugen, die folgendes sind:

  • Erfunden oder nicht in der Realität begründet
  • Irrelevant oder unkohärent für Benutzeranforderungen
  • Schädlich bei der Aufrechterhaltung von Inhaltsrisiken und der Verfestigung von Stereotypen.
  • Gefährlich bei der Verbreitung von Falschinformationen
  • Anfällig für Sicherheits exploits

Hier werden Evaluatoren wesentlich. Diese spezialisierten Tools messen sowohl die Häufigkeit als auch den Schweregrad von Risiken in KI-Ausgaben und ermöglichen es Teams, Qualität, Sicherheit und Sicherheitsbedenken während der gesamten KI-Entwicklungsreise systematisch zu behandeln – von der Auswahl des richtigen Modells zur Überwachung der Produktionsleistung, Qualität und Sicherheit.

Was sind Bewerter?

Bewertungen sind spezielle Werkzeuge, die die Qualität, Sicherheit und Zuverlässigkeit von KI-Antworten messen. Durch die Implementierung systematischer Auswertungen im gesamten LEBENSZYKLUS der KI-Entwicklung können Teams potenzielle Probleme identifizieren und beheben, bevor sie sich auf die Benutzer auswirken. Die folgenden unterstützten Bewertungsfunktionen bieten umfassende Bewertungsfunktionen für verschiedene KI-Anwendungstypen und -bedenken:

RAG (Retrieval Augmented Generation):

Auswerter Zweck
Abruf Misst, wie effektiv das System relevante Informationen abruft.
Dokumentabruf Misst die Genauigkeit der Abfrageergebnisse unter Berücksichtigung der Grundwahrheit.
Verankerung Misst, wie konsistent die Antwort in Bezug auf den abgerufenen Kontext ist.
Fundiertheit Pro Misst, ob die Antwort im Hinblick auf den abgerufenen Kontext konsistent ist.
Relevanz Misst, wie relevant die Antwort in Bezug auf die Anfrage ist.
Antwort-Vollständigkeit Misst, inwieweit die Antwort in Bezug auf die Grundwahrheit vollständig ist (es fehlen keine wichtigen Informationen).

Agents (Vorschau):

Auswerter Zweck
Auflösung der Absicht Misst, wie genau der Agent die Benutzerabsichten erkennt und berücksichtigt.
Aufgabentreue Misst, wie gut der Agent identifizierte Aufgaben zu Ende führt.
Genauigkeit des Toolaufrufs Misst, wie gut der Agent die richtigen Tools auswählt und aufruft.

Allgemeiner Zweck:

Auswerter Zweck
Geläufigkeit Misst die Qualität und Lesbarkeit natürlicher Sprache.
Kohärenz Misst die logische Konsistenz und die Flüssigkeit der Antworten.
Qualitätssicherung Misst umfassend verschiedene Qualitätsaspekte bei der Beantwortung von Fragen.

Sicherheit und Sicherheit (Vorschau):

Auswerter Zweck
Gewalt Erkennt gewaltsame Inhalte oder Aufregung.
Sexuell Identifiziert unangemessene sexuelle Inhalte.
Selbstverletzung Erkennt Inhalte, die Selbstschäden fördern oder beschreiben.
Hass und Unfairness Identifiziert voreingenommene, diskriminierende oder hassfähige Inhalte.
Nicht fundierte Attribute Erkennt fabricierte oder halluzinierte Informationen, die von Benutzerinteraktionen abgeleitet werden.
Sicherheitsanfälligkeit in Code Identifiziert Sicherheitsprobleme im generierten Code.
Geschützte Materialien Erkennt nicht autorisierte Verwendung urheberrechtlich geschützter Inhalte.
Inhaltssicherheit Umfassende Bewertung verschiedener Sicherheitsbedenken.

Textbezogene Ähnlichkeit:

Auswerter Zweck
Ähnlichkeit KI-unterstützte Textgleichheitsmessung.
F1-Bewertung Harmonisches Mittel der Präzision und der Wiedererkennung in Token-Überschneidungen zwischen Antwort und Grundwahrheit.
BLEU Die „Bilingual Evaluation Understudy“-Bewertung (Zweisprachige Bewertungsstudie) für die Übersetzungsqualität misst Überschneidungen in n-Grammen zwischen Antwort und Grundwahrheit.
GLEU Die Google-BLEU-Variante für die Bewertung auf Satzebene misst Überschneidungen in n-Grammen zwischen der Antwort und der Grundwahrheit.
Rot Die „Recall-Oriented Understudy for Gisting Evaluation“ (Erinnerungsorientierte Studie zur Bewertung von Gisting) misst Überschneidungen in n-Grammen zwischen Antwort und Grundwahrheit.
METEOR Die „Metric for Evaluation of Translation with Explicit Ordering“ (Metrik zur Bewertung von Übersetzungen mit expliziter Ordnung) misst Überschneidungen in n-Grammen zwischen der Antwort und der Grundwahrheit.

Azure OpenAI Graders (Vorschau):

Auswerter Zweck
Modellbezeichner Klassifiziert Inhalte mithilfe von benutzerdefinierten Richtlinien und Bezeichnungen.
Modellbewertung Generiert numerische Bewertungen (angepasster Bereich) für Inhalte basierend auf benutzerdefinierten Richtlinien.
Zeichenfolgenprüfung Führt flexible Textüberprüfungen und Musterabgleiche durch.
Textähnlichkeit Wertet die Textqualität aus oder bestimmt die semantische Nähe.

Durch die strategische Verwendung dieser Bewerter während des gesamten Entwicklungslebenszyklus können Teams zuverlässigere, sichere und effektive KI-Anwendungen erstellen, die den Anforderungen des Benutzers entsprechen und gleichzeitig potenzielle Risiken minimieren.

Diagramm des GenAIOps-Lebenszyklus des Unternehmens, das die Modellauswahl, das Erstellen einer KI-Anwendung und die Operationalisierung zeigt

Die drei Stufen der GenAIOps-Bewertung

Auswahl des Basismodells

Bevor Sie Ihre Anwendung erstellen, müssen Sie die richtige Grundlage auswählen. Diese erste Bewertung hilft Ihnen, verschiedene Modelle auf der Grundlage von Kriterien zu vergleichen:

  • Qualität und Genauigkeit: Wie relevant und kohärent sind die Antworten des Modells?
  • Aufgabenleistung: Verarbeitet das Modell Ihre spezifischen Anwendungsfälle effizient?
  • Ethische Überlegungen: Ist das Modell frei von schädlichen Verzerrungen?
  • Sicherheitsprofil: Welches Risiko besteht darin, unsichere Inhalte zu generieren?

Verfügbare Tools: Azure AI Foundry-Benchmark zum Vergleichen von Modellen für öffentliche Datasets oder Ihre eigenen Daten und das Azure AI Evaluation SDK zum Testen bestimmter Modellendpunkte.

Bewertung vor der Produktion

Nachdem Sie ein Basismodell ausgewählt haben, besteht der nächste Schritt darin, eine KI-Anwendung zu entwickeln, z. B. einen KI-basierten Chatbot, eine abruferweiterte Generierungsanwendung (RAG), eine agentenbasierte KI-Anwendung oder ein anderes generatives KI-Tool. Sobald die Entwicklung abgeschlossen ist, beginnt die Vorabproduktionsbewertung. Vor der Bereitstellung in einer Produktionsumgebung sind gründliche Tests unerlässlich, um sicherzustellen, dass das Modell für den realen Einsatz bereit ist.

Die Bewertung der Vorproduktion umfasst:

  • Tests mit Auswertungsdatensätzen: Diese Datasets simulieren realistische Benutzerinteraktionen, um sicherzustellen, dass die KI-Anwendung erwartungsgemäß funktioniert.
  • Identifizierung von Randfällen: Erforschung von Szenarien, in denen die Antwortqualität der KI-Anwendung möglicherweise nachlässt oder unerwünschte Ergebnisse erzeugt.
  • Bewertung der Robustheit: Sicherstellen, dass das Modell eine Reihe von Eingabevariationen ohne erhebliche Qualitätseinbußen oder Sicherheit verarbeiten kann.
  • Messen wichtiger Metriken: Metriken wie Reaktionsgrund, Relevanz und Sicherheit werden ausgewertet, um die Bereitschaft zur Produktion zu bestätigen.

Diagramm der Präproduktionsauswertung für Modelle und Anwendungen mit den sechs Schritten.

Die Präproduktionsphase dient als endgültige Qualitätsprüfung und reduziert das Risiko, eine KI-Anwendung bereitzustellen, die nicht den gewünschten Leistungs- oder Sicherheitsstandards entspricht.

Evaluierungstools und -ansätze:

  • Bringen Sie Ihre eigenen Daten mit: Sie können Ihre KI-Anwendungen in der Vorproduktion mit Ihren eigenen Auswertungsdaten mit unterstützten Bewertern auswerten, einschließlich Generationsqualität, Sicherheit oder benutzerdefinierter Bewerter, und Ergebnisse über das Azure AI Foundry-Portal anzeigen. Verwenden Sie den Evaluierungs-Assistenten von Azure AI Foundry oder die unterstützten Evaluatoren des Azure AI Evaluation SDK , einschließlich Erzeugungsqualität, Sicherheit oder benutzerdefinierter Bewerter, und zeigen Sie Ergebnisse über das Azure AI Foundry-Portal an.
  • Simulatoren und KI-Rotteam-Agent (Vorschau): Wenn Sie keine Auswertungsdaten (Testdaten) haben, können die Simulatoren des Azure AI Evaluation SDK helfen, indem sie themenbezogene oder gegnerische Abfragen generieren. Diese Simulatoren testen die Reaktion des Modells auf situationsgerechte oder angriffsähnliche Abfragen (Randfälle).
    • Angriffssimulatoren fügen Abfragen ein, die potenzielle Sicherheitsrisiken oder Angriffe nachahmen oder Jailbreaks versuchen, um Einschränkungen zu identifizieren und das Modell auf unerwartete Bedingungen vorzubereiten.
    • Kontextgerechte Simulatoren generieren typische, relevante Unterhaltungen, die Sie von Benutzern erwarten, um die Qualität der Antworten zu testen. Mit kontextgerechten Simulatoren können Sie Metriken wie Erdheit, Relevanz, Kohärenz und Flukanz generierter Antworten bewerten.
    • AI Red-Teaming-Agent (Vorschau) simuliert komplexe Adversarialangriffe auf Ihr KI-System unter Einsatz eines breiten Spektrums von Sicherheits- und Schutzangriffen mithilfe des offenen Frameworks von Microsoft für das Python Risk Identification Tool (PyRIT). Automatisierte Scans mit dem KI-Red-Teaming-Agent verbessern die Risikobewertung vor der Produktion, indem KI-Anwendungen systematisch auf Risiken getestet werden. Dieser Prozess umfasst simulierte Angriffsszenarien, um Schwachstellen in Modellantworten vor der realen Bereitstellung zu identifizieren. Durch das Ausführen von KI-Red-Teaming-Scans können Sie potenzielle Sicherheitsprobleme vor der Bereitstellung erkennen und mindern. Dieses Tool wird für den Einsatz mit Human-in-the-Loop-Prozessen wie herkömmlichen KI-Red-Teaming-Prüfungen empfohlen, um die Risikoidentifikation zu beschleunigen und die Bewertung durch einen menschlichen Experten zu unterstützen.

Alternativ können Sie auch das Auswertungs-Widget des Azure AI Foundry-Portals verwenden, um Ihre generativen KI-Anwendungen zu testen.

Sobald zufriedenstellende Ergebnisse erzielt wurden, kann die KI-Anwendung in der Produktion bereitgestellt werden.

Postproduktionsüberwachung

Nach der Bereitstellung sorgt die kontinuierliche Überwachung dafür, dass Ihre KI-Anwendung unter realen Bedingungen die Qualität aufrecht erhält:

  • Leistungsnachverfolgung: Regelmäßige Messung der wichtigsten Metriken.
  • Reaktion auf Vorfälle: Schnelles Handeln, wenn schädliche oder unangemessene Ergebnisse auftreten.

Effektive Überwachung trägt dazu bei, die Benutzervertrauensstellung aufrechtzuerhalten und eine schnelle Problembehebung zu ermöglichen.

Azure AI Foundry Observability bietet umfassende Überwachungsfunktionen, die für die komplexe und sich schnell entwickelnde KI-Landschaft von heute unerlässlich sind. Nahtlos in Azure Monitor Application Insights integriert, ermöglicht diese Lösung die kontinuierliche Überwachung bereitgestellter KI-Anwendungen, um eine optimale Leistung, Sicherheit und Qualität in Produktionsumgebungen sicherzustellen. Das Foundry Observability-Dashboard bietet Echtzeiteinblicke in kritische Metriken, sodass Teams Leistungsprobleme, Sicherheitsbedenken oder Qualitätsbeeinträchtigungen schnell erkennen und beheben können. Für agentbasierte Anwendungen bietet Foundry erweiterte Kontinuierliche Auswertungsfunktionen, die ermöglicht werden können, um tiefere Einblicke in Qualitäts- und Sicherheitsmetriken zu bieten und ein robustes Überwachungsökosystem zu schaffen, das sich an die dynamische Natur von KI-Anwendungen anpasst und gleichzeitig hohe Anforderungen an Leistung und Zuverlässigkeit gewährleistet.

Indem Sie das Verhalten der KI-Anwendung in der Produktion kontinuierlich überwachen, können Sie qualitativ hochwertige Benutzererfahrungen beibehalten und alle Probleme, die sich auf der Oberfläche befinden, schnell beheben.

Vertrauen durch systematische Bewertung aufbauen

GenAIOps stellt einen zuverlässigen Prozess für die Verwaltung von KI-Anwendungen im gesamten Lebenszyklus her. Durch die Implementierung einer gründlichen Bewertung in jeder Phase – von der Modellauswahl bis hin zur Bereitstellung und darüber hinaus – können Teams KI-Lösungen erstellen, die nicht nur leistungsfähig, sondern vertrauenswürdig und sicher sind.

Spickzettel für die Auswertung

Zweck Prozess Die Parameter
Was wird ausgewertet? Identifizieren oder Erstellen relevanter Evaluatoren - Beispielnotizbuch für Qualität und Leistung

- Agent-Antwortqualität

- Sicherheit (Beispielnotebook für Sicherheit)

- Benutzerdefiniert (Benutzerdefiniertes Beispiel-Notebook)
Welche Daten sollten Sie verwenden? Hochladen oder Generieren relevanter Datasets Generischer Simulator zur Messung der Qualität und Leistung (Beispielnotebook für den generischen Simulator)

- Gegnerischer Simulator zur Messung von Sicherheit und Schutz (Gegnerischer Simulator Beispielnotizbuch)

KI-Red-Teaming-Agent für die Durchführung automatisierter Scans zur Bewertung von Sicherheits- und Schutzlücken (Beispielnotebook für KI-Red-Teaming-Agent)
Welche Ressourcen sollten die Auswertung durchführen? Auswertung ausführen - Lokale Ausführung

- Remotecloudausführung
Wie war die Leistung meines Modell/meiner App? Ergebnisanalysen Aggregierte Scores anzeigen, Details anzeigen, Scoredetails anzeigen, Auswertungsausführungen vergleichen
Wie kann ich etwas verbessern? Vornehmen von Änderungen an Modellen, Apps oder Evaluators – Wenn die Auswertungsergebnisse nicht dem menschlichen Feedback entsprechen, passen Sie Ihren Evaluator an.

– Wenn Auswertungsergebnisse dem menschlichen Feedback entsprechen, aber die Qualitäts-/Sicherheitsschwellenwerte nicht erfüllen, wenden Sie gezielte Maßnahmen an. Beispiel für die Anwendung von Abhilfemaßnahmen: Azure KI Inhaltssicherheit

Regionsunterstützung

Derzeit sind bestimmte KI-gestützte Auswertungen nur in den folgenden Regionen verfügbar:

Region Hass und Ungerechtigkeit, Sexuell, Gewalttätig, Selbstverletzung, Indirekter Angriff, Code-Sicherheitslücken, ungeerdete Attribute Fundiertheit Pro Geschütztes Material
Ost-USA 2 Unterstützt Unterstützt Unterstützt
Schweden, Mitte Unterstützt Unterstützt Nicht verfügbar
USA Nord-Mittel Unterstützt Nicht verfügbar Nicht verfügbar
Frankreich, Mitte Unterstützt Nicht verfügbar Nicht verfügbar
Westschweiz Unterstützt Nicht verfügbar Nicht verfügbar

Preisgestaltung

Observability-Features wie Risiko- und Sicherheitsbewertungen und fortlaufende Auswertungen werden basierend auf dem Verbrauch abgerechnet, wie auf unserer Azure-Preisseite aufgeführt. Wählen Sie die Registerkarte "Vollständige KI-Toolkette " aus, um die Preisdetails für Auswertungen anzuzeigen.