Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Von Bedeutung
Die in diesem Artikel markierten Elemente (Vorschau) sind aktuell als öffentliche Vorschau verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.
In der heutigen KI-gesteuerten Welt revolutioniert generative AI Operations (GenAIOps), wie Organisationen intelligente Systeme erstellen und bereitstellen. Da Unternehmen zunehmend KI nutzen, um Entscheidungsfindung zu transformieren, Kundenerfahrungen zu verbessern und Innovationen zu fördern, steht ein Element von größter Bedeutung: robuste Evaluierungsframeworks. Die Auswertung ist nicht nur ein Prüfpunkt. Es ist die Grundlage des Vertrauens in KI-Anwendungen. Ohne strenge Bewertung können KI-Systeme Inhalte erzeugen, die folgendes sind:
- Erfunden oder nicht in der Realität begründet
- Irrelevant oder unkohärent für Benutzeranforderungen
- Schädlich bei der Aufrechterhaltung von Inhaltsrisiken und der Verfestigung von Stereotypen.
- Gefährlich bei der Verbreitung von Falschinformationen
- Anfällig für Sicherheits exploits
Hier werden Evaluatoren wesentlich. Diese spezialisierten Tools messen sowohl die Häufigkeit als auch den Schweregrad von Risiken in KI-Ausgaben und ermöglichen es Teams, Qualität, Sicherheit und Sicherheitsbedenken während der gesamten KI-Entwicklungsreise systematisch zu behandeln – von der Auswahl des richtigen Modells zur Überwachung der Produktionsleistung, Qualität und Sicherheit.
Was sind Bewerter?
Bewertungen sind spezielle Werkzeuge, die die Qualität, Sicherheit und Zuverlässigkeit von KI-Antworten messen. Durch die Implementierung systematischer Auswertungen im gesamten LEBENSZYKLUS der KI-Entwicklung können Teams potenzielle Probleme identifizieren und beheben, bevor sie sich auf die Benutzer auswirken. Die folgenden unterstützten Bewertungsfunktionen bieten umfassende Bewertungsfunktionen für verschiedene KI-Anwendungstypen und -bedenken:
RAG (Retrieval Augmented Generation):
Auswerter | Zweck |
---|---|
Abruf | Misst, wie effektiv das System relevante Informationen abruft. |
Dokumentabruf | Misst die Genauigkeit der Abfrageergebnisse unter Berücksichtigung der Grundwahrheit. |
Verankerung | Misst, wie konsistent die Antwort in Bezug auf den abgerufenen Kontext ist. |
Fundiertheit Pro | Misst, ob die Antwort im Hinblick auf den abgerufenen Kontext konsistent ist. |
Relevanz | Misst, wie relevant die Antwort in Bezug auf die Anfrage ist. |
Antwort-Vollständigkeit | Misst, inwieweit die Antwort in Bezug auf die Grundwahrheit vollständig ist (es fehlen keine wichtigen Informationen). |
Auswerter | Zweck |
---|---|
Auflösung der Absicht | Misst, wie genau der Agent die Benutzerabsichten erkennt und berücksichtigt. |
Aufgabentreue | Misst, wie gut der Agent identifizierte Aufgaben zu Ende führt. |
Genauigkeit des Toolaufrufs | Misst, wie gut der Agent die richtigen Tools auswählt und aufruft. |
Auswerter | Zweck |
---|---|
Geläufigkeit | Misst die Qualität und Lesbarkeit natürlicher Sprache. |
Kohärenz | Misst die logische Konsistenz und die Flüssigkeit der Antworten. |
Qualitätssicherung | Misst umfassend verschiedene Qualitätsaspekte bei der Beantwortung von Fragen. |
Sicherheit und Sicherheit (Vorschau):
Auswerter | Zweck |
---|---|
Gewalt | Erkennt gewaltsame Inhalte oder Aufregung. |
Sexuell | Identifiziert unangemessene sexuelle Inhalte. |
Selbstverletzung | Erkennt Inhalte, die Selbstschäden fördern oder beschreiben. |
Hass und Unfairness | Identifiziert voreingenommene, diskriminierende oder hassfähige Inhalte. |
Nicht fundierte Attribute | Erkennt fabricierte oder halluzinierte Informationen, die von Benutzerinteraktionen abgeleitet werden. |
Sicherheitsanfälligkeit in Code | Identifiziert Sicherheitsprobleme im generierten Code. |
Geschützte Materialien | Erkennt nicht autorisierte Verwendung urheberrechtlich geschützter Inhalte. |
Inhaltssicherheit | Umfassende Bewertung verschiedener Sicherheitsbedenken. |
Auswerter | Zweck |
---|---|
Ähnlichkeit | KI-unterstützte Textgleichheitsmessung. |
F1-Bewertung | Harmonisches Mittel der Präzision und der Wiedererkennung in Token-Überschneidungen zwischen Antwort und Grundwahrheit. |
BLEU | Die „Bilingual Evaluation Understudy“-Bewertung (Zweisprachige Bewertungsstudie) für die Übersetzungsqualität misst Überschneidungen in n-Grammen zwischen Antwort und Grundwahrheit. |
GLEU | Die Google-BLEU-Variante für die Bewertung auf Satzebene misst Überschneidungen in n-Grammen zwischen der Antwort und der Grundwahrheit. |
Rot | Die „Recall-Oriented Understudy for Gisting Evaluation“ (Erinnerungsorientierte Studie zur Bewertung von Gisting) misst Überschneidungen in n-Grammen zwischen Antwort und Grundwahrheit. |
METEOR | Die „Metric for Evaluation of Translation with Explicit Ordering“ (Metrik zur Bewertung von Übersetzungen mit expliziter Ordnung) misst Überschneidungen in n-Grammen zwischen der Antwort und der Grundwahrheit. |
Azure OpenAI Graders (Vorschau):
Auswerter | Zweck |
---|---|
Modellbezeichner | Klassifiziert Inhalte mithilfe von benutzerdefinierten Richtlinien und Bezeichnungen. |
Modellbewertung | Generiert numerische Bewertungen (angepasster Bereich) für Inhalte basierend auf benutzerdefinierten Richtlinien. |
Zeichenfolgenprüfung | Führt flexible Textüberprüfungen und Musterabgleiche durch. |
Textähnlichkeit | Wertet die Textqualität aus oder bestimmt die semantische Nähe. |
Durch die strategische Verwendung dieser Bewerter während des gesamten Entwicklungslebenszyklus können Teams zuverlässigere, sichere und effektive KI-Anwendungen erstellen, die den Anforderungen des Benutzers entsprechen und gleichzeitig potenzielle Risiken minimieren.
Die drei Stufen der GenAIOps-Bewertung
Auswahl des Basismodells
Bevor Sie Ihre Anwendung erstellen, müssen Sie die richtige Grundlage auswählen. Diese erste Bewertung hilft Ihnen, verschiedene Modelle auf der Grundlage von Kriterien zu vergleichen:
- Qualität und Genauigkeit: Wie relevant und kohärent sind die Antworten des Modells?
- Aufgabenleistung: Verarbeitet das Modell Ihre spezifischen Anwendungsfälle effizient?
- Ethische Überlegungen: Ist das Modell frei von schädlichen Verzerrungen?
- Sicherheitsprofil: Welches Risiko besteht darin, unsichere Inhalte zu generieren?
Verfügbare Tools: Azure AI Foundry-Benchmark zum Vergleichen von Modellen für öffentliche Datasets oder Ihre eigenen Daten und das Azure AI Evaluation SDK zum Testen bestimmter Modellendpunkte.
Bewertung vor der Produktion
Nachdem Sie ein Basismodell ausgewählt haben, besteht der nächste Schritt darin, eine KI-Anwendung zu entwickeln, z. B. einen KI-basierten Chatbot, eine abruferweiterte Generierungsanwendung (RAG), eine agentenbasierte KI-Anwendung oder ein anderes generatives KI-Tool. Sobald die Entwicklung abgeschlossen ist, beginnt die Vorabproduktionsbewertung. Vor der Bereitstellung in einer Produktionsumgebung sind gründliche Tests unerlässlich, um sicherzustellen, dass das Modell für den realen Einsatz bereit ist.
Die Bewertung der Vorproduktion umfasst:
- Tests mit Auswertungsdatensätzen: Diese Datasets simulieren realistische Benutzerinteraktionen, um sicherzustellen, dass die KI-Anwendung erwartungsgemäß funktioniert.
- Identifizierung von Randfällen: Erforschung von Szenarien, in denen die Antwortqualität der KI-Anwendung möglicherweise nachlässt oder unerwünschte Ergebnisse erzeugt.
- Bewertung der Robustheit: Sicherstellen, dass das Modell eine Reihe von Eingabevariationen ohne erhebliche Qualitätseinbußen oder Sicherheit verarbeiten kann.
- Messen wichtiger Metriken: Metriken wie Reaktionsgrund, Relevanz und Sicherheit werden ausgewertet, um die Bereitschaft zur Produktion zu bestätigen.
Die Präproduktionsphase dient als endgültige Qualitätsprüfung und reduziert das Risiko, eine KI-Anwendung bereitzustellen, die nicht den gewünschten Leistungs- oder Sicherheitsstandards entspricht.
Evaluierungstools und -ansätze:
- Bringen Sie Ihre eigenen Daten mit: Sie können Ihre KI-Anwendungen in der Vorproduktion mit Ihren eigenen Auswertungsdaten mit unterstützten Bewertern auswerten, einschließlich Generationsqualität, Sicherheit oder benutzerdefinierter Bewerter, und Ergebnisse über das Azure AI Foundry-Portal anzeigen. Verwenden Sie den Evaluierungs-Assistenten von Azure AI Foundry oder die unterstützten Evaluatoren des Azure AI Evaluation SDK , einschließlich Erzeugungsqualität, Sicherheit oder benutzerdefinierter Bewerter, und zeigen Sie Ergebnisse über das Azure AI Foundry-Portal an.
- Simulatoren und KI-Rotteam-Agent (Vorschau): Wenn Sie keine Auswertungsdaten (Testdaten) haben, können die Simulatoren des Azure AI Evaluation SDK helfen, indem sie themenbezogene oder gegnerische Abfragen generieren. Diese Simulatoren testen die Reaktion des Modells auf situationsgerechte oder angriffsähnliche Abfragen (Randfälle).
- Angriffssimulatoren fügen Abfragen ein, die potenzielle Sicherheitsrisiken oder Angriffe nachahmen oder Jailbreaks versuchen, um Einschränkungen zu identifizieren und das Modell auf unerwartete Bedingungen vorzubereiten.
- Kontextgerechte Simulatoren generieren typische, relevante Unterhaltungen, die Sie von Benutzern erwarten, um die Qualität der Antworten zu testen. Mit kontextgerechten Simulatoren können Sie Metriken wie Erdheit, Relevanz, Kohärenz und Flukanz generierter Antworten bewerten.
- AI Red-Teaming-Agent (Vorschau) simuliert komplexe Adversarialangriffe auf Ihr KI-System unter Einsatz eines breiten Spektrums von Sicherheits- und Schutzangriffen mithilfe des offenen Frameworks von Microsoft für das Python Risk Identification Tool (PyRIT). Automatisierte Scans mit dem KI-Red-Teaming-Agent verbessern die Risikobewertung vor der Produktion, indem KI-Anwendungen systematisch auf Risiken getestet werden. Dieser Prozess umfasst simulierte Angriffsszenarien, um Schwachstellen in Modellantworten vor der realen Bereitstellung zu identifizieren. Durch das Ausführen von KI-Red-Teaming-Scans können Sie potenzielle Sicherheitsprobleme vor der Bereitstellung erkennen und mindern. Dieses Tool wird für den Einsatz mit Human-in-the-Loop-Prozessen wie herkömmlichen KI-Red-Teaming-Prüfungen empfohlen, um die Risikoidentifikation zu beschleunigen und die Bewertung durch einen menschlichen Experten zu unterstützen.
Alternativ können Sie auch das Auswertungs-Widget des Azure AI Foundry-Portals verwenden, um Ihre generativen KI-Anwendungen zu testen.
Sobald zufriedenstellende Ergebnisse erzielt wurden, kann die KI-Anwendung in der Produktion bereitgestellt werden.
Postproduktionsüberwachung
Nach der Bereitstellung sorgt die kontinuierliche Überwachung dafür, dass Ihre KI-Anwendung unter realen Bedingungen die Qualität aufrecht erhält:
- Leistungsnachverfolgung: Regelmäßige Messung der wichtigsten Metriken.
- Reaktion auf Vorfälle: Schnelles Handeln, wenn schädliche oder unangemessene Ergebnisse auftreten.
Effektive Überwachung trägt dazu bei, die Benutzervertrauensstellung aufrechtzuerhalten und eine schnelle Problembehebung zu ermöglichen.
Azure AI Foundry Observability bietet umfassende Überwachungsfunktionen, die für die komplexe und sich schnell entwickelnde KI-Landschaft von heute unerlässlich sind. Nahtlos in Azure Monitor Application Insights integriert, ermöglicht diese Lösung die kontinuierliche Überwachung bereitgestellter KI-Anwendungen, um eine optimale Leistung, Sicherheit und Qualität in Produktionsumgebungen sicherzustellen. Das Foundry Observability-Dashboard bietet Echtzeiteinblicke in kritische Metriken, sodass Teams Leistungsprobleme, Sicherheitsbedenken oder Qualitätsbeeinträchtigungen schnell erkennen und beheben können. Für agentbasierte Anwendungen bietet Foundry erweiterte Kontinuierliche Auswertungsfunktionen, die ermöglicht werden können, um tiefere Einblicke in Qualitäts- und Sicherheitsmetriken zu bieten und ein robustes Überwachungsökosystem zu schaffen, das sich an die dynamische Natur von KI-Anwendungen anpasst und gleichzeitig hohe Anforderungen an Leistung und Zuverlässigkeit gewährleistet.
Indem Sie das Verhalten der KI-Anwendung in der Produktion kontinuierlich überwachen, können Sie qualitativ hochwertige Benutzererfahrungen beibehalten und alle Probleme, die sich auf der Oberfläche befinden, schnell beheben.
Vertrauen durch systematische Bewertung aufbauen
GenAIOps stellt einen zuverlässigen Prozess für die Verwaltung von KI-Anwendungen im gesamten Lebenszyklus her. Durch die Implementierung einer gründlichen Bewertung in jeder Phase – von der Modellauswahl bis hin zur Bereitstellung und darüber hinaus – können Teams KI-Lösungen erstellen, die nicht nur leistungsfähig, sondern vertrauenswürdig und sicher sind.
Spickzettel für die Auswertung
Zweck | Prozess | Die Parameter |
---|---|---|
Was wird ausgewertet? | Identifizieren oder Erstellen relevanter Evaluatoren | - Beispielnotizbuch für Qualität und Leistung - Agent-Antwortqualität - Sicherheit (Beispielnotebook für Sicherheit) - Benutzerdefiniert (Benutzerdefiniertes Beispiel-Notebook) |
Welche Daten sollten Sie verwenden? | Hochladen oder Generieren relevanter Datasets | Generischer Simulator zur Messung der Qualität und Leistung (Beispielnotebook für den generischen Simulator) - Gegnerischer Simulator zur Messung von Sicherheit und Schutz (Gegnerischer Simulator Beispielnotizbuch) KI-Red-Teaming-Agent für die Durchführung automatisierter Scans zur Bewertung von Sicherheits- und Schutzlücken (Beispielnotebook für KI-Red-Teaming-Agent) |
Welche Ressourcen sollten die Auswertung durchführen? | Auswertung ausführen | - Lokale Ausführung - Remotecloudausführung |
Wie war die Leistung meines Modell/meiner App? | Ergebnisanalysen | Aggregierte Scores anzeigen, Details anzeigen, Scoredetails anzeigen, Auswertungsausführungen vergleichen |
Wie kann ich etwas verbessern? | Vornehmen von Änderungen an Modellen, Apps oder Evaluators | – Wenn die Auswertungsergebnisse nicht dem menschlichen Feedback entsprechen, passen Sie Ihren Evaluator an. – Wenn Auswertungsergebnisse dem menschlichen Feedback entsprechen, aber die Qualitäts-/Sicherheitsschwellenwerte nicht erfüllen, wenden Sie gezielte Maßnahmen an. Beispiel für die Anwendung von Abhilfemaßnahmen: Azure KI Inhaltssicherheit |
Regionsunterstützung
Derzeit sind bestimmte KI-gestützte Auswertungen nur in den folgenden Regionen verfügbar:
Region | Hass und Ungerechtigkeit, Sexuell, Gewalttätig, Selbstverletzung, Indirekter Angriff, Code-Sicherheitslücken, ungeerdete Attribute | Fundiertheit Pro | Geschütztes Material |
---|---|---|---|
Ost-USA 2 | Unterstützt | Unterstützt | Unterstützt |
Schweden, Mitte | Unterstützt | Unterstützt | Nicht verfügbar |
USA Nord-Mittel | Unterstützt | Nicht verfügbar | Nicht verfügbar |
Frankreich, Mitte | Unterstützt | Nicht verfügbar | Nicht verfügbar |
Westschweiz | Unterstützt | Nicht verfügbar | Nicht verfügbar |
Preisgestaltung
Observability-Features wie Risiko- und Sicherheitsbewertungen und fortlaufende Auswertungen werden basierend auf dem Verbrauch abgerechnet, wie auf unserer Azure-Preisseite aufgeführt. Wählen Sie die Registerkarte "Vollständige KI-Toolkette " aus, um die Preisdetails für Auswertungen anzuzeigen.