Rolle von Daten in Auswertungen

Abgeschlossen

Die Qualität und Art der Daten spielen eine entscheidende Rolle bei der Bestimmung der Wirksamkeit und Zuverlässigkeit von Bewertungsprozessen. Daten dienen als Backbone zum Testen, Validieren und Verfeinern von KI-Modellen, um sicherzustellen, dass sie in realen Szenarien optimal ausgeführt werden. Die Beziehung zwischen Daten- und Auswertungsqualität ist symbiotisch; Hochwertige, vielfältige und repräsentative Datasets tragen dazu bei, dass die Auswertungsmetriken die Leistung des Modells in verschiedenen Szenarien genau widerspiegeln. Umgekehrt können schlechte oder voreingenommene Daten zu irreführenden Auswertungsergebnissen führen, die Schwächen des KI-Systems maskieren und ihre Stärken überschätzen. Daher wirkt sich die Qualität und Vielfalt der Daten direkt auf die Zuverlässigkeit und Gültigkeit des Auswertungsprozesses aus.

Merkmale guter Auswertungsdaten

Daten, die zum Auswerten von generativen KI-Anwendungen verwendet werden, sollten die folgenden Merkmale aufweisen:

  • Vielfalt: Gute Auswertungsdaten umfassen eine vielzahl von Szenarien, Kontexten und Variationen, um sicherzustellen, dass die Anwendung auf verschiedene Arten von Eingaben getestet wird.
  • Repräsentativität: Die Daten sollten genau die realen Szenarien widerspiegeln, in denen das KI-Modell bereitgestellt wird, wobei die Nuancen und Komplexitäten der tatsächlichen Benutzerinteraktionen erfasst werden.
  • Qualität: Qualitativ hochwertige Daten sind sauber, gut beschriftet und frei von Fehlern oder Inkonsistenzen. Qualitativ hochwertige Daten stellen sicher, dass die Auswertungsmetriken nicht durch Rauschen oder Ungenauigkeiten verzerrt werden.
  • Relevanz: Die Daten sollten an die spezifischen Ziele und Anforderungen der KI-Anwendung ausgerichtet werden, wobei sie sich auf die Aspekte konzentrieren, die für ihre Leistung und Benutzererfahrung am wichtigsten sind.
  • Regelmäßig aktualisiert und erneuert: Kontinuierliche Aktualisierung und Erneuerung von Bewertungsdaten, um sich ändernde Benutzeranforderungen, Standards und Kontexte widerzuspiegeln.
  • Ausgewogene Datenqualität und -menge: Stellen Sie sicher, dass die Daten sowohl qualitativ hochwertige als auch ausreichend groß sind, um aussagekräftige und genaue Auswertungsergebnisse bereitzustellen.

Wichtigkeit der Behandlung von Randfällen

Randfälle, obwohl selten, können erhebliche Auswirkungen auf die Leistung und Zuverlässigkeit generativer KI-Anwendungen haben. Durch die Einbeziehung von Edgefällen in die Auswertungsdaten können Entwickler überprüfen, ob das Modell robust und in der Lage ist, eine vielzahl von Eingaben zu verarbeiten, um die Gesamtzuverlässigkeit und die Benutzererfahrung zu verbessern. Im Bereich der generativen KI können Randfälle Eingaben enthalten, die sich von den typischen Daten unterscheiden, die für das Training von Modellen verwendet werden. Grenzfälle können dabei helfen, potenzielle Schwächen oder Verzerrungen im Modell zu erkennen.

Betrachten Sie eine generative KI-Anwendung, die für Kundendienst-Chatbots entwickelt wurde. Ein Grenzfall für diese Anwendung könnte darin bestehen, dass ein Benutzer eine Nachricht eingibt, die eine Mischung aus Sprachen wie Englisch und Mandarin enthält, zusammen mit Slang und branchenspezifischem Jargon. Beispielsweise könnte ein Benutzer tippen: "Hey, können Sie帮我mein Passwort zurücksetzen?" Vielen Dank!" Diese Eingabe kombiniert Englisch, Mandarin und informelle Sprache, was die Sprachverarbeitungsfunktionen des Chatbots beeinträchtigen könnte. Die Bewertung der Reaktion des KI-Systems auf solche Eingaben kann Entwicklern helfen, zu erkennen, ob der Chatbot mehrsprachige und informelle Abfragen genau verstehen und beantworten kann, um die Zuverlässigkeit und Zuverlässigkeit in verschiedenen Kommunikationsszenarien sicherzustellen.

Datenanforderungen

Die integrierten Evaluatoren, die in Azure AI Foundry verwendet werden, und das Azure AI Evaluation SDK erfordern spezifische Daten im JSONL-Format:

Kontext – Der Kontext ist die Quelle, in Bezug auf die die Antwort generiert wird, das heißt, es handelt sich um Referenzdokumente.

Ex: "Paris ist die Hauptstadt/Hauptstadt Frankreichs."

Abfrage – Die Abfrage ist die spezifische Frage oder Aufforderung an die KI. Die KI wird direkt gefragt, sich mit einem Thema zu befassen oder darauf zu reagieren.

Was ist die Hauptstadt/die größte Stadt Frankreichs?

Antwort – Die generierte Antwort der KI für die Abfrage, wobei der angegebene Kontext berücksichtigt wird.

Ex: "Die Hauptstadt/Hauptstadt Frankreichs ist Paris. Es ist eine große Stadt mit einem berühmten Turm namens Eiffelturm.

Bodenwahrheit – Die Grundwahrheit ist die Antwort auf die Abfrage, die von einem Benutzer/Menschen als wahre Antwort generiert wird.

Ex: "Paris ist die Hauptstadt/Hauptstadt und die bevölkerungsreichste Stadt Frankreichs."

Stellen Sie sicher, dass Ihr Dataset ordnungsgemäß mit dem richtigen Schlüsselwertpaar für jeden Eintrag formatiert ist.

Typen und Quellen von Auswertungsdaten

Es gibt mehrere Arten und Datenquellen von Daten, die für die Auswertung von generativen KI-Anwendungen verwendet werden können, die jeweils einzigartige Vorteile und Herausforderungen bieten.

Reale Daten

Reale Daten sind vom Benutzer generierte Daten, die tatsächliche Interaktionen und Szenarien widerspiegeln. Es ist von unschätzbarem Wert für das Testen der Leistung des Modells unter realistischen Bedingungen. Darüber hinaus verkörpert reale Daten die subtilen Variationen und komplexen Muster in authentischen Benutzerinteraktionen.

Synthetische Daten

Synthetische Daten werden künstlich generiert, um reale Szenarien nachzuahmen. Sie werden verwendet, um reale Daten zu ergänzen, insbesondere, wenn bestimmte Arten von Daten knapp oder schwer zu beschaffen sind. Synthetische Daten können in großen Mengen generiert werden, sodass ausreichend Daten für die Auswertung zur Verfügung stehen. Darüber hinaus werden mit synthetischen Daten potenzielle Datenschutzprobleme im Zusammenhang mit benutzergenerierten Daten vermieden.

Das Azure AI Evaluation SDK ist mit einer Simulator Klasse ausgestattet, die End-to-End-Funktionen zur synthetischen Datengenerierung bietet. Mit dieser Funktion können Entwickler die Antworten ihrer Anwendung auf typische Benutzerabfragen effektiv testen, auch wenn keine Produktionsdaten vorhanden sind.

Simulator bietet die folgenden Features:

  • Erstellen synthetischer Daten basierend auf Text oder Indizes für die Eingabe
  • Definieren von Zielrückrufen für Simulationszwecke
  • Anpassen, wie Abfrageantwortpaare aus Eingabetext generiert werden
  • Verwenden Sie feste Gesprächseinstiege für Simulationen.

Adversariale Daten

Adversariale Daten beziehen sich auf sorgfältig gestaltete Eingaben, die entwickelt wurden, um KI-Modelle herauszufordern, zu verwechseln oder auszunutzen. Adversariale Daten sind entscheidend, wenn ein Modell einem Stresstest unterzogen wird, da sie die Grenzen des Modells erweitern und seine Schwachstellen sowie mögliche Ausfallpunkte aufdecken. Die Auswertung des Modells mithilfe von adversarialen Daten kann mögliche Sicherheitsrisiken oder Pfade für Angriffe offenlegen. Adversarielle Daten sind entscheidend für den Aufbau generativer KI-Anwendungen, die widerstandsfähig gegenüber bösartigen Eingaben sind und Nutzerdaten sowie die Privatsphäre schützen.

Das Azure AI Evaluation SDK ist mit einer AdversarialSimulator-Klasse ausgestattet, die ein adversariales Dataset für Ihre Anwendung generiert. Wir bieten Gegnerszenarien sowie konfigurierten Zugriff auf ein dienstseitiges Azure OpenAI GPT-4-Modell mit deaktiviertem Sicherheitsverhalten und ermöglichen so die Gegnersimulation.

Der Gegnersimulator funktioniert, indem ein vom Dienst gehostetes großes GPT-Sprachmodell eingerichtet wird, um einen gegnerischen Benutzer zu simulieren und mit Ihrer Anwendung zu interagieren. Sie können jeden beliebigen Anwendungsendpunkt in den Gegnersimulator einbringen. Das AdversarialSimulator unterstützt eine Reihe von Szenarien, die im Dienst gehostet werden, um Ihre Zielanwendung oder -funktion zu simulieren.