Freigeben über


Manuelles Auswerten von Eingabeaufforderungen im Azure KI Studio-Playground

Wichtig

Die in diesem Artikel markierten Elemente (Vorschau) sind aktuell als öffentliche Vorschau verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.

Wenn Sie mit dem Eingabeaufforderungsengineering beginnen, sollten Sie verschiedene Eingaben nacheinander testen, um die Wirksamkeit der Eingabeaufforderung zu bewerten, was sehr zeitintensiv sein kann. Dies liegt daran, dass es wichtig ist, zu überprüfen, ob die Inhaltsfilter ordnungsgemäß funktionieren, ob die Antwort korrekt ist und vieles mehr.

Um diesen Prozess zu vereinfachen, können Sie die manuelle Auswertung in Azure KI Studio verwenden, ein Auswertungstool, mit dem Sie Ihre Aufforderung kontinuierlich durchlaufen und bewerten können, um Ihre Testdaten in einer einzigen Schnittstelle zu durchlaufen und auszuwerten. Sie können die Ergebnisse, d. h. die Antworten des Modells, auch manuell bewerten, um Vertrauen in Ihre Aufforderung zu gewinnen.

Die manuelle Auswertung kann Ihnen dabei helfen, zu verstehen, wie gut Ihre Aufforderung funktioniert, und Sie können Ihre Aufforderung wiederholen, um sicherzustellen, dass Sie das gewünschte Maß an Vertrauen erreichen.

In diesem Artikel wird Folgendes behandelt:

  • Generieren Ihrer manuellen Auswertungsergebnisse
  • Bewerten der Modellantworten
  • Durchlaufen Ihrer Eingabeaufforderung und Neubewerten
  • Speichern und Vergleichen von Ergebnissen
  • Bewerten mit integrierten Metriken

Voraussetzungen

Um manuelle Auswertungsergebnisse zu generieren, müssen Sie folgendes vorbereiten:

  • Ein Test-Dataset in einem der folgenden Formate: CSV oder JSONL. Wenn Sie kein Dataset zur Verfügung haben, können Sie Daten auch manuell über die Benutzeroberfläche eingeben.

  • Eine Bereitstellung eines dieser Modelle: GPT 3.5-Modelle, GPT 4-Modelle oder Davinci-Modelle. Weitere Informationen zum Erstellen einer Bereitstellung finden Sie unter Bereitstellen von Modellen.

Hinweis

Die manuelle Auswertung wird derzeit nur für Azure OpenAI-Modelle für die Aufgabentypen „Chat“ und „Vervollständigung“ unterstützt.

Generieren Ihrer manuellen Auswertungsergebnisse

Wählen Sie im Playground die manuelle Auswertung aus, um den Prozess der manuellen Überprüfung der Modellantworten basierend auf Ihren Testdaten und der Eingabeaufforderung zu starten. Ihre Aufforderung wird automatisch zu Ihrer manuellen Auswertung umgestellt, und Jetzt müssen Sie nur Testdaten hinzufügen, um die Aufforderung auszuwerten.

Dies kann manuell mithilfe der Textfelder in der Eingabespalte erfolgen.

Sie können auch Daten importieren, um eines Ihrer vorherigen vorhandenen Datasets in Ihrem Projekt auszuwählen oder ein Dataset hochzuladen, das sich im CSV- oder JSONL-Format befindet. Nach dem Laden der Daten werden Sie aufgefordert, die Spalten entsprechend zuzuordnen. Nachdem Sie den Import abgeschlossen und ausgewählt haben, werden die Daten in den folgenden Spalten entsprechend ausgefüllt.

Screenshot: Generieren manueller Bewertungsergebnisse

Hinweis

Sie können Ihrer manuellen Auswertung bis zu 50 Eingabezeilen hinzufügen. Wenn Ihre Testdaten über mehr als 50 Eingabezeilen verfügen, laden wir die ersten 50 in der Eingabespalte hoch.

Nachdem Sie nun Ihre Daten hinzugefügt haben, können Sie diese Ausführen und die Ausgabespalte mit der Antwort des Modells füllen.

Bewerten der Modellantworten

Sie können jeder Antwort einen Daumen nach oben oder unten geben, um die Eingabeaufforderungsausgabe zu bewerten. Basierend auf den von Ihnen bereitgestellten Bewertungen können Sie diese Antwortergebnisse in den Zusammenfassungen auf einen Blick anzeigen.

Screenshot: Antwortwerte in den Zusammenfassungen auf einen Blick

Durchlaufen Ihrer Eingabeaufforderung und Neubewerten

Basierend auf Ihrer Zusammenfassung möchten Sie möglicherweise Änderungen an Ihrer Eingabeaufforderung vornehmen. Sie können die oben aufgeführten Eingabeaufforderungssteuerelemente verwenden, um die Einrichtung der Eingabeaufforderung zu bearbeiten. Dies kann die Systemmeldung aktualisieren, das Modell ändern oder die Parameter bearbeiten.

Nachdem Sie Ihre Bearbeitungen vorgenommen haben, können Sie alle erneut ausführen, um die gesamte Tabelle zu aktualisieren oder sich auf das erneute Ausführen bestimmter Zeilen zu konzentrieren, die Ihre Erwartungen beim ersten Mal nicht erfüllt haben.

Speichern und Vergleichen von Ergebnissen

Nachdem Sie Ihre Ergebnisse auffüllt haben, können Sie Ergebnisse speichern, um den Fortschritt für Ihr Team freizugeben oder die manuelle Auswertung später dort fortzusetzen, wo Sie aufgehört haben.

Screenshot: Speichern von Ergebnissen

Sie können auch die Daumen-hoch- und Daumen-runter-Bewertungen für Ihre verschiedenen manuellen Bewertungen vergleichen, indem Sie sie speichern und auf der Registerkarte „Bewertung“ unter „Manuelle Bewertung“ anzeigen.

Nächste Schritte

Erfahren Sie mehr darüber, wie Sie Ihre generativen KI-Anwendungen auswerten:

Erfahren Sie mehr über die Techniken zu Schadensminderung.