Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
In diesem Artikel werden Auswertungssätze und ihre Verwendung zur Sicherstellung der Qualität Ihrer Anwendung beschrieben.
Was ist ein Auswertungssatz?
Databricks empfiehlt, zum Messen der Qualität einen menschenmarkierten Auswertungssatz zu erstellen. Ein Auswertungssatz ist ein kuratierter, repräsentativer Satz mit Abfragen zusammen mit Grundwahrheitsantworten und (optional) mit den korrekten unterstützenden Dokumenten, die abgerufen werden sollen. Die menschliche Eingabe ist in diesem Prozess von entscheidender Bedeutung, da dadurch sichergestellt wird, dass der Auswertungssatz genau die Erwartungen und Anforderungen der Endbenutzer widerspiegelt.
Das Kuratieren menschlicher Bezeichnungen kann sehr zeitaufwändig sein. Sie können zunächst einen Auswertungssatz erstellen, der nur Fragen enthält, und die Antworten auf die Grundwahrheitsantworten im Laufe der Zeit hinzufügen. Mosaik AI Agent Evaluation kann die Qualität Ihrer Kette ohne Bodenwahrheit bewerten, obwohl, wenn die Bodenwahrheit verfügbar ist, zusätzliche Metriken wie die Antwortkorrektur berechnet werden.
Elemente eines guten Auswertungssatzes
Ein guter Auswertungssatz weist die folgenden Merkmale auf:
- Vertreter: Spiegelt genau die Vielfalt der Anforderungen wider, die die Anwendung in der Produktion erfahren wird.
- Schwierig: Der Satz sollte schwierige und vielfältige Fälle umfassen, um die Funktionen des Modells effektiv zu testen. Idealerweise enthält er auch negative Beispiele wie Fragen, die eine Prompteinschleusung veranlassen, oder Fragen, die versuchen, unangemessene Antworten von LLM zu erzeugen.
- Ständig aktualisiert: Der Satz muss in regelmäßigen Abständen aktualisiert werden, um anzugeben, wie die Anwendung in der Produktion verwendet wird, die sich ändernde Art der indizierten Daten und alle Änderungen an den Anwendungsanforderungen.
Databricks empfiehlt mindestens 30 Fragen im Auswertungssatz, idealerweise verwenden Sie 100 bis 200. Die besten Auswertungssätze wachsen im Laufe der Zeit und enthalten dann 1.000 Fragen.
Trainings-, Test und Validierungssätze
Um eine Übereinpassung zu vermeiden, empfiehlt Databricks die Aufteilung Ihres Auswertungssatzes in Trainings-, Test- und Validierungssätze:
- Trainingssatz: ca. 70 % der Fragen. Wird für einen anfänglichen Durchlauf verwendet, um jedes Experiment auszuwerten und die mit dem höchsten Potenzial zu identifizieren.
- Testsatz: ca. 20 % der Fragen. Wird zum Auswerten der leistungsfähigsten Experimente aus dem Trainingssatz verwendet.
- Validierungssatz: ca. 10 % der Fragen. Wird vor der Bereitstellung eines Experiments in der Produktion für eine endgültige Validierungsprüfung verwendet.
Mosaic AI Agent Evaluation hilft Ihnen, ein Evaluierungsset zu erstellen, durch die Bereitstellung einer webbasierten Chatschnittstelle für Ihre Stakeholder, damit sie Feedback zu den Ergebnissen der Anwendung geben können. Die Ergebnisse der Kette und das Feedback der Stakeholder werden in Delta-Tabellen gespeichert, die dann in einem Evaluierungssatz kuratiert werden können. Im Implementierungsabschnitt dieses Cookbooks unter Kuratieren eines Auswertungssatzes finden Sie praktische Anweisungen mit Beispielcode.