Udostępnij przez


Definiowanie "jakości": zestawy ewaluacyjne

W tym artykule opisano zestawy ewaluacyjne i sposób, w jaki pomagają zapewnić jakość aplikacji.

Co to jest zestaw oceny?

Aby zmierzyć jakość, usługa Databricks zaleca utworzenie ręcznie oznaczonego zestawu oceny. Zestaw oceny to wyselekcjonowany, reprezentatywny zestaw zapytań wraz z odpowiedziami opartymi na faktach i (opcjonalnie) prawidłowymi dokumentami pomocniczymi, które powinny zostać odnalezione. Dane wejściowe człowieka mają kluczowe znaczenie w tym procesie, ponieważ gwarantuje, że zestaw oceny dokładnie odzwierciedla oczekiwania i wymagania użytkowników końcowych.

Tworzenie i zarządzanie etykietami przez ludzi może być czasochłonnym procesem. Możesz rozpocząć od utworzenia zestawu ewaluacyjnego zawierającego tylko pytania i dodać odpowiedzi na podstawowe informacje z upływem czasu. Mosaic AI Agent Evaluation może ocenić jakość łańcucha bez prawdy źródłowej; jeśli jednak prawda taka jest dostępna, oblicza dodatkowe wskaźniki, takie jak poprawność odpowiedzi.

Elementy dobrego zestawu oceny

Dobry zestaw oceny ma następujące cechy:

  • Przedstawiciel: Dokładnie odzwierciedla różnorodność żądań, na które aplikacja natrafi w środowisku produkcyjnym.
  • Trudne: Zestaw powinien zawierać trudne i zróżnicowane przypadki, aby skutecznie przetestować możliwości modelu. W idealnym przypadku zawiera on przykłady atakujące, takie jak pytania próbujące wywoływać wstrzyknięcie podpowiedzi lub pytania próbujące wygenerować niewłaściwe odpowiedzi z LLM.
  • Stale aktualizowane: Zestaw musi być okresowo aktualizowany w celu odzwierciedlenia sposobu użycia aplikacji w środowisku produkcyjnym, zmiany charakteru indeksowanych danych i wszelkich zmian wymagań aplikacji.

Usługa Databricks zaleca co najmniej 30 pytań w zestawie oceny i najlepiej 100–200. Najlepsze zestawy oceny będą rosnąć wraz z upływem czasu, aby zawierały 1000 pytań.

Zestawy trenowania, testowania i walidacji

Aby uniknąć nadmiernego dopasowania, Databricks zaleca podzielenie zestawu ewaluacyjnego na zestawy trenowania, testowania i walidacji.

  • Zestaw szkoleniowy: ~70% pytań. Służy do początkowej oceny wszystkich eksperymentów w celu zidentyfikowania tych o najwyższym potencjale.
  • Zestaw testów: ~20% pytań. Służy do oceniania eksperymentów o najwyższej wydajności z zestawu treningowego.
  • Zestaw weryfikacji: ~10% pytań. Służy do ostatecznego sprawdzania poprawności przed wdrożeniem eksperymentu w środowisku produkcyjnym.

Ocena agenta Mosaic AI pomaga utworzyć zestaw oceny, udostępniając webowy interfejs czatowy dla interesariuszy, aby mogli przekazać opinie na temat wyników aplikacji. Dane wyjściowe łańcucha i opinie uczestników projektu są zapisywane w tabelach delta, które następnie można wyselekcjonować do zestawu oceny. Zobacz opracowywanie zestawu ewaluacyjnego w sekcji realizacji tego podręcznika, aby uzyskać instrukcje praktyczne i przykładowy kod.