Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
W tym artykule opisano zestawy ewaluacyjne i sposób, w jaki pomagają zapewnić jakość aplikacji.
Co to jest zestaw oceny?
Aby zmierzyć jakość, usługa Databricks zaleca utworzenie ręcznie oznaczonego zestawu oceny. Zestaw oceny to wyselekcjonowany, reprezentatywny zestaw zapytań wraz z odpowiedziami opartymi na faktach i (opcjonalnie) prawidłowymi dokumentami pomocniczymi, które powinny zostać odnalezione. Dane wejściowe człowieka mają kluczowe znaczenie w tym procesie, ponieważ gwarantuje, że zestaw oceny dokładnie odzwierciedla oczekiwania i wymagania użytkowników końcowych.
Tworzenie i zarządzanie etykietami przez ludzi może być czasochłonnym procesem. Możesz rozpocząć od utworzenia zestawu ewaluacyjnego zawierającego tylko pytania i dodać odpowiedzi na podstawowe informacje z upływem czasu. Mosaic AI Agent Evaluation może ocenić jakość łańcucha bez prawdy źródłowej; jeśli jednak prawda taka jest dostępna, oblicza dodatkowe wskaźniki, takie jak poprawność odpowiedzi.
Elementy dobrego zestawu oceny
Dobry zestaw oceny ma następujące cechy:
- Przedstawiciel: Dokładnie odzwierciedla różnorodność żądań, na które aplikacja natrafi w środowisku produkcyjnym.
- Trudne: Zestaw powinien zawierać trudne i zróżnicowane przypadki, aby skutecznie przetestować możliwości modelu. W idealnym przypadku zawiera on przykłady atakujące, takie jak pytania próbujące wywoływać wstrzyknięcie podpowiedzi lub pytania próbujące wygenerować niewłaściwe odpowiedzi z LLM.
- Stale aktualizowane: Zestaw musi być okresowo aktualizowany w celu odzwierciedlenia sposobu użycia aplikacji w środowisku produkcyjnym, zmiany charakteru indeksowanych danych i wszelkich zmian wymagań aplikacji.
Usługa Databricks zaleca co najmniej 30 pytań w zestawie oceny i najlepiej 100–200. Najlepsze zestawy oceny będą rosnąć wraz z upływem czasu, aby zawierały 1000 pytań.
Zestawy trenowania, testowania i walidacji
Aby uniknąć nadmiernego dopasowania, Databricks zaleca podzielenie zestawu ewaluacyjnego na zestawy trenowania, testowania i walidacji.
- Zestaw szkoleniowy: ~70% pytań. Służy do początkowej oceny wszystkich eksperymentów w celu zidentyfikowania tych o najwyższym potencjale.
- Zestaw testów: ~20% pytań. Służy do oceniania eksperymentów o najwyższej wydajności z zestawu treningowego.
- Zestaw weryfikacji: ~10% pytań. Służy do ostatecznego sprawdzania poprawności przed wdrożeniem eksperymentu w środowisku produkcyjnym.
Ocena agenta Mosaic AI pomaga utworzyć zestaw oceny, udostępniając webowy interfejs czatowy dla interesariuszy, aby mogli przekazać opinie na temat wyników aplikacji. Dane wyjściowe łańcucha i opinie uczestników projektu są zapisywane w tabelach delta, które następnie można wyselekcjonować do zestawu oceny. Zobacz opracowywanie zestawu ewaluacyjnego w sekcji realizacji tego podręcznika, aby uzyskać instrukcje praktyczne i przykładowy kod.