Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
W tym artykule opisano pomiar wydajności aplikacji RAG pod kątem jakości pobierania, odpowiedzi i wydajności systemu.
Pobieranie, odpowiedź i wydajność
Za pomocą zestawu oceny można zmierzyć wydajność aplikacji RAG w wielu różnych wymiarach, w tym:
- Jakość pobierania: Metryki pobierania oceniają, jak pomyślnie aplikacja RAG pobiera odpowiednie dane pomocnicze. Precyzja i kompletność to dwie kluczowe metryki wyszukiwania.
- Jakość odpowiedzi: Metryki jakości odpowiedzi oceniają, jak dobrze aplikacja RAG odpowiada na żądanie użytkownika. Metryki odpowiedzi mogą na przykład mierzyć, czy wynikowa odpowiedź jest dokładna zgodnie z rzeczywistością, jak dobrze umocowana była odpowiedź w oparciu o pobrany kontekst (na przykład czy LLM miał halucynacje?) lub jak bezpieczna była odpowiedź (innymi słowy, brak toksyczności).
- Wydajność systemu (koszt i opóźnienie): Metryki przechwytują ogólny koszt i wydajność aplikacji RAG. Ogólne opóźnienie i użycie tokenu to przykłady metryk wydajności łańcucha.
Bardzo ważne jest zbieranie metryk odpowiedzi i pobierania. Aplikacja RAG może reagować źle pomimo pobierania poprawnego kontekstu; może również zapewnić dobrą odpowiedź na podstawie wadliwego pobierania. Tylko poprzez pomiar obu składników możemy dokładnie zdiagnozować i rozwiązać problemy w aplikacji.
Podejścia do mierzenia wydajności
Istnieją dwa kluczowe podejścia do mierzenia wydajności w tych metrykach:
- Miara deterministyczna: Metryki kosztów i opóźnień można obliczyć deterministycznie na podstawie danych wyjściowych aplikacji. Jeśli zestaw oceny zawiera listę dokumentów, w których znajduje się odpowiedź na pytanie, można również deterministycznie obliczyć podzbiór metryk pobierania informacji.
- Pomiar z użyciem sędziego w LLM: W tym podejściu oddzielny model LLM działa jako sędzia, oceniając jakość wyszukiwania i odpowiedzi aplikacji RAG. Niektórzy sędziowie LLM, oceniający poprawność odpowiedzi, porównują oznaczoną przez człowieka prawdę jako punkt odniesienia z wynikami aplikacji. Inni sędziowie LLM, tacy jak zasadność, nie wymagają prawdziwości oznaczonej przez człowieka do oceny wyników swoich aplikacji.
Ważne
Aby sędzia LLM był skuteczny, należy go dostroić, aby zrozumieć konkretne zastosowanie. Zrobienie tego wymaga starannej uwagi, aby zrozumieć, gdzie sędzia działa dobrze, a gdzie nie, a następnie dostroić sędziego, aby poprawić jego działanie w przypadkach niepowodzeń.
Ocena agenta Mozaik AI zapewnia gotową implementację przy użyciu hostowanych modeli oceniających LLM dla każdej metryki omówionej na tej stronie. W dokumentacji oceny agenta omówiono szczegóły wdrażania tych metryk i sędziów oraz możliwości dostosowywania sędziów do danych w celu zwiększenia ich dokładności
Omówienie metryk
Poniżej przedstawiono podsumowanie metryk zalecanych przez usługę Databricks do mierzenia jakości, kosztów i opóźnień aplikacji RAG. Te metryki są implementowane w narzędziu Mosaic AI Agent Evaluation.
| Wymiar | Nazwa metryki | Pytanie | Mierzony przez | Potrzebuje podstawowej prawdy? |
|---|---|---|---|---|
| Odzyskiwanie | chunk_relevance/znaczenie_fragmentu | Jakie % pobranych fragmentów są istotne dla żądania? | Sędzia LLM | Nie. |
| Odzyskiwanie | Przywołanie_dokumentu | Jaki procent dokumentów stanowiących prawdę jest reprezentowany w pobranych fragmentach? | Deterministyczny | Tak |
| Odzyskiwanie | wystarczalność kontekstu | Czy pobrana ilość fragmentów jest niewystarczająca, aby wygenerować oczekiwaną odpowiedź? | Sędzia LLM | Tak |
| Odpowiedź | dokładność | Ogólnie rzecz biorąc, czy agent wygenerował poprawną odpowiedź? | Sędzia LLM | Tak |
| Odpowiedź | trafność do zapytania | Czy odpowiedź dotyczy żądania? | Sędzia LLM | Nie. |
| Odpowiedź | ugruntowanie | Czy odpowiedź jest halucynacją, czy uziemiona w kontekście? | Sędzia LLM | Nie. |
| Odpowiedź | bezpieczeństwo | Czy w odpowiedzi znajduje się szkodliwa zawartość? | Sędzia LLM | Nie. |
| Koszty | całkowita_liczba_tokenów, całkowita_liczba_tokenów_wejściowych, całkowita_liczba_tokenów_wyjściowych | Jaka jest łączna liczba tokenów dla generacji LLM? | Deterministyczny | Nie. |
| Opóźnienie | opóźnienie_sekundy | Jakie jest opóźnienie wykonywania aplikacji? | Deterministyczny | Nie. |
Jak działają metryki pobierania
Metryki pobierania pomagają zrozumieć, czy mechanizm wyszukiwania dostarcza odpowiednie wyniki. Metryki pobierania są oparte na precyzji i czułości.
| Nazwa metryki | Odpowiedź na pytanie | Szczegóły |
|---|---|---|
| Dokładność | Jaki procent pobranych fragmentów jest istotny dla żądania? | Precyzja to proporcja pobranych dokumentów, które są rzeczywiście istotne dla żądania użytkownika. Sędzia LLM może być używany do oceny istotności każdego pobranego fragmentu w odniesieniu do żądania użytkownika. |
| Odwołaj | Jaki procent dokumentów stanowiących prawdę jest reprezentowany w pobranych fragmentach? | Przypomnienie to proporcja dokumentów referencyjnych, które są reprezentowane w pobranych fragmentach. Jest to miara kompletności wyników. |
Precyzja i kompletność
Poniżej znajduje się krótkie wprowadzenie na temat precyzji i kompletności, zaadaptowane z doskonałego artykułu w Wikipedii.
Formuła precyzji
Miary precyzji: "Spośród częsci, które pobrałem, jakie % z tych elementów są rzeczywiście istotne dla zapytania mojego użytkownika?" Precyzja obliczeniowa nie wymaga znajomości wszystkich odpowiednich elementów.
Formuła odwołania
Przypomnij sobie miary: "Ze wszystkich dokumentów, które według mnie są istotne dla zapytania mojego użytkownika, z którego % pobrałem fragment?" Kompletność obliczeń wymaga, aby podstawowe informacje zawierały wszystkie istotne elementy. Elementy mogą być dokumentem lub fragmentem dokumentu.
W poniższym przykładzie dwa z trzech pobranych wyników były istotne dla zapytania użytkownika, więc precyzja wynosiła 0,66 (2/3). Pobrane dokumenty obejmowały dwa z czterech istotnych dokumentów, więc odsetek trafień wynosił 0,5 (2/4).