Ocena wydajności: Metryki, które mają znaczenie

W tym artykule opisano pomiar wydajności aplikacji RAG pod kątem jakości pobierania, odpowiedzi i wydajności systemu.

Pobieranie, odpowiedź i wydajność

Za pomocą zestawu oceny można zmierzyć wydajność aplikacji RAG w wielu różnych wymiarach, w tym:

Jakość pobierania: Metryki pobierania oceniają, jak pomyślnie aplikacja RAG pobiera odpowiednie dane pomocnicze. Precyzja i kompletność to dwie kluczowe metryki wyszukiwania.
Jakość odpowiedzi: Metryki jakości odpowiedzi oceniają, jak dobrze aplikacja RAG odpowiada na żądanie użytkownika. Metryki odpowiedzi mogą na przykład mierzyć, czy wynikowa odpowiedź jest dokładna zgodnie z rzeczywistością, jak dobrze umocowana była odpowiedź w oparciu o pobrany kontekst (na przykład czy LLM miał halucynacje?) lub jak bezpieczna była odpowiedź (innymi słowy, brak toksyczności).
Wydajność systemu (koszt i opóźnienie): Metryki przechwytują ogólny koszt i wydajność aplikacji RAG. Ogólne opóźnienie i użycie tokenu to przykłady metryk wydajności łańcucha.

Bardzo ważne jest zbieranie metryk odpowiedzi i pobierania. Aplikacja RAG może reagować źle pomimo pobierania poprawnego kontekstu; może również zapewnić dobrą odpowiedź na podstawie wadliwego pobierania. Tylko poprzez pomiar obu składników możemy dokładnie zdiagnozować i rozwiązać problemy w aplikacji.

Podejścia do mierzenia wydajności

Istnieją dwa kluczowe podejścia do mierzenia wydajności w tych metrykach:

Miara deterministyczna: Metryki kosztów i opóźnień można obliczyć deterministycznie na podstawie danych wyjściowych aplikacji. Jeśli zestaw oceny zawiera listę dokumentów, w których znajduje się odpowiedź na pytanie, można również deterministycznie obliczyć podzbiór metryk pobierania informacji.
Pomiar z użyciem sędziego w LLM: W tym podejściu oddzielny model LLM działa jako sędzia, oceniając jakość wyszukiwania i odpowiedzi aplikacji RAG. Niektórzy sędziowie LLM, oceniający poprawność odpowiedzi, porównują oznaczoną przez człowieka prawdę jako punkt odniesienia z wynikami aplikacji. Inni sędziowie LLM, tacy jak zasadność, nie wymagają prawdziwości oznaczonej przez człowieka do oceny wyników swoich aplikacji.

Ważne

Aby sędzia LLM był skuteczny, należy go dostroić, aby zrozumieć konkretne zastosowanie. Zrobienie tego wymaga starannej uwagi, aby zrozumieć, gdzie sędzia działa dobrze, a gdzie nie, a następnie dostroić sędziego, aby poprawić jego działanie w przypadkach niepowodzeń.

Ocena agenta Mozaik AI zapewnia gotową implementację przy użyciu hostowanych modeli oceniających LLM dla każdej metryki omówionej na tej stronie. W dokumentacji oceny agenta omówiono szczegóły wdrażania tych metryk i sędziów oraz możliwości dostosowywania sędziów do danych w celu zwiększenia ich dokładności

Omówienie metryk

Poniżej przedstawiono podsumowanie metryk zalecanych przez usługę Databricks do mierzenia jakości, kosztów i opóźnień aplikacji RAG. Te metryki są implementowane w narzędziu Mosaic AI Agent Evaluation.

Wymiar	Nazwa metryki	Pytanie	Mierzony przez	Potrzebuje podstawowej prawdy?
Odzyskiwanie	chunk_relevance/znaczenie_fragmentu	Jakie % pobranych fragmentów są istotne dla żądania?	Sędzia LLM	Nie.
Odzyskiwanie	Przywołanie_dokumentu	Jaki procent dokumentów stanowiących prawdę jest reprezentowany w pobranych fragmentach?	Deterministyczny	Tak
Odzyskiwanie	wystarczalność kontekstu	Czy pobrana ilość fragmentów jest niewystarczająca, aby wygenerować oczekiwaną odpowiedź?	Sędzia LLM	Tak
Odpowiedź	dokładność	Ogólnie rzecz biorąc, czy agent wygenerował poprawną odpowiedź?	Sędzia LLM	Tak
Odpowiedź	trafność do zapytania	Czy odpowiedź dotyczy żądania?	Sędzia LLM	Nie.
Odpowiedź	ugruntowanie	Czy odpowiedź jest halucynacją, czy uziemiona w kontekście?	Sędzia LLM	Nie.
Odpowiedź	bezpieczeństwo	Czy w odpowiedzi znajduje się szkodliwa zawartość?	Sędzia LLM	Nie.
Koszty	całkowita_liczba_tokenów, całkowita_liczba_tokenów_wejściowych, całkowita_liczba_tokenów_wyjściowych	Jaka jest łączna liczba tokenów dla generacji LLM?	Deterministyczny	Nie.
Opóźnienie	opóźnienie_sekundy	Jakie jest opóźnienie wykonywania aplikacji?	Deterministyczny	Nie.

Jak działają metryki pobierania

Metryki pobierania pomagają zrozumieć, czy mechanizm wyszukiwania dostarcza odpowiednie wyniki. Metryki pobierania są oparte na precyzji i czułości.

Nazwa metryki	Odpowiedź na pytanie	Szczegóły
Dokładność	Jaki procent pobranych fragmentów jest istotny dla żądania?	Precyzja to proporcja pobranych dokumentów, które są rzeczywiście istotne dla żądania użytkownika. Sędzia LLM może być używany do oceny istotności każdego pobranego fragmentu w odniesieniu do żądania użytkownika.
Odwołaj	Jaki procent dokumentów stanowiących prawdę jest reprezentowany w pobranych fragmentach?	Przypomnienie to proporcja dokumentów referencyjnych, które są reprezentowane w pobranych fragmentach. Jest to miara kompletności wyników.

Precyzja i kompletność

Poniżej znajduje się krótkie wprowadzenie na temat precyzji i kompletności, zaadaptowane z doskonałego artykułu w Wikipedii.

Formuła precyzji

Miary precyzji: "Spośród częsci, które pobrałem, jakie % z tych elementów są rzeczywiście istotne dla zapytania mojego użytkownika?" Precyzja obliczeniowa nie wymaga znajomości wszystkich odpowiednich elementów.

Formuła do obliczania dokładności.

Formuła odwołania

Przypomnij sobie miary: "Ze wszystkich dokumentów, które według mnie są istotne dla zapytania mojego użytkownika, z którego % pobrałem fragment?" Kompletność obliczeń wymaga, aby podstawowe informacje zawierały wszystkie istotne elementy. Elementy mogą być dokumentem lub fragmentem dokumentu.

Formuła do obliczania czułości.

W poniższym przykładzie dwa z trzech pobranych wyników były istotne dla zapytania użytkownika, więc precyzja wynosiła 0,66 (2/3). Pobrane dokumenty obejmowały dwa z czterech istotnych dokumentów, więc odsetek trafień wynosił 0,5 (2/4).

Diagram przedstawiający pomiar precyzji i czułości.

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2025-05-10