Udostępnij za pomocą


Ocena wydajności: Metryki, które mają znaczenie

W tym artykule opisano pomiar wydajności aplikacji RAG pod kątem jakości pobierania, odpowiedzi i wydajności systemu.

Pobieranie, odpowiedź i wydajność

Za pomocą zestawu oceny można zmierzyć wydajność aplikacji RAG w wielu różnych wymiarach, w tym:

  • Jakość pobierania: Metryki pobierania oceniają, jak pomyślnie aplikacja RAG pobiera odpowiednie dane pomocnicze. Precyzja i kompletność to dwie kluczowe metryki wyszukiwania.
  • Jakość odpowiedzi: Metryki jakości odpowiedzi oceniają, jak dobrze aplikacja RAG odpowiada na żądanie użytkownika. Metryki odpowiedzi mogą na przykład mierzyć, czy wynikowa odpowiedź jest dokładna zgodnie z rzeczywistością, jak dobrze umocowana była odpowiedź w oparciu o pobrany kontekst (na przykład czy LLM miał halucynacje?) lub jak bezpieczna była odpowiedź (innymi słowy, brak toksyczności).
  • Wydajność systemu (koszt i opóźnienie): Metryki przechwytują ogólny koszt i wydajność aplikacji RAG. Ogólne opóźnienie i użycie tokenu to przykłady metryk wydajności łańcucha.

Bardzo ważne jest zbieranie metryk odpowiedzi i pobierania. Aplikacja RAG może reagować źle pomimo pobierania poprawnego kontekstu; może również zapewnić dobrą odpowiedź na podstawie wadliwego pobierania. Tylko poprzez pomiar obu składników możemy dokładnie zdiagnozować i rozwiązać problemy w aplikacji.

Podejścia do mierzenia wydajności

Istnieją dwa kluczowe podejścia do mierzenia wydajności w tych metrykach:

  • Miara deterministyczna: Metryki kosztów i opóźnień można obliczyć deterministycznie na podstawie danych wyjściowych aplikacji. Jeśli zestaw oceny zawiera listę dokumentów, w których znajduje się odpowiedź na pytanie, można również deterministycznie obliczyć podzbiór metryk pobierania informacji.
  • Pomiar z użyciem sędziego w LLM: W tym podejściu oddzielny model LLM działa jako sędzia, oceniając jakość wyszukiwania i odpowiedzi aplikacji RAG. Niektórzy sędziowie LLM, oceniający poprawność odpowiedzi, porównują oznaczoną przez człowieka prawdę jako punkt odniesienia z wynikami aplikacji. Inni sędziowie LLM, tacy jak zasadność, nie wymagają prawdziwości oznaczonej przez człowieka do oceny wyników swoich aplikacji.

Ważne

Aby sędzia LLM był skuteczny, należy go dostroić, aby zrozumieć konkretne zastosowanie. Zrobienie tego wymaga starannej uwagi, aby zrozumieć, gdzie sędzia działa dobrze, a gdzie nie, a następnie dostroić sędziego, aby poprawić jego działanie w przypadkach niepowodzeń.

Ocena agenta Mozaik AI zapewnia gotową implementację przy użyciu hostowanych modeli oceniających LLM dla każdej metryki omówionej na tej stronie. W dokumentacji oceny agenta omówiono szczegóły wdrażania tych metryk i sędziów oraz możliwości dostosowywania sędziów do danych w celu zwiększenia ich dokładności

Omówienie metryk

Poniżej przedstawiono podsumowanie metryk zalecanych przez usługę Databricks do mierzenia jakości, kosztów i opóźnień aplikacji RAG. Te metryki są implementowane w narzędziu Mosaic AI Agent Evaluation.

Wymiar Nazwa metryki Pytanie Mierzony przez Potrzebuje podstawowej prawdy?
Odzyskiwanie chunk_relevance/znaczenie_fragmentu Jakie % pobranych fragmentów są istotne dla żądania? Sędzia LLM Nie.
Odzyskiwanie Przywołanie_dokumentu Jaki procent dokumentów stanowiących prawdę jest reprezentowany w pobranych fragmentach? Deterministyczny Tak
Odzyskiwanie wystarczalność kontekstu Czy pobrana ilość fragmentów jest niewystarczająca, aby wygenerować oczekiwaną odpowiedź? Sędzia LLM Tak
Odpowiedź dokładność Ogólnie rzecz biorąc, czy agent wygenerował poprawną odpowiedź? Sędzia LLM Tak
Odpowiedź trafność do zapytania Czy odpowiedź dotyczy żądania? Sędzia LLM Nie.
Odpowiedź ugruntowanie Czy odpowiedź jest halucynacją, czy uziemiona w kontekście? Sędzia LLM Nie.
Odpowiedź bezpieczeństwo Czy w odpowiedzi znajduje się szkodliwa zawartość? Sędzia LLM Nie.
Koszty całkowita_liczba_tokenów, całkowita_liczba_tokenów_wejściowych, całkowita_liczba_tokenów_wyjściowych Jaka jest łączna liczba tokenów dla generacji LLM? Deterministyczny Nie.
Opóźnienie opóźnienie_sekundy Jakie jest opóźnienie wykonywania aplikacji? Deterministyczny Nie.

Jak działają metryki pobierania

Metryki pobierania pomagają zrozumieć, czy mechanizm wyszukiwania dostarcza odpowiednie wyniki. Metryki pobierania są oparte na precyzji i czułości.

Nazwa metryki Odpowiedź na pytanie Szczegóły
Dokładność Jaki procent pobranych fragmentów jest istotny dla żądania? Precyzja to proporcja pobranych dokumentów, które są rzeczywiście istotne dla żądania użytkownika. Sędzia LLM może być używany do oceny istotności każdego pobranego fragmentu w odniesieniu do żądania użytkownika.
Odwołaj Jaki procent dokumentów stanowiących prawdę jest reprezentowany w pobranych fragmentach? Przypomnienie to proporcja dokumentów referencyjnych, które są reprezentowane w pobranych fragmentach. Jest to miara kompletności wyników.

Precyzja i kompletność

Poniżej znajduje się krótkie wprowadzenie na temat precyzji i kompletności, zaadaptowane z doskonałego artykułu w Wikipedii.

Formuła precyzji

Miary precyzji: "Spośród częsci, które pobrałem, jakie % z tych elementów są rzeczywiście istotne dla zapytania mojego użytkownika?" Precyzja obliczeniowa nie wymaga znajomości wszystkich odpowiednich elementów.

Formuła do obliczania dokładności.

Formuła odwołania

Przypomnij sobie miary: "Ze wszystkich dokumentów, które według mnie są istotne dla zapytania mojego użytkownika, z którego % pobrałem fragment?" Kompletność obliczeń wymaga, aby podstawowe informacje zawierały wszystkie istotne elementy. Elementy mogą być dokumentem lub fragmentem dokumentu.

Formuła do obliczania czułości.

W poniższym przykładzie dwa z trzech pobranych wyników były istotne dla zapytania użytkownika, więc precyzja wynosiła 0,66 (2/3). Pobrane dokumenty obejmowały dwa z czterech istotnych dokumentów, więc odsetek trafień wynosił 0,5 (2/4).

Diagram przedstawiający pomiar precyzji i czułości.