Metryki oceny i monitorowania dla generowania sztucznej inteligencji

Uwaga

Usługa Azure AI Studio jest obecnie dostępna w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą być nieobsługiwane lub ograniczone. Aby uzyskać więcej informacji, zobacz Uzupełniające warunki korzystania z wersji zapoznawczych platformy Microsoft Azure.

Usługa Azure AI Studio umożliwia ocenę jednokrotnych lub złożonych konwersacji obejmujących wiele kolei, w których uziemiono generowanie modelu sztucznej inteligencji w określonych danych (nazywanego również pobieraniem rozszerzonej generacji lub rag). Możesz również ocenić ogólne scenariusze odpowiadania na pytania jednokrotne, w których żaden kontekst nie jest używany do uziemienia generowania modelu sztucznej inteligencji (nie-RAG). Obecnie obsługujemy wbudowane metryki dla następujących typów zadań:

Odpowiadanie na pytania (pojedynczy obrót)

W tej konfiguracji użytkownicy zadają indywidualne pytania lub monity, a generowanie modelu sztucznej inteligencji jest stosowane do natychmiastowego generowania odpowiedzi.

Format zestawu testów będzie następujący:

{"question":"Which tent is the most waterproof?","context":"From our product list, the Alpine Explorer tent is the most waterproof. The Adventure Dining Table has higher weight.","answer":"The Alpine Explorer Tent is the most waterproof.","ground_truth":"The Alpine Explorer Tent has the highest rainfly waterproof rating at 3000m"} 

Uwaga

Pola "context" i "ground truth" są opcjonalne, a obsługiwane metryki zależą od pól, które podajesz

Konwersacja (jednokrotne i wielokrętowe)

W tym kontekście użytkownicy angażują się w interakcje konwersacyjne za pośrednictwem serii zakrętów lub w jednej wymiany. Model generowania sztucznej inteligencji, wyposażony w mechanizmy pobierania, generuje odpowiedzi i może uzyskiwać dostęp do informacji z zewnętrznych źródeł, takich jak dokumenty, oraz dołączać je do nich. Model rozszerzonej generacji pobierania (RAG) zwiększa jakość i znaczenie odpowiedzi przy użyciu zewnętrznych dokumentów i wiedzy.

Format zestawu testów będzie następujący:

{"messages":[{"role":"user","content":"How can I check the status of my online order?"},{"content":"Hi Sarah Lee! To check the status of your online order for previous purchases such as the TrailMaster X4 Tent or the CozyNights Sleeping Bag, please refer to your email for order confirmation and tracking information. If you need further assistance, feel free to contact our customer support at support@contosotrek.com or give us a call at 1-800-555-1234.
","role":"assistant","context":{"citations":[{"id":"cHJvZHVjdF9pbmZvXzYubWQz","title":"Information about product item_number: 6","content":"# Information about product item_number: 6\n\nIt's essential to check local regulations before using the EcoFire Camping Stove, as some areas may have restrictions on open fires or require a specific type of stove.\n\n30) How do I clean and maintain the EcoFire Camping Stove?\n   To clean the EcoFire Camping Stove, allow it to cool completely, then wipe away any ash or debris with a brush or cloth. Store the stove in a dry place when not in use."}]}}]}

Obsługiwane metryki

Zgodnie z opisem w metodach oceny dużych modeli językowych istnieją ręczne i zautomatyzowane podejścia do pomiaru. Pomiar automatyczny jest przydatny do mierzenia na dużą skalę ze zwiększonym pokryciem w celu zapewnienia bardziej kompleksowych wyników. Pomocne jest również ciągłe monitorowanie regresji w miarę rozwoju systemu, użycia i środków zaradczych.

Obsługujemy dwie główne metody automatycznego pomiaru generowania aplikacji sztucznej inteligencji:

  • Tradycyjne metryki uczenia maszynowego
  • Metryki wspomagane przez sztuczną inteligencję

Metryki wspomagane przez sztuczną inteligencję wykorzystują modele językowe, takie jak GPT-4, do oceny danych wyjściowych generowanych przez sztuczną inteligencję, zwłaszcza w sytuacjach, w których oczekiwane odpowiedzi są niedostępne z powodu braku zdefiniowanej prawdy podstawowej. Tradycyjne metryki uczenia maszynowego, takie jak wynik F1, oceniają precyzję i kompletność między odpowiedziami wygenerowanymi przez sztuczną inteligencję a oczekiwanymi odpowiedziami.

Nasze metryki wspomagane przez sztuczną inteligencję oceniają bezpieczeństwo i jakość generowania aplikacji generacyjnych sztucznej inteligencji. Te metryki dzielą się na dwie odrębne kategorie:

  • Metryki ryzyka i bezpieczeństwa:

    Te metryki koncentrują się na identyfikowaniu potencjalnych zagrożeń związanych z zawartością i bezpieczeństwem oraz zapewnianiu bezpieczeństwa wygenerowanej zawartości.

    To na przykład:

    • Nienawistny i niesprawiedliwy wskaźnik wad treści
    • Wskaźnik wad zawartości seksualnej
    • Gwałtowny współczynnik wad zawartości
    • Współczynnik wad zawartości związanych z samookaleczeniami
    • Wskaźnik wad jailbreaku
  • Metryki jakości generowania:

    Te metryki oceniają ogólną jakość i spójność wygenerowanej zawartości.

    To na przykład:

    • Spójności
    • Płynność
    • Uziemienie
    • Stopień zgodności
    • Wynik pobierania
    • Similarity

Obsługujemy następujące metryki wspomagane przez sztuczną inteligencję dla powyższych typów zadań:

Typ zadania Tylko pytania i wygenerowane odpowiedzi (nie jest potrzebny kontekst lub prawda podstawy) Pytania i wygenerowane odpowiedzi i kontekst Pytania i wygenerowane odpowiedzi + kontekst + prawda naziemna
Odpowiadanie na pytania - Metryki ryzyka i bezpieczeństwa (wszystkie AI-Assisted): nienawistny i niesprawiedliwy wskaźnik wad zawartości, wskaźnik wad zawartości seksualnej, współczynnik wad zawartości przemocy, wskaźnik wad związanych z samookaleczeniami i wskaźnik wad jailbreaku
- Metryki jakości generowania (wszystkie wspomagane sztuczną inteligencją): spójność, płynność
Poprzednie metryki kolumn
+
Metryki jakości generowania (wszystkie wspomagane sztuczną inteligencją):
- Uziemienie
-Mający znaczenie dla
Poprzednie metryki kolumn
+
Metryki jakości generowania:
Podobieństwo (wspomagane sztuczną inteligencją)
Wynik F1 (tradycyjna metryka uczenia maszynowego)
Konwersacja - Metryki ryzyka i bezpieczeństwa (wszystkie AI-Assisted): nienawistny i niesprawiedliwy wskaźnik wad zawartości, wskaźnik wad zawartości seksualnej, współczynnik wad zawartości przemocy, wskaźnik wad związanych z samookaleczeniami i wskaźnik wad jailbreaku
- Metryki jakości generowania (wszystkie wspomagane sztuczną inteligencją): spójność, płynność
Poprzednie metryki kolumn
+
Metryki jakości generowania (wszystkie wspomagane sztuczną inteligencją):
- Uziemienie
- Wynik pobierania
Brak

Uwaga

Chociaż udostępniamy kompleksowy zestaw wbudowanych metryk, które ułatwiają łatwą i wydajną ocenę jakości i bezpieczeństwa aplikacji generowania sztucznej inteligencji, najlepszym rozwiązaniem jest dostosowanie i dostosowanie ich do określonych typów zadań. Ponadto umożliwiamy wprowadzanie całkowicie nowych metryk, umożliwiając pomiar aplikacji z nowych kątów i zapewnienie dopasowania do unikatowych celów.

Metryki ryzyka i bezpieczeństwa

Metryki ryzyka i bezpieczeństwa są oparte na szczegółowych danych uzyskanych z poprzednich projektów modelu dużego języka, takich jak GitHub Copilot i Bing. Zapewnia to kompleksowe podejście do oceny wygenerowanych odpowiedzi na potrzeby ocen ryzyka i ważności bezpieczeństwa. Te metryki są generowane za pośrednictwem naszej usługi oceny bezpieczeństwa, która korzysta z zestawu llMs. Każdy model ma za zadanie ocenę określonych zagrożeń, które mogą być obecne w odpowiedzi (na przykład treści seksualne, brutalne treści itp.). Te modele są dostarczane z definicjami ryzyka i skalami ważności oraz odpowiednio dodawać adnotacje do wygenerowanych konwersacji. Obecnie obliczamy "współczynnik wad" dla poniższych metryk ryzyka i bezpieczeństwa. Dla każdej z tych metryk usługa mierzy, czy wykryto te typy zawartości i na jakim poziomie ważności. Każdy z czterech typów ma trzy poziomy ważności (bardzo niski, niski, średni, wysoki). Użytkownicy określają próg tolerancji, a stawki wad są generowane przez naszą usługę odpowiadają liczbie wystąpień, które zostały wygenerowane na poziomie i wyższym od każdego poziomu progowego.

Typy zawartości:

  • Nienawistne i niesprawiedliwe treści
  • Zawartość seksualna
  • Brutalna zawartość
  • Zawartość związana z samookaleczeniami

Oprócz powyższych typów treści, obsługujemy również "Wskaźnik wad jailbreaku" w widoku porównawczym w ocenach, metryka, która mierzy częstość występowania jailbreaków w odpowiedzi modelu. Jailbreaks są, gdy odpowiedź modelu pomija ograniczenia wprowadzone w nim. Jailbreak występuje również, gdy LLM odbiega od zamierzonego zadania lub tematu.

Użytkownicy mogą mierzyć te metryki ryzyka i bezpieczeństwa na własnych danych lub używać zestawu SDK sztucznej inteligencji platformy Azure do symulowania różnych interakcji z generowaniem aplikacji sztucznej inteligencji w celu wygenerowania testu (nazywamy go zestawem danych ryzyka zawartości). Następnie możesz ocenić ten symulowany zestaw danych testowych, aby wygenerować zestaw danych z adnotacjami testowym z poziomami ważności ryzyka zawartości (bardzo niskim, niskim, średnim lub wysokim) i wyświetlić wyniki w usłudze Azure AI , co zapewnia ogólny współczynnik wad w całym zestawie danych testowych i widoku wystąpienia każdej etykiety ryzyka zawartości i rozumowania.

W przeciwieństwie do innych metryk w tabeli luka w zabezpieczeniach systemu jailbreak nie może być niezawodnie mierzona za pomocą adnotacji przez llM. Jednak luka w zabezpieczeniach systemu jailbreak może być mierzona przez porównanie dwóch różnych zautomatyzowanych zestawów danych (1) zestawu danych ryzyka zawartości a (2) zestaw danych ryzyka zawartości z wstrzyknięciami jailbreaku w pierwszej kolejności. Następnie użytkownik ocenia lukę w zabezpieczeniach systemu jailbreak, porównując współczynniki wad ryzyka dla obu zestawów danych.

Uwaga

Metryki ryzyka i bezpieczeństwa wspomagane przez sztuczną inteligencję są hostowane przez usługę zaplecza oceny bezpieczeństwa usługi Azure AI Studio i są dostępne tylko w następujących regionach: Wschodnie stany USA 2, Francja Środkowa, Południowe Zjednoczone Królestwo, Szwecja Środkowa.

Dostępne regiony mają następującą pojemność:

Region (Region) TPM
Szwecja Środkowa 450 tys.
Francja Środkowa 380 tys.
Południowe Zjednoczone Królestwo 280 tys.
Wschodnie stany USA 2 80 tys.

Nienawistna i niesprawiedliwa definicja zawartości oraz skala ważności

Ostrzeżenie

Definicje ryzyka zawartości i skala ważności zawierają opisy, które mogą być niepokojące dla niektórych użytkowników.

Definicja zawartości seksualnej i skala ważności

Ostrzeżenie

Definicje ryzyka zawartości i skala ważności zawierają opisy, które mogą być niepokojące dla niektórych użytkowników.

Definicja brutalnej zawartości i skala ważności

Ostrzeżenie

Definicje ryzyka zawartości i skala ważności zawierają opisy, które mogą być niepokojące dla niektórych użytkowników.

Ostrzeżenie

Definicje ryzyka zawartości i skala ważności zawierają opisy, które mogą być niepokojące dla niektórych użytkowników.

Metryki jakości generowania

Metryki jakości generowania służą do oceny ogólnej jakości zawartości generowanej przez generowanie aplikacji sztucznej inteligencji. Poniżej przedstawiono podział tych metryk:

Wspomagane sztuczną inteligencją: Uziemioność

W przypadku uziemienia udostępniamy dwie wersje:

  • Wykrywanie naziemności wykorzystujące usługę Azure AI Content Sejf ty Service (AACS) za pośrednictwem integracji z ocenami bezpieczeństwa usługi Azure AI Studio. Żadne wdrożenie nie jest wymagane od użytkownika jako usługa zaplecza, zapewni modele, aby uzyskać wynik i rozumowanie. Obecnie obsługiwane w następujących regionach: Wschodnie stany USA 2 i Szwecja Środkowa.
  • Podstawy oparte tylko na monitach przy użyciu własnych modeli w celu wyprowadzenia tylko wyniku. Obecnie obsługiwane we wszystkich regionach.

Podstawy AACS

Charakterystyka wyników Szczegóły oceny
Zakres wyników 1-5, gdzie 1 jest nieuziemiony, a 5 jest uziemiony
Jaka jest ta metryka? Mierzy, jak dobrze wygenerowane odpowiedzi modelu są zgodne z informacjami z danych źródłowych (na przykład pobranymi dokumentami w funkcji RAG Question and Answering lub dokumentami na potrzeby podsumowania) i przyczynami danych wyjściowych, dla których określone wygenerowane zdania są nieprzyziemne.
Jak to działa? Wykrywanie uziemienia korzysta z niestandardowego modelu języka usługi Azure AI Sejf ty Service dostosowanego do zadania przetwarzania języka naturalnego o nazwie Wnioskowanie języka naturalnego (NLI), które ocenia oświadczenia jako związane z dokumentem źródłowym. 
Kiedy go używać? Użyj metryki uziemienia, gdy musisz sprawdzić, czy wygenerowane przez sztuczną inteligencję odpowiedzi są zgodne z podanym kontekstem i są weryfikowane. Ważne jest, aby aplikacje, w których poprawność faktów i dokładność kontekstowa są kluczowe, takie jak pobieranie informacji, odpowiadanie na pytania i podsumowywanie zawartości. Ta metryka zapewnia, że odpowiedzi generowane przez sztuczną inteligencję są dobrze obsługiwane przez kontekst.
Czego potrzebuje jako danych wejściowych? Pytanie, kontekst, wygenerowana odpowiedź

Podstawy oparte tylko na monitach

Charakterystyka wyników Szczegóły oceny
Zakres wyników 1-5, gdzie 1 jest nieuziemiony, a 5 jest uziemiony
Jaka jest ta metryka? Mierzy, jak dobrze wygenerowane odpowiedzi modelu są zgodne z informacjami z danych źródłowych (kontekst zdefiniowany przez użytkownika).
Jak to działa? Miara groundedness ocenia korespondencję między oświadczeniami w odpowiedzi wygenerowanej przez sztuczną inteligencję a kontekstem źródłowym, upewniając się, że te oświadczenia są uzasadnione przez kontekst. Nawet jeśli odpowiedzi z usługi LLM są faktycznie poprawne, zostaną uznane za nieziemne, jeśli nie można ich zweryfikować względem podanych źródeł (takich jak źródło danych wejściowych lub baza danych).
Kiedy go używać? Użyj metryki uziemienia, gdy musisz sprawdzić, czy wygenerowane przez sztuczną inteligencję odpowiedzi są zgodne z podanym kontekstem i są weryfikowane. Ważne jest, aby aplikacje, w których poprawność faktów i dokładność kontekstowa są kluczowe, takie jak pobieranie informacji, odpowiadanie na pytania i podsumowywanie zawartości. Ta metryka zapewnia, że odpowiedzi generowane przez sztuczną inteligencję są dobrze obsługiwane przez kontekst.
Czego potrzebuje jako danych wejściowych? Pytanie, kontekst, wygenerowana odpowiedź

Wbudowany monit używany przez sędziego dużego modelu językowego do oceny tej metryki:

You will be presented with a CONTEXT and an ANSWER about that CONTEXT. You need to decide whether the ANSWER is entailed by the CONTEXT by choosing one of the following rating: 

1. 5: The ANSWER follows logically from the information contained in the CONTEXT. 

2. 1: The ANSWER is logically false from the information contained in the CONTEXT. 

3. an integer score between 1 and 5 and if such integer score does not exist,  

use 1: It is not possible to determine whether the ANSWER is true or false without further information. 

Read the passage of information thoroughly and select the correct answer from the three answer labels. 

Read the CONTEXT thoroughly to ensure you know what the CONTEXT entails.  

Note the ANSWER is generated by a computer system, it can contain certain symbols, which should not be a negative factor in the evaluation. 

Wspomagane sztuczną inteligencją: istotność

Charakterystyka wyników Szczegóły oceny
Zakres wyników Liczba całkowita [1–5]: gdzie 1 jest zła, a 5 jest dobre
Jaka jest ta metryka? Mierzy zakres, w jakim generowane odpowiedzi modelu są odpowiednie i bezpośrednio związane z podanymi pytaniami.
Jak to działa? Miara istotności ocenia zdolność odpowiedzi do przechwytywania kluczowych punktów kontekstu. Wyniki o wysokiej istotności oznaczają zrozumienie danych wejściowych systemu sztucznej inteligencji i jego możliwości tworzenia spójnych i kontekstowych odpowiednich danych wyjściowych. Z drugiej strony niskie wyniki istotności wskazują, że wygenerowane odpowiedzi mogą być poza tematem, brakiem kontekstu lub niewystarczającymi w rozwiązywaniu zamierzonych zapytań użytkownika.
Kiedy go używać? Użyj metryki istotności podczas oceniania wydajności systemu sztucznej inteligencji w zrozumieniu danych wejściowych i generowaniu kontekstowo odpowiednich odpowiedzi.
Czego potrzebuje jako danych wejściowych? Pytanie, kontekst, wygenerowana odpowiedź

Wbudowany monit używany przez sędziego dużego modelu językowego do oceniania tej metryki (w przypadku formatu danych odpowiedzi na pytania):

Relevance measures how well the answer addresses the main aspects of the question, based on the context. Consider whether all and only the important aspects are contained in the answer when evaluating relevance. Given the context and question, score the relevance of the answer between one to five stars using the following rating scale: 

One star: the answer completely lacks relevance 

Two stars: the answer mostly lacks relevance 

Three stars: the answer is partially relevant 

Four stars: the answer is mostly relevant 

Five stars: the answer has perfect relevance 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Wbudowany monit używany przez sędziego modelu dużego języka do oceniania tej metryki (w przypadku formatu danych konwersacji) (bez dostępnej podstawy prawdy):

You will be provided a question, a conversation history, fetched documents related to the question and a response to the question in the {DOMAIN} domain. Your task is to evaluate the quality of the provided response by following the steps below:  
 
- Understand the context of the question based on the conversation history.  
 
- Generate a reference answer that is only based on the conversation history, question, and fetched documents. Don't generate the reference answer based on your own knowledge.  
 
- You need to rate the provided response according to the reference answer if it's available on a scale of 1 (poor) to 5 (excellent), based on the below criteria:  
 
5 - Ideal: The provided response includes all information necessary to answer the question based on the reference answer and conversation history. Please be strict about giving a 5 score.  
 
4 - Mostly Relevant: The provided response is mostly relevant, although it might be a little too narrow or too broad based on the reference answer and conversation history.  
 
3 - Somewhat Relevant: The provided response might be partly helpful but might be hard to read or contain other irrelevant content based on the reference answer and conversation history.  
 
2 - Barely Relevant: The provided response is barely relevant, perhaps shown as a last resort based on the reference answer and conversation history.  
 
1 - Completely Irrelevant: The provided response should never be used for answering this question based on the reference answer and conversation history.  
 
- You need to rate the provided response to be 5, if the reference answer can not be generated since no relevant documents were retrieved.  
 
- You need to first provide a scoring reason for the evaluation according to the above criteria, and then provide a score for the quality of the provided response.  
 
- You need to translate the provided response into English if it's in another language. 

- Your final response must include both the reference answer and the evaluation result. The evaluation result should be written in English.  

Wbudowany monit używany przez sędziego modelu dużego języka do oceniania tej metryki (w przypadku formatu danych konwersacji) (z dostępną prawą podstawą):


Your task is to score the relevance between a generated answer and the question based on the ground truth answer in the range between 1 and 5, and please also provide the scoring reason.  
 
Your primary focus should be on determining whether the generated answer contains sufficient information to address the given question according to the ground truth answer.   
 
If the generated answer fails to provide enough relevant information or contains excessive extraneous information, then you should reduce the score accordingly.  
 
If the generated answer contradicts the ground truth answer, it will receive a low score of 1-2.   
 
For example, for question "Is the sky blue?", the ground truth answer is "Yes, the sky is blue." and the generated answer is "No, the sky is not blue.".   
 
In this example, the generated answer contradicts the ground truth answer by stating that the sky is not blue, when in fact it is blue.   
 
This inconsistency would result in a low score of 1-2, and the reason for the low score would reflect the contradiction between the generated answer and the ground truth answer.  
 
Please provide a clear reason for the low score, explaining how the generated answer contradicts the ground truth answer.  
 
Labeling standards are as following:  
 
5 - ideal, should include all information to answer the question comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
4 - mostly relevant, although it might be a little too narrow or too broad comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
3 - somewhat relevant, might be partly helpful but might be hard to read or contain other irrelevant content comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
2 - barely relevant, perhaps shown as a last resort comparing to the ground truth answer, and the generated answer contradicts with the ground truth answer  
 
1 - completely irrelevant, should never be used for answering this question comparing to the ground truth answer, and the generated answer contradicts with the ground truth answer  

Wspomagane sztuczną inteligencją: spójność

Charakterystyka wyników Szczegóły oceny
Zakres wyników Liczba całkowita [1–5]: gdzie 1 jest zła, a 5 jest dobre
Jaka jest ta metryka? Mierzy, jak dobrze model językowy może wygenerować dane wyjściowe, które płynnie przepływa, odczytuje naturalnie i przypomina język przypominający człowieka.
Jak to działa? Miara spójności ocenia zdolność modelu językowego do generowania tekstu, który odczytuje naturalnie, przepływa płynnie i przypomina język podobny do ludzkiego w odpowiedziach.
Kiedy go używać? Użyj go podczas oceniania czytelności i łatwości użytkownika wygenerowanych odpowiedzi modelu w rzeczywistych aplikacjach.
Czego potrzebuje jako danych wejściowych? Pytanie, wygenerowana odpowiedź

Wbudowany monit używany przez sędziego dużego modelu językowego do oceny tej metryki:

Coherence of an answer is measured by how well all the sentences fit together and sound naturally as a whole. Consider the overall quality of the answer when evaluating coherence. Given the question and answer, score the coherence of answer between one to five stars using the following rating scale: 

One star: the answer completely lacks coherence 

Two stars: the answer mostly lacks coherence 

Three stars: the answer is partially coherent 

Four stars: the answer is mostly coherent 

Five stars: the answer has perfect coherency 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Sztuczna inteligencja wspomagana: płynność

Charakterystyka wyników Szczegóły oceny
Zakres wyników Liczba całkowita [1–5]: gdzie 1 jest zła, a 5 jest dobre
Jaka jest ta metryka? Mierzy gramatyczną biegłość przewidywaną przez generowanie sztucznej inteligencji.
Jak to działa? Miara fluency ocenia zakres, w jakim wygenerowany tekst jest zgodny z regułami gramatycznymi, strukturami składniowymi i odpowiednim użyciem słownictwa, co skutkuje poprawną językowo odpowiedzią.
Kiedy go używać? Użyj go podczas oceniania poprawności językowej tekstu wygenerowanego przez sztuczną inteligencję, zapewniając, że jest on zgodny z odpowiednimi regułami gramatycznymi, strukturami składniowymi i użyciem słownictwa w wygenerowanych odpowiedziach.
Czego potrzebuje jako danych wejściowych? Pytanie, wygenerowana odpowiedź

Wbudowany monit używany przez sędziego dużego modelu językowego do oceny tej metryki:

Fluency measures the quality of individual sentences in the answer, and whether they are well-written and grammatically correct. Consider the quality of individual sentences when evaluating fluency. Given the question and answer, score the fluency of the answer between one to five stars using the following rating scale: 

One star: the answer completely lacks fluency 

Two stars: the answer mostly lacks fluency 

Three stars: the answer is partially fluent 

Four stars: the answer is mostly fluent 

Five stars: the answer has perfect fluency 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Asystowana sztuczna inteligencja: wynik pobierania

Charakterystyka wyników Szczegóły oceny
Zakres wyników Zmiennoprzecinkowy [1-5]: gdzie 1 jest złe, a 5 jest dobre
Jaka jest ta metryka? Mierzy zakres, w jakim pobierane dokumenty modelu są odpowiednie i bezpośrednio związane z podanymi pytaniami.
Jak to działa? Wynik pobierania mierzy jakość i istotność pobranego dokumentu na pytanie użytkownika (podsumowane w całej historii konwersacji). Kroki: Krok 1. Podział zapytań użytkownika na intencje, wyodrębnianie intencji z zapytania użytkownika, takie jak "Ile to maszyna wirtualna platformy Azure z systemem Linux i maszyna wirtualna platformy Azure z systemem Windows?" -> Intencja będzie ["jaka jest cena maszyny wirtualnej z systemem Linux platformy Azure?", "Jaka jest cena maszyny wirtualnej z systemem Windows platformy Azure?". Krok 2. W przypadku każdej intencji zapytania użytkownika poproś model o ocenę, czy sama intencja lub odpowiedź na intencję jest obecna lub może zostać wywnioskowana z pobranych dokumentów. Odpowiedź może mieć wartość "Nie" lub "Tak, dokumenty [doc1], [doc2]...". "Tak" oznacza, że pobrane dokumenty odnoszą się do intencji lub odpowiedzi na intencję i na odwrót. Krok 3. Oblicz ułamek intencji, które mają odpowiedź rozpoczynającą się od "Tak". W tym przypadku wszystkie intencje mają taką samą ważność. Krok 4. Wreszcie, kwadrat wyniku, aby ukarać błędy.
Kiedy go używać? Użyj oceny pobierania, jeśli chcesz zagwarantować, że pobrane dokumenty są bardzo istotne w przypadku odpowiadania na pytania użytkowników. Ten wynik pomaga zapewnić jakość i odpowiedniość pobranej zawartości.
Czego potrzebuje jako danych wejściowych? Pytanie, kontekst, wygenerowana odpowiedź

Wbudowany monit używany przez sędziego dużego modelu językowego do oceny tej metryki:

A chat history between user and bot is shown below 

A list of documents is shown below in json format, and each document has one unique id.  

These listed documents are used as contex to answer the given question. 

The task is to score the relevance between the documents and the potential answer to the given question in the range of 1 to 5.  

1 means none of the documents is relevant to the question at all. 5 means either one of the document or combination of a few documents is ideal for answering the given question. 

Think through step by step: 

- Summarize each given document first 

- Determine the underlying intent of the given question, when the question is ambiguous, refer to the given chat history  

- Measure how suitable each document to the given question, list the document id and the corresponding relevance score.  

- Summarize the overall relevance of given list of documents to the given question after # Overall Reason, note that the answer to the question can soley from single document or a combination of multiple documents.  

- Finally, output "# Result" followed by a score from 1 to 5.  

  

# Question 

{{ query }} 

# Chat History 

{{ history }} 

# Documents 

---BEGIN RETRIEVED DOCUMENTS--- 

{{ FullBody }} 

---END RETRIEVED DOCUMENTS--- 

Wspomagane sztuczną inteligencją: podobieństwo GPT

Charakterystyka wyników Szczegóły oceny
Zakres wyników Liczba całkowita [1–5]: gdzie 1 jest zła, a 5 jest dobre
Jaka jest ta metryka? Mierzy podobieństwo między zdaniem danych źródłowych (prawda podstawy) a wygenerowaną odpowiedzią przez model sztucznej inteligencji.
Jak to działa? Miara podobieństwa GPT ocenia podobieństwo między zdaniem podstawy (lub dokumentem) a wygenerowanym przewidywaniem modelu sztucznej inteligencji. To obliczenie obejmuje tworzenie osadzonych na poziomie zdań zarówno dla podstawowej prawdy, jak i przewidywania modelu, które są reprezentacjami wektorów o wysokim wymiarach, przechwytując znaczenie semantyczne i kontekst zdań.
Kiedy go używać? Użyj go, gdy chcesz uzyskać obiektywną ocenę wydajności modelu sztucznej inteligencji, szczególnie w zadaniach generowania tekstu, w których masz dostęp do odpowiedzi na podstawowe informacje. Podobieństwo GPT umożliwia ocenę semantycznego dopasowania wygenerowanego tekstu do żądanej zawartości, co pomaga ocenić jakość i dokładność modelu.
Czego potrzebuje jako danych wejściowych? Pytanie, odpowiedź na podstawy prawdy, wygenerowana odpowiedź

Wbudowany monit używany przez sędziego dużego modelu językowego do oceny tej metryki:

GPT-Similarity, as a metric, measures the similarity between the predicted answer and the correct answer. If the information and content in the predicted answer is similar or equivalent to the correct answer, then the value of the Equivalence metric should be high, else it should be low. Given the question, correct answer, and predicted answer, determine the value of Equivalence metric using the following rating scale: 

One star: the predicted answer is not at all similar to the correct answer 

Two stars: the predicted answer is mostly not similar to the correct answer 

Three stars: the predicted answer is somewhat similar to the correct answer 

Four stars: the predicted answer is mostly similar to the correct answer 

Five stars: the predicted answer is completely similar to the correct answer 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Tradycyjne uczenie maszynowe: wynik F1

Charakterystyka wyników Szczegóły oceny
Zakres wyników Zmiennoprzecinkowy [0-1]
Jaka jest ta metryka? Mierzy stosunek liczby wspólnych słów między generowaniem modelu a odpowiedziami na podstawowe prawdy.
Jak to działa? Wynik F1 oblicza stosunek liczby wspólnych słów między generowaniem modelu a prawem podstawy. Współczynnik jest obliczany na podstawie pojedynczych słów w wygenerowanej odpowiedzi na te w podstawowej odpowiedzi prawdy. Liczba wspólnych słów między pokoleniem a prawdą jest podstawą wyniku F1: precyzja to stosunek liczby wyrazów udostępnionych do całkowitej liczby wyrazów w pokoleniu, a kompletność jest współczynnikiem liczby wyrazów wspólnych do całkowitej liczby wyrazów w prawdzie podstawowej.
Kiedy go używać? Użyj wskaźnika F1, jeśli chcesz uzyskać pojedynczą kompleksową metrykę, która łączy zarówno kompletność, jak i precyzję w odpowiedziach modelu. Zapewnia zrównoważoną ocenę wydajności modelu pod kątem przechwytywania dokładnych informacji w odpowiedzi.
Czego potrzebuje jako danych wejściowych? Pytanie, odpowiedź na podstawy prawdy, wygenerowana odpowiedź

Następne kroki