Vyhodnocení a monitorování metrik pro generování umělé inteligence

Poznámka:

Azure AI Studio je aktuálně ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.

Azure AI Studio umožňuje vyhodnotit konverzace s jedním otočením nebo komplexními konverzacemi, ve kterých uzemníte model generující AI ve vašich konkrétních datech (označovaný také jako načítání rozšířené generace nebo RAG). Můžete také vyhodnotit obecné scénáře odpovědí na otázky, kdy se k uzemnění generujícího modelu AI (bez RAG) nepoužívá žádný kontext. V současné době podporujeme předdefinované metriky pro následující typy úloh:

Odpovídání na otázky (jeden tah)

V tomto nastavení představují uživatelé jednotlivé otázky nebo výzvy a k okamžitému vygenerování odpovědí se používá model generující umělé inteligence.

Formát testovací sady bude postupovat podle tohoto formátu dat:

{"question":"Which tent is the most waterproof?","context":"From our product list, the Alpine Explorer tent is the most waterproof. The Adventure Dining Table has higher weight.","answer":"The Alpine Explorer Tent is the most waterproof.","ground_truth":"The Alpine Explorer Tent has the highest rainfly waterproof rating at 3000m"} 

Poznámka:

Pole Kontext a Základní pravda jsou nepovinná a podporované metriky závisí na zadaných polích.

Konverzace (jedno turn and multi turn)

V tomto kontextu se uživatelé zapojují do konverzačních interakcí, a to buď prostřednictvím řady otočení, nebo v jedné výměně. Model generující AI, vybavený mechanismy načítání, generuje odpovědi a může přistupovat k externím zdrojům, jako jsou dokumenty, a začlenit je do nich a začlenit je. Model RAG (Retrieval Augmented Generation) vylepšuje kvalitu a význam odpovědí pomocí externích dokumentů a znalostí.

Formát testovací sady bude postupovat podle tohoto formátu dat:

{"messages":[{"role":"user","content":"How can I check the status of my online order?"},{"content":"Hi Sarah Lee! To check the status of your online order for previous purchases such as the TrailMaster X4 Tent or the CozyNights Sleeping Bag, please refer to your email for order confirmation and tracking information. If you need further assistance, feel free to contact our customer support at support@contosotrek.com or give us a call at 1-800-555-1234.
","role":"assistant","context":{"citations":[{"id":"cHJvZHVjdF9pbmZvXzYubWQz","title":"Information about product item_number: 6","content":"# Information about product item_number: 6\n\nIt's essential to check local regulations before using the EcoFire Camping Stove, as some areas may have restrictions on open fires or require a specific type of stove.\n\n30) How do I clean and maintain the EcoFire Camping Stove?\n   To clean the EcoFire Camping Stove, allow it to cool completely, then wipe away any ash or debris with a brush or cloth. Store the stove in a dry place when not in use."}]}}]}

Podporované metriky

Jak je popsáno v metodách vyhodnocování velkých jazykových modelů, existují ruční a automatizované přístupy k měření. Automatizované měření je užitečné pro měření ve velkém měřítku se zvýšeným pokrytím, aby poskytovalo komplexnější výsledky. Je také užitečné při průběžném měření monitorovat jakoukoli regresi při vývoji systému, využití a zmírnění rizik.

Podporujeme dvě hlavní metody pro automatizované měření generovaných aplikací umělé inteligence:

  • Tradiční metriky strojového učení
  • Metriky asistované umělé inteligence

Metriky s asistencí umělé inteligence využívají jazykové modely, jako je GPT-4, k vyhodnocení výstupu generovaného AI, zejména v situacích, kdy očekávané odpovědi nejsou dostupné kvůli absenci definované základní pravdy. Tradiční metriky strojového učení, jako je skóre F1, měří přesnost a úplnost mezi odpověďmi generovanými AI a očekávanými odpověďmi.

Naše metriky s asistencí umělé inteligence vyhodnocují kvalitu zabezpečení a generování aplikací generující umělé inteligence. Tyto metriky spadají do dvou různých kategorií:

  • Metriky rizik a bezpečnosti:

    Tyto metriky se zaměřují na identifikaci potenciálního obsahu a bezpečnostních rizik a zajištění bezpečnosti generovaného obsahu.

    Patří sem:

    • Míra vad nesnášící a nespravedlivého obsahu
    • Sexuální míra vad obsahu
    • Míra poruch násilného obsahu
    • Míra vad obsahu souvisejícího s poškozením
    • Míra chyb jailbreaku
  • Metriky kvality generování:

    Tyto metriky vyhodnocují celkovou kvalitu a soudržnost generovaného obsahu.

    Patří sem:

    • Soudržnost
    • Plynulost
    • Uzemnění
    • Relevance
    • Skóre načtení
    • Podobnost

Pro výše uvedené typy úloh podporujeme následující metriky asistované umělé inteligence:

Typ úkolu Pouze otázky a vygenerované odpovědi (není potřeba žádný kontext nebo základní pravda) Otázky a vygenerované odpovědi + kontext Otázka a vygenerované odpovědi + kontext + základní pravda
Odpovídání na otázky - Metriky rizik a bezpečnosti (všechny AI asistované): nenávistná a nespravedlivá míra vad obsahu, míra vad sexuálního obsahu, míra závady násilného obsahu, míra vad související s vlastním poškozením a míra vad jailbreaku
- Metriky kvality generování (všechny AI asistované): soudržnost, plynulost
Metriky předchozího sloupce
+
Metriky kvality generování (všechny asistované umělé inteligence):
- Uzemnění
-Význam
Metriky předchozího sloupce
+
Metriky kvality generování:
Podobnost (asistovaná AI)
F1-Score (tradiční metrika ML)
Konverzace - Metriky rizik a bezpečnosti (všechny AI asistované): nenávistná a nespravedlivá míra vad obsahu, míra vad sexuálního obsahu, míra závady násilného obsahu, míra vad související s vlastním poškozením a míra vad jailbreaku
- Metriky kvality generování (všechny AI asistované): soudržnost, plynulost
Metriky předchozího sloupce
+
Metriky kvality generování (všechny asistované umělé inteligence):
- Uzemnění
- Skóre načtení

Poznámka:

I když vám poskytujeme komplexní sadu předdefinovaných metrik, které usnadňují snadné a efektivní vyhodnocení kvality a bezpečnosti vaší aplikace generující umělé inteligence, je osvědčeným postupem je přizpůsobit a přizpůsobit je vašim konkrétním typům úloh. Kromě toho vám umožníme zavést zcela nové metriky, které vám umožní měřit aplikace z čerstvých úhlů a zajistit soulad s vašimi jedinečnými cíli.

Metriky rizik a bezpečnosti

Metriky rizik a bezpečnosti vycházejí z přehledů získaných z našich předchozích projektů velkých jazykových modelů, jako je GitHub Copilot a Bing. To zajišťuje komplexní přístup k vyhodnocení vygenerovaných odpovědí na skóre závažnosti rizika a bezpečnosti. Tyto metriky se generují prostřednictvím naší služby vyhodnocení bezpečnosti, která využívá sadu LLM. Každý model má za úkol vyhodnotit specifická rizika, která by mohla být přítomna v odpovědi (například sexuální obsah, násilné obsah atd.). Tyto modely jsou k dispozici s definicemi rizik a stupnici závažnosti a odpovídajícím způsobem přidají poznámky k vygenerovaným konverzacím. V současné době vypočítáme "míru vad" pro níže uvedené metriky rizika a bezpečnosti. Pro každou z těchto metrik služba měří, jestli byly tyto typy obsahu zjištěny a na jaké úrovni závažnosti. Každý ze čtyř typů má tři úrovně závažnosti (velmi nízká, nízká, střední, vysoká). Uživatelé určují prahovou hodnotu tolerance a sazby vad jsou vytvářeny naší službou, které odpovídají počtu instancí, které byly generovány na každé úrovni prahové hodnoty a vyšší.

Typy obsahu:

  • Nenávistný a nespravedlivý obsah
  • Sexuální obsah
  • Násilné obsah
  • Obsah související s vlastním poškozením

Kromě výše uvedených typů obsahu podporujeme také "jailbreak defect rate" v srovnávacím zobrazení napříč hodnoceními, metriku, která měří prevalenci jailbreaků v modelových odpovědích. Jailbreaky jsou v případech, kdy odpověď modelu obchází omezení, která se na něj vztahují. K jailbreaku dochází také v případě, že se LLM odchýlí od zamýšleného úkolu nebo tématu.

Uživatelé můžou tyto metriky rizika a bezpečnosti měřit na vlastních datech nebo pomocí sady Azure AI SDK simulovat různé interakce útoku se svou generující aplikací AI k výstupu testu (označujeme ho jako datovou sadu rizik obsahu). Pak můžete na této simulované testovací datové sadě vyhodnotit výstup testovací datové sady s poznámkami s úrovněmi závažnosti rizika obsahu (velmi nízká, nízká, střední nebo vysoká) a zobrazit výsledky v Azure AI , která poskytuje celkovou míru vad napříč celou testovací datovou sadou a zobrazením výskytu každého popisku rizika obsahu a odůvodnění.

Na rozdíl od jiných metrik v tabulce nejde ohrožení zabezpečení jailbreaku spolehlivě měřit pomocí poznámky LLM. Ohrožení zabezpečení jailbreaku se ale dá měřit porovnáním dvou různých automatizovaných datových sad (1) datových sad rizik obsahu vs. (2) datová sada rizik obsahu s injektážemi jailbreaku na prvním místě. Pak uživatel vyhodnotí ohrožení zabezpečení z jailbreaku porovnáním míry chyb rizik obsahu obou datových sad.

Poznámka:

Metriky rizik s asistencí AI a bezpečnostní metriky jsou hostované back-endovou službou azure AI Studio a jsou k dispozici pouze v následujících oblastech: USA – východ 2, Francie – střed, Velká Británie – jih, Švédsko – střed.

Dostupné oblasti mají následující kapacitu:

Oblast TPM
Švédsko – střed 450 tisíc
Francie – střed 380 tisíc
Velká Británie – jih 280 tisíc
USA – východ 2 80 tis.

Nenávistné a nespravedlivé definice obsahu a měřítko závažnosti

Upozorňující

Definice rizik obsahu a škály závažnosti obsahují popisy, které můžou být pro některé uživatele rušivé.

Stupnice sexuálního obsahu a závažnosti

Upozorňující

Definice rizik obsahu a škály závažnosti obsahují popisy, které můžou být pro některé uživatele rušivé.

Míra závažnosti a definice násilného obsahu

Upozorňující

Definice rizik obsahu a škály závažnosti obsahují popisy, které můžou být pro některé uživatele rušivé.

Upozorňující

Definice rizik obsahu a škály závažnosti obsahují popisy, které můžou být pro některé uživatele rušivé.

Metriky kvality generování

Metriky kvality generování se používají k vyhodnocení celkové kvality obsahu vytvořeného generováním aplikací umělé inteligence. Tady je rozpis toho, co tyto metriky zahrnují:

AI asistovaná: uzemnění

Pro zemnění poskytujeme dvě verze:

  • Detekce základnosti s využitím služby Azure AI Content Sejf ty Service (AACS) prostřednictvím integrace do bezpečnostních hodnocení Azure AI Studio. Od uživatele není potřeba žádné nasazení jako back-endová služba, které vám poskytnou modely pro výstup skóre a odůvodnění. Aktuálně se podporuje v následujících oblastech: USA – východ 2 a Švédsko – střed.
  • Uzemnění založené pouze na příkazovém řádku s použitím vlastních modelů k výstupu pouze skóre Aktuálně se podporuje ve všech oblastech.

Základ AACS

Charakteristiky skóre Podrobnosti o skóre
Rozsah skóre 1-5, kde 1 je neuzemněno a 5 je uzemněno
Co je tato metrika? Měří, jak dobře vygenerované odpovědi modelu odpovídají informacím ze zdrojových dat (například načtené dokumenty v oblasti otázky RAG a odpovědi nebo dokumenty pro shrnutí) a výstupy, pro které jsou konkrétní vygenerované věty neuzemněné.
Jak to funguje? Detekce uzemnění využívá model vlastního jazykového modelu služby Azure AI content Sejf ty Service jemně vyladěný na úlohu zpracování přirozeného jazyka označovanou jako odvození přirozeného jazyka (NLI), která vyhodnocuje deklarace identity jako zahrnuté nebo nezabíjené zdrojovým dokumentem. 
Kdy ho použít? Metriku uzemnění použijte v případě, že potřebujete ověřit, že odpovědi generované AI odpovídají poskytnutému kontextu a ověřují se. Je nezbytné pro aplikace, ve kterých jsou klíčová faktická správnost a kontextová přesnost, jako jsou načítání informací, odpovědi na otázky a shrnutí obsahu. Tato metrika zajišťuje, aby kontext dobře podporoval odpovědi generované AI.
Co potřebuje jako vstup? Otázka, kontext, vygenerovaná odpověď

Uzemnění založené pouze na příkazovém řádku

Charakteristiky skóre Podrobnosti o skóre
Rozsah skóre 1-5, kde 1 je neuzemněno a 5 je uzemněno
Co je tato metrika? Měří, jak dobře vygenerované odpovědi modelu odpovídají informacím ze zdrojových dat (uživatelem definovaný kontext).
Jak to funguje? Míra základnosti posuzuje korespondenci mezi deklaracemi v odpovědi generované umělou inteligencí a zdrojovým kontextem a zajišťuje, že tyto deklarace identity jsou zdůvodněny kontextem. I když jsou odpovědi z LLM skutečně správné, budou považované za neuzemněné, pokud je nelze ověřit v zadaných zdrojích (například ve vstupním zdroji nebo v databázi).
Kdy ho použít? Metriku uzemnění použijte v případě, že potřebujete ověřit, že odpovědi generované AI odpovídají poskytnutému kontextu a ověřují se. Je nezbytné pro aplikace, ve kterých jsou klíčová faktická správnost a kontextová přesnost, jako jsou načítání informací, odpovědi na otázky a shrnutí obsahu. Tato metrika zajišťuje, aby kontext dobře podporoval odpovědi generované AI.
Co potřebuje jako vstup? Otázka, kontext, vygenerovaná odpověď

Předdefinovaná výzva, kterou model velkého jazyka používá k určení skóre této metriky:

You will be presented with a CONTEXT and an ANSWER about that CONTEXT. You need to decide whether the ANSWER is entailed by the CONTEXT by choosing one of the following rating: 

1. 5: The ANSWER follows logically from the information contained in the CONTEXT. 

2. 1: The ANSWER is logically false from the information contained in the CONTEXT. 

3. an integer score between 1 and 5 and if such integer score does not exist,  

use 1: It is not possible to determine whether the ANSWER is true or false without further information. 

Read the passage of information thoroughly and select the correct answer from the three answer labels. 

Read the CONTEXT thoroughly to ensure you know what the CONTEXT entails.  

Note the ANSWER is generated by a computer system, it can contain certain symbols, which should not be a negative factor in the evaluation. 

Asistovaná AI: Relevance

Charakteristiky skóre Podrobnosti o skóre
Rozsah skóre Celé číslo [1–5]: kde 1 je špatné a 5 je dobré.
Co je tato metrika? Měří rozsah, v jakém jsou generované odpovědi modelu relevantní a přímo související s danými otázkami.
Jak to funguje? Míra relevance posuzuje schopnost odpovědí zachytit klíčové body kontextu. Vysoké skóre relevance značí, že systém AI rozumí vstupu a jeho schopnosti vytvářet koherentní a kontextově odpovídající výstupy. Naopak nízké skóre relevance značí, že vygenerované odpovědi můžou být mimo téma, chybí v kontextu nebo nedostatečné při řešení zamýšlených dotazů uživatele.
Kdy ho použít? Metriku relevance použijte při vyhodnocování výkonu systému AI při pochopení vstupu a generování kontextově vhodných odpovědí.
Co potřebuje jako vstup? Otázka, kontext, vygenerovaná odpověď

Předdefinovaná výzva používaná posouzením velkého jazykového modelu k určení skóre této metriky (pro zodpovězení otázky ve formátu dat):

Relevance measures how well the answer addresses the main aspects of the question, based on the context. Consider whether all and only the important aspects are contained in the answer when evaluating relevance. Given the context and question, score the relevance of the answer between one to five stars using the following rating scale: 

One star: the answer completely lacks relevance 

Two stars: the answer mostly lacks relevance 

Three stars: the answer is partially relevant 

Four stars: the answer is mostly relevant 

Five stars: the answer has perfect relevance 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Předdefinovaná výzva, kterou model velkého jazyka používá k určení skóre této metriky (pro formát dat konverzace) (bez dostupné základní pravdy):

You will be provided a question, a conversation history, fetched documents related to the question and a response to the question in the {DOMAIN} domain. Your task is to evaluate the quality of the provided response by following the steps below:  
 
- Understand the context of the question based on the conversation history.  
 
- Generate a reference answer that is only based on the conversation history, question, and fetched documents. Don't generate the reference answer based on your own knowledge.  
 
- You need to rate the provided response according to the reference answer if it's available on a scale of 1 (poor) to 5 (excellent), based on the below criteria:  
 
5 - Ideal: The provided response includes all information necessary to answer the question based on the reference answer and conversation history. Please be strict about giving a 5 score.  
 
4 - Mostly Relevant: The provided response is mostly relevant, although it might be a little too narrow or too broad based on the reference answer and conversation history.  
 
3 - Somewhat Relevant: The provided response might be partly helpful but might be hard to read or contain other irrelevant content based on the reference answer and conversation history.  
 
2 - Barely Relevant: The provided response is barely relevant, perhaps shown as a last resort based on the reference answer and conversation history.  
 
1 - Completely Irrelevant: The provided response should never be used for answering this question based on the reference answer and conversation history.  
 
- You need to rate the provided response to be 5, if the reference answer can not be generated since no relevant documents were retrieved.  
 
- You need to first provide a scoring reason for the evaluation according to the above criteria, and then provide a score for the quality of the provided response.  
 
- You need to translate the provided response into English if it's in another language. 

- Your final response must include both the reference answer and the evaluation result. The evaluation result should be written in English.  

Předdefinovaná výzva, kterou model velkého jazyka používá k určení skóre této metriky (pro formát dat konverzace) (s dostupnou základní pravdou):


Your task is to score the relevance between a generated answer and the question based on the ground truth answer in the range between 1 and 5, and please also provide the scoring reason.  
 
Your primary focus should be on determining whether the generated answer contains sufficient information to address the given question according to the ground truth answer.   
 
If the generated answer fails to provide enough relevant information or contains excessive extraneous information, then you should reduce the score accordingly.  
 
If the generated answer contradicts the ground truth answer, it will receive a low score of 1-2.   
 
For example, for question "Is the sky blue?", the ground truth answer is "Yes, the sky is blue." and the generated answer is "No, the sky is not blue.".   
 
In this example, the generated answer contradicts the ground truth answer by stating that the sky is not blue, when in fact it is blue.   
 
This inconsistency would result in a low score of 1-2, and the reason for the low score would reflect the contradiction between the generated answer and the ground truth answer.  
 
Please provide a clear reason for the low score, explaining how the generated answer contradicts the ground truth answer.  
 
Labeling standards are as following:  
 
5 - ideal, should include all information to answer the question comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
4 - mostly relevant, although it might be a little too narrow or too broad comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
3 - somewhat relevant, might be partly helpful but might be hard to read or contain other irrelevant content comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
2 - barely relevant, perhaps shown as a last resort comparing to the ground truth answer, and the generated answer contradicts with the ground truth answer  
 
1 - completely irrelevant, should never be used for answering this question comparing to the ground truth answer, and the generated answer contradicts with the ground truth answer  

AI asistovaná: soudržnost

Charakteristiky skóre Podrobnosti o skóre
Rozsah skóre Celé číslo [1–5]: kde 1 je špatné a 5 je dobré.
Co je tato metrika? Měří, jak dobře jazykový model dokáže vytvořit výstup, který hladce proudí, čte přirozeně a podobá se jazyku podobnému člověku.
Jak to funguje? Míra soudržnosti posuzuje schopnost jazykového modelu generovat text, který čte přirozeně, hladce proudí a podobá se jazyku podobnému člověku v odpovědích.
Kdy ho použít? Používejte ho při posuzování čitelnosti a uživatelsky přívětivosti vygenerovaných odpovědí modelu v reálných aplikacích.
Co potřebuje jako vstup? Otázka, vygenerovaná odpověď

Předdefinovaná výzva, kterou model velkého jazyka používá k určení skóre této metriky:

Coherence of an answer is measured by how well all the sentences fit together and sound naturally as a whole. Consider the overall quality of the answer when evaluating coherence. Given the question and answer, score the coherence of answer between one to five stars using the following rating scale: 

One star: the answer completely lacks coherence 

Two stars: the answer mostly lacks coherence 

Three stars: the answer is partially coherent 

Four stars: the answer is mostly coherent 

Five stars: the answer has perfect coherency 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Asistovaná AI: Plynulost

Charakteristiky skóre Podrobnosti o skóre
Rozsah skóre Celé číslo [1–5]: kde 1 je špatné a 5 je dobré.
Co je tato metrika? Měří gramatickou znalost předpovězené odpovědi generující umělé inteligence.
Jak to funguje? Míra fluency posuzuje rozsah, v jakém vygenerovaný text odpovídá gramatickým pravidlům, syntaktickým strukturám a odpovídajícímu použití slovníku, což vede k lingvisticky správným odpovědím.
Kdy ho použít? Použijte ho při vyhodnocování lingvistické správnosti textu generovaného AI, abyste zajistili, že dodržuje správná gramatická pravidla, syntaktické struktury a použití slovníku ve generovaných odpovědích.
Co potřebuje jako vstup? Otázka, vygenerovaná odpověď

Předdefinovaná výzva, kterou model velkého jazyka používá k určení skóre této metriky:

Fluency measures the quality of individual sentences in the answer, and whether they are well-written and grammatically correct. Consider the quality of individual sentences when evaluating fluency. Given the question and answer, score the fluency of the answer between one to five stars using the following rating scale: 

One star: the answer completely lacks fluency 

Two stars: the answer mostly lacks fluency 

Three stars: the answer is partially fluent 

Four stars: the answer is mostly fluent 

Five stars: the answer has perfect fluency 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Asistovaná AI: Skóre načítání

Charakteristiky skóre Podrobnosti o skóre
Rozsah skóre Float [1-5]: kde 1 je špatné a 5 je dobré
Co je tato metrika? Měří rozsah, v jakém jsou načtené dokumenty modelu relevantní a přímo související s danými otázkami.
Jak to funguje? Skóre načtení měří kvalitu a význam načteného dokumentu na otázku uživatele (shrnuté v celé historii konverzací). Kroky: Krok 1: Rozdělte uživatelský dotaz na záměry a extrahujte záměry z uživatelského dotazu, například "Kolik je virtuální počítač Azure s Linuxem a virtuální počítač Azure s Windows?". –> Záměrem by bylo ["jaké jsou ceny virtuálního počítače Azure s Linuxem?", "Jaké jsou ceny virtuálního počítače Azure s Windows?". Krok 2: Pro každý záměr dotazu uživatele požádejte model, aby posoudil, jestli je záměr samotný nebo odpověď na záměr přítomny nebo lze odvodit z načtených dokumentů. Odpověď může být Ne nebo Ano, dokumenty [doc1], [doc2].... "Ano" znamená, že načtené dokumenty se vztahují k záměru nebo odpovědi na záměr a naopak. Krok 3: Výpočet zlomku záměrů, které mají odpověď začínající na "Ano". V tomto případě mají všechny záměry stejnou důležitost. Krok 4: Nakonec kvadračte skóre, aby se chyby penalizovaly.
Kdy ho použít? Pokud chcete zaručit, že načtené dokumenty jsou pro odpovědi na otázky uživatelů vysoce relevantní, použijte skóre načítání. Toto skóre pomáhá zajistit kvalitu a vhodnost načteného obsahu.
Co potřebuje jako vstup? Otázka, kontext, vygenerovaná odpověď

Předdefinovaná výzva, kterou model velkého jazyka používá k určení skóre této metriky:

A chat history between user and bot is shown below 

A list of documents is shown below in json format, and each document has one unique id.  

These listed documents are used as contex to answer the given question. 

The task is to score the relevance between the documents and the potential answer to the given question in the range of 1 to 5.  

1 means none of the documents is relevant to the question at all. 5 means either one of the document or combination of a few documents is ideal for answering the given question. 

Think through step by step: 

- Summarize each given document first 

- Determine the underlying intent of the given question, when the question is ambiguous, refer to the given chat history  

- Measure how suitable each document to the given question, list the document id and the corresponding relevance score.  

- Summarize the overall relevance of given list of documents to the given question after # Overall Reason, note that the answer to the question can soley from single document or a combination of multiple documents.  

- Finally, output "# Result" followed by a score from 1 to 5.  

  

# Question 

{{ query }} 

# Chat History 

{{ history }} 

# Documents 

---BEGIN RETRIEVED DOCUMENTS--- 

{{ FullBody }} 

---END RETRIEVED DOCUMENTS--- 

Asistovaná AI: Podobnost GPT

Charakteristiky skóre Podrobnosti o skóre
Rozsah skóre Celé číslo [1–5]: kde 1 je špatné a 5 je dobré.
Co je tato metrika? Měří podobnost mezi větou zdrojových dat (základní pravdou) a vygenerovanou odpovědí modelu AI.
Jak to funguje? Míra podobnosti GPT vyhodnocuje podobnost mezi základní pravdivou větou (nebo dokumentem) a vygenerovanou predikcí modelu AI. Tento výpočet zahrnuje vytvoření vkládání na úrovni věty pro základní pravdu i predikci modelu, což jsou vysoce dimenzionální vektorové reprezentace zachycující sémantický význam a kontext vět.
Kdy ho použít? Použijte ho, pokud chcete dosáhnout objektivního vyhodnocení výkonu modelu AI, zejména v úlohách generování textu, kde máte přístup k odpovědím na základní pravdu. Podobnost GPT umožňuje vyhodnotit sémantické zarovnání vygenerovaného textu s požadovaným obsahem, což pomáhá vyhodnotit kvalitu a přesnost modelu.
Co potřebuje jako vstup? Otázka, základní odpověď na pravdu, vygenerovaná odpověď

Předdefinovaná výzva, kterou model velkého jazyka používá k určení skóre této metriky:

GPT-Similarity, as a metric, measures the similarity between the predicted answer and the correct answer. If the information and content in the predicted answer is similar or equivalent to the correct answer, then the value of the Equivalence metric should be high, else it should be low. Given the question, correct answer, and predicted answer, determine the value of Equivalence metric using the following rating scale: 

One star: the predicted answer is not at all similar to the correct answer 

Two stars: the predicted answer is mostly not similar to the correct answer 

Three stars: the predicted answer is somewhat similar to the correct answer 

Four stars: the predicted answer is mostly similar to the correct answer 

Five stars: the predicted answer is completely similar to the correct answer 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Tradiční strojové učení: Skóre F1

Charakteristiky skóre Podrobnosti o skóre
Rozsah skóre Plovoucí [0-1]
Co je tato metrika? Měří poměr počtu sdílených slov mezi generováním modelu a odpověďmi základní pravdy.
Jak to funguje? Skóre F1 vypočítá poměr počtu sdílených slov mezi generováním modelu a základní pravdou. Poměr se vypočítává přes jednotlivá slova ve vygenerované odpovědi proti těm, kteří jsou v odpovědi základní pravdy. Počet sdílených slov mezi generováním a pravdou je základem skóre F1: přesnost je poměr počtu sdílených slov k celkovému počtu slov v generaci a úplnost je poměr počtu sdílených slov k celkovému počtu sdílených slov v základní pravdě.
Kdy ho použít? Skóre F1 použijte, pokud chcete mít jednu komplexní metriku, která kombinuje úplnost i přesnost v odpovědích modelu. Poskytuje vyvážené vyhodnocení výkonu modelu z hlediska zachycení přesných informací v odpovědi.
Co potřebuje jako vstup? Otázka, základní odpověď na pravdu, vygenerovaná odpověď

Další kroky