Megosztás a következőn keresztül:


Kiértékelési és monitorozási metrikák a generatív MI-hez

Fontos

A cikkben ismertetett funkciók némelyike csak előzetes verzióban érhető el. Ez az előzetes verzió szolgáltatásszint-szerződés nélkül érhető el, és éles számítási feladatokhoz nem javasoljuk. Előfordulhat, hogy néhány funkció nem támogatott, vagy korlátozott képességekkel rendelkezik. További információ: Kiegészítő használati feltételek a Microsoft Azure előzetes verziójú termékeihez.

Az Azure AI Studio lehetővé teszi az egyfordulós vagy összetett, többfordulós beszélgetések kiértékelését, ahol a generatív AI-modellt az adott adatokban (más néven retrieveal augmented generation vagy RAG) helyezik el. Az általános egyfordulós kérdések megválaszolási forgatókönyveit is kiértékelheti, ahol a rendszer nem használ kontextust a generatív AI-modell (nem RAG) alapozásához. Jelenleg a következő tevékenységtípusok beépített metrikáit támogatjuk:

Kérdés megválaszolása (egyfordulós)

Ebben a beállításban a felhasználók egyéni kérdéseket vagy kérdéseket tehetnek fel, és egy generatív AI-modellt használnak a válaszok azonnali létrehozásához.

A tesztkészlet formátuma a következő adatformátumot követi:

{"question":"Which tent is the most waterproof?","context":"From our product list, the Alpine Explorer tent is the most waterproof. The Adventure Dining Table has higher weight.","answer":"The Alpine Explorer Tent is the most waterproof.","ground_truth":"The Alpine Explorer Tent has the highest rainfly waterproof rating at 3000m"} 

Feljegyzés

A "környezet" és az "alapigazság" mezők megadása nem kötelező, a támogatott metrikák pedig a megadott mezőktől függnek

Beszélgetés (egyfordulós és többfordulós)

Ebben az összefüggésben a felhasználók beszélgetési interakciókat folytatnak, akár sorozatos, akár egyetlen cserével. A lekérési mechanizmusokkal felszerelt generatív AI-modell válaszokat hoz létre, és külső forrásokból, például dokumentumokból származó információkat tud elérni és beépíteni. A beolvasási kiterjesztett generációs (RAG) modell külső dokumentumok és ismeretek használatával javítja a válaszok minőségét és relevanciáját.

A tesztkészlet formátuma a következő adatformátumot követi:

{"messages":[{"role":"user","content":"How can I check the status of my online order?"},{"content":"Hi Sarah Lee! To check the status of your online order for previous purchases such as the TrailMaster X4 Tent or the CozyNights Sleeping Bag, please refer to your email for order confirmation and tracking information. If you need further assistance, feel free to contact our customer support at support@contosotrek.com or give us a call at 1-800-555-1234.
","role":"assistant","context":{"citations":[{"id":"cHJvZHVjdF9pbmZvXzYubWQz","title":"Information about product item_number: 6","content":"# Information about product item_number: 6\n\nIt's essential to check local regulations before using the EcoFire Camping Stove, as some areas may have restrictions on open fires or require a specific type of stove.\n\n30) How do I clean and maintain the EcoFire Camping Stove?\n   To clean the EcoFire Camping Stove, allow it to cool completely, then wipe away any ash or debris with a brush or cloth. Store the stove in a dry place when not in use."}]}}]}

Támogatott metrikák

A nagy nyelvi modellek kiértékelésére szolgáló módszerekben leírtak szerint manuális és automatizált mérési módszerek is léteznek. Az automatizált mérés akkor hasznos, ha nagyobb lefedettséggel, nagyobb lefedettséggel végez méréseket, hogy átfogóbb eredményeket biztosítson. Az is hasznos, ha folyamatos méréssel figyeljük a regressziót a rendszer, a használat és a kockázatcsökkentések fejlődésével.

A generatív AI-alkalmazások automatizált mérésének két fő módszerét támogatjuk:

  • Hagyományos gépi tanulási metrikák
  • AI által támogatott metrikák

Az AI által támogatott metrikák a GPT-4-hez hasonló nyelvi modelleket használnak az AI által generált kimenet értékeléséhez, különösen olyan helyzetekben, amikor a várt válaszok nem érhetők el egy meghatározott alapigazság hiánya miatt. A hagyományos gépi tanulási metrikák, például az F1 pontszám, mérik az AI által generált válaszok és a várt válaszok pontosságát és visszahívását.

Az AI által támogatott metrikák a generatív AI-alkalmazások biztonsági és generációs minőségét értékelik. Ezek a metrikák két különböző kategóriába sorolhatók:

  • Kockázati és biztonsági metrikák:

    Ezek a metrikák a lehetséges tartalom- és biztonsági kockázatok azonosítására, valamint a létrehozott tartalom biztonságának biztosítására összpontosítanak.

    Ezek közé tartoznak például az alábbiak:

    • Gyűlölködő és tisztességtelen tartalomhibák aránya
    • Szexuális tartalomhibák aránya
    • Erőszakos tartalomhibák aránya
    • Önkárosítással kapcsolatos tartalomhibák aránya
    • Jailbreak hibaarány
  • Generációs minőségi metrikák:

    Ezek a metrikák értékelik a létrehozott tartalom általános minőségét és koherenciáját.

    Ezek közé tartoznak például az alábbiak:

    • Koherencia
    • Folyékonyság
    • Alapozottság
    • Relevancia
    • Lekérési pontszám
    • Hasonlóság

A fenti feladattípusokhoz a következő AI-támogatású metrikákat támogatjuk:

Tevékenység típusa Csak kérdésekre és generált válaszokra (nincs szükség kontextusra vagy alapigazságra) Kérdések és generált válaszok + környezet Kérdések és generált válaszok + Környezet + Alapigazság
Kérdés megválaszolása - Kockázati és biztonsági metrikák (az AI által támogatott összes): gyűlölködő és tisztességtelen tartalomhibák aránya, szexuális tartalomhibák aránya, erőszakos tartalomhibák aránya, önkárosítással kapcsolatos tartalomhibák aránya és a jailbreak hibák aránya
- Generációs minőségi metrikák (az AI által támogatott összes): Koherencia, fluency
Előző oszlopmetrikák
+
Generációs minőségi metrikák (az AI által támogatott összes):
- Alapozottság
-Fontosság
Előző oszlopmetrikák
+
Generációs minőségi metrikák:
Hasonlóság (AI által támogatott)
F1-Score (hagyományos ML-metrika)
Beszélgetés - Kockázati és biztonsági metrikák (az AI által támogatott összes): gyűlölködő és tisztességtelen tartalomhibák aránya, szexuális tartalomhibák aránya, erőszakos tartalomhibák aránya, önkárosítással kapcsolatos tartalomhibák aránya és a jailbreak hibák aránya
- Generációs minőségi metrikák (az AI által támogatott összes): Koherencia, fluency
Előző oszlopmetrikák
+
Generációs minőségi metrikák (az AI által támogatott összes):
- Alapozottság
- Lekérési pontszám
n/a

Feljegyzés

Bár olyan beépített metrikák átfogó készletét biztosítjuk, amelyek megkönnyítik a generatív AI-alkalmazás minőségének és biztonságának egyszerű és hatékony kiértékelését, ajánlott azokat az adott feladattípusokhoz igazítani és testre szabni. Emellett teljesen új metrikákat is bevezethet, így új szögből mérheti az alkalmazásait, és gondoskodhat az egyedi célkitűzéseknek való megfelelésről.

Kockázati és biztonsági metrikák

A kockázati és biztonsági metrikák a korábbi nagy nyelvi modellprojektekből, például a GitHub Copilotból és a Bingből nyert megállapításokra támaszkodnak. Ez átfogó megközelítést biztosít a kockázati és biztonsági súlyossági pontszámok generált válaszainak kiértékeléséhez. Ezek a metrikák a biztonsági kiértékelési szolgáltatáson keresztül jönnek létre, amely llM-eket alkalmaz. Minden modell feladata, hogy felmérje a válaszban jelen lévő konkrét kockázatokat (például szexuális tartalmakat, erőszakos tartalmakat stb.). Ezek a modellek kockázatdefiníciókkal és súlyossági skálákkal rendelkeznek, és ennek megfelelően jegyzetelik a létrehozott beszélgetéseket. Jelenleg az alábbi kockázat- és biztonsági metrikák esetében számítjuk ki a "hibaarányt". Ezen metrikák mindegyikénél a szolgáltatás méri, hogy észlelték-e az ilyen típusú tartalmakat, és hogy milyen súlyossági szinten. A négy típus mindegyike négy súlyossági szinttel rendelkezik (Nagyon alacsony, Alacsony, Közepes, Magas). A felhasználók tűréshatárt határoznak meg, és a hibaarányok a szolgáltatás által előállított példányok számának felelnek meg, amelyek az egyes küszöbértékek szintjén és felett jöttek létre.

Tartalomtípusok:

  • Gyűlölködő és tisztességtelen tartalom
  • Szexuális tartalom
  • Erőszakos tartalom
  • Önkárosítással kapcsolatos tartalom

A fenti tartalomtípusok mellett a "Jailbreak-hibák arányát" is támogatjuk a kiértékelések összehasonlító nézetében, amely egy olyan metrika, amely a modellválaszokban a jailbreakek előfordulását méri. A jailbreakek akkor jelennek meg, ha egy modell válasza átlépi a rá vonatkozó korlátozásokat. A jailbreak akkor is előfordul, ha egy LLM eltér a kívánt tevékenységtől vagy témakörtől.

Ezeket a kockázati és biztonsági metrikákat saját adatain vagy tesztadatkészletén mérheti. Ezután kiértékelheti ezen a szimulált tesztadatkészleten egy jegyzetekkel ellátott tesztadatkészletet a tartalomkockázat súlyossági szintjeivel (nagyon alacsony, alacsony, közepes vagy magas), és megtekintheti az eredményeket az Azure AI-ben , amely teljes tesztadatkészletre kiterjedő teljes hibaarányt biztosít, valamint az egyes tartalomkockázati címkék és érvelések példánynézetét.

A táblázat többi metrikájával ellentétben a jailbreak biztonsági rését nem lehet megbízhatóan mérni egy LLM jegyzeteivel. A jailbreak biztonsági rése azonban két különböző automatizált adathalmaz (1) tartalomkockázati adatkészlet és (2) tartalomkockázati adatkészlet összehasonlításával mérhető, és első lépésben jailbreak-injektálással. Ezután a felhasználó kiértékeli a jailbreak sebezhetőségét a két adathalmaz tartalomkockázati hibaarányának összehasonlításával.

Feljegyzés

Az AI által támogatott kockázati és biztonsági metrikákat az Azure AI Studio biztonsági kiértékelési háttérszolgáltatása üzemelteti, és csak az alábbi régiókban érhető el: USA 2. keleti régiója, Közép-Franciaország, Egyesült Királyság déli régiója, Svédország középső régiója.

Az elérhető régiók a következő kapacitással rendelkeznek:

Régió TPM
Közép-Svédország 450k
Közép-Franciaország 380k
Az Egyesült Királyság déli régiója 280k
USA 2. keleti régiója 80 ezer

Gyűlölködő és tisztességtelen tartalomdefiníció és súlyossági skálázás

Figyelmeztetés

A tartalomkockázat-definíciók és súlyossági skálák olyan leírásokat tartalmaznak, amelyek egyes felhasználók számára zavaróak lehetnek.

Szexuális tartalom definíciója és súlyossági skálája

Figyelmeztetés

A tartalomkockázat-definíciók és súlyossági skálák olyan leírásokat tartalmaznak, amelyek egyes felhasználók számára zavaróak lehetnek.

Erőszakos tartalomdefiníció és súlyossági skálázás

Figyelmeztetés

A tartalomkockázat-definíciók és súlyossági skálák olyan leírásokat tartalmaznak, amelyek egyes felhasználók számára zavaróak lehetnek.

Figyelmeztetés

A tartalomkockázat-definíciók és súlyossági skálák olyan leírásokat tartalmaznak, amelyek egyes felhasználók számára zavaróak lehetnek.

Generációs minőségi metrikák

A generációs minőségi metrikák a generatív AI-alkalmazások által előállított tartalom általános minőségének értékelésére szolgálnak. Az alábbiakban bemutatjuk, hogy ezek a metrikák milyen következményekkel járnak:

AI-támogatás: Földiesség

Az alapokhoz két verziót biztosítunk:

  • Az Azure AI Content Safety Service (AACS) alapszintű észlelése az Azure AI Studio biztonsági kiértékeléseibe való integrációval. Nincs szükség üzembe helyezésre a felhasználótól, mivel egy háttérszolgáltatás biztosítja a modelleket, hogy pontszámot és érvelést adjanak ki. Jelenleg a következő régiókban támogatott: USA 2. keleti régiója és Közép-Svédország.
  • Csak prompt-based Groundedness a saját modellekkel, hogy csak egy pontszámot adjon ki. Jelenleg minden régióban támogatott.

AACS-alapú alapszintűség

Pontszám jellemzői Pontszám részletei
Pontszámtartomány 1-5, ahol 1 nem földelt és 5 földelt
Mi ez a metrika? Azt méri, hogy a modell által generált válaszok mennyire összhangban vannak a forrásadatokból származó információkkal (például a RAG Kérdés és válasz alkalmazásban lekért dokumentumokkal, illetve az összegzéshez szükséges dokumentumokkal), valamint azokat a kimeneteket, amelyekhez adott generált mondatok nem jelennek meg.
Hogyan működik? A földiesség-észlelés az Azure AI Content Safety Service egyéni nyelvi modelljét használja, amely finomhangolva van egy természetes nyelvfeldolgozási feladatra, az úgynevezett Természetes nyelvi következtetésre (NLI), amely a jogcímeket a forrásdokumentummal együtt járó vagy nem járó jogcímekként értékeli ki. 
Mikor érdemes használni? Akkor használja az alapszintű metrikát, ha ellenőriznie kell, hogy az AI által generált válaszok összhangban vannak-e a megadott környezettel, és azokat érvényesíti-e. Elengedhetetlen az olyan alkalmazásokhoz, ahol a tényszerű helyesség és a kontextus pontossága kulcsfontosságú, például az információk lekérése, a kérdések megválaszolása és a tartalom összegzése. Ez a metrika biztosítja, hogy az AI által generált válaszok jól támogatottak legyenek a környezet által.
Mire van szükség bemenetként? Kérdés, környezet, generált válasz

Csak parancssori alapszintűség

Pontszám jellemzői Pontszám részletei
Pontszámtartomány 1-5, ahol 1 nem földelt és 5 földelt
Mi ez a metrika? Azt méri, hogy a modell által létrehozott válaszok mennyire igazodnak a forrásadatokból (felhasználó által meghatározott környezetből) származó információkhoz.
Hogyan működik? Az alapszintű intézkedés kiértékeli az AI által létrehozott válaszban szereplő jogcímek és a forráskörnyezet közötti megfeleltetéseket, biztosítva, hogy ezeket a jogcímeket a kontextus alátámasztsa. Még akkor is, ha az LLM-ből érkező válaszok tényszerűen helyesek, akkor a rendszer nem veszi figyelembe őket, ha nem ellenőrizhetők a megadott forrásokon (például a bemeneti forráson vagy az adatbázison).
Mikor érdemes használni? Akkor használja az alapszintű metrikát, ha ellenőriznie kell, hogy az AI által generált válaszok összhangban vannak-e a megadott környezettel, és azokat érvényesíti-e. Elengedhetetlen az olyan alkalmazásokhoz, ahol a tényszerű helyesség és a kontextus pontossága kulcsfontosságú, például az információk lekérése, a kérdések megválaszolása és a tartalom összegzése. Ez a metrika biztosítja, hogy az AI által generált válaszok jól támogatottak legyenek a környezet által.
Mire van szükség bemenetként? Kérdés, környezet, generált válasz

A Large Language Model bírója által a metrika pontozásához használt beépített parancssor:

You will be presented with a CONTEXT and an ANSWER about that CONTEXT. You need to decide whether the ANSWER is entailed by the CONTEXT by choosing one of the following rating: 

1. 5: The ANSWER follows logically from the information contained in the CONTEXT. 

2. 1: The ANSWER is logically false from the information contained in the CONTEXT. 

3. an integer score between 1 and 5 and if such integer score does not exist,  

use 1: It is not possible to determine whether the ANSWER is true or false without further information. 

Read the passage of information thoroughly and select the correct answer from the three answer labels. 

Read the CONTEXT thoroughly to ensure you know what the CONTEXT entails.  

Note the ANSWER is generated by a computer system, it can contain certain symbols, which should not be a negative factor in the evaluation. 

Mi által támogatott: Relevancia

Pontszám jellemzői Pontszám részletei
Pontszámtartomány Egész szám [1-5]: ahol az 1 rossz, az 5 pedig jó
Mi ez a metrika? Azt méri, hogy a modell által generált válaszok mennyire lényegesek és közvetlenül kapcsolódnak az adott kérdésekhez.
Hogyan működik? A relevanciamérés felméri, hogy a válaszok képesek-e a környezet legfontosabb pontjainak rögzítésére. A magas relevanciájú pontszámok azt jelzik, hogy az AI-rendszer ismeri a bemenetet, és képes koherens és környezetfüggő kimeneteket létrehozni. Ezzel szemben az alacsony relevanciájú pontszámok azt jelzik, hogy a generált válaszok nem relevánsak, nincsenek kontextusban, vagy nem elegendőek a felhasználó által tervezett lekérdezések kezeléséhez.
Mikor érdemes használni? Használja a relevanciametrikát az AI-rendszer teljesítményének kiértékelésekor a bemenet megértéséhez és a kontextusnak megfelelő válaszok létrehozásához.
Mire van szükség bemenetként? Kérdés, környezet, generált válasz

A Big Language Model bírója által használt beépített kérdés a metrika pontozásához (adatformátum kérdés megválaszolásához):

Relevance measures how well the answer addresses the main aspects of the question, based on the context. Consider whether all and only the important aspects are contained in the answer when evaluating relevance. Given the context and question, score the relevance of the answer between one to five stars using the following rating scale: 

One star: the answer completely lacks relevance 

Two stars: the answer mostly lacks relevance 

Three stars: the answer is partially relevant 

Four stars: the answer is mostly relevant 

Five stars: the answer has perfect relevance 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

A Big Language Model bírója által használt beépített kérés a metrika pontozásához (beszélgetési adatformátumhoz) (a Ground Truth nélkül):

You will be provided a question, a conversation history, fetched documents related to the question and a response to the question in the {DOMAIN} domain. Your task is to evaluate the quality of the provided response by following the steps below:  
 
- Understand the context of the question based on the conversation history.  
 
- Generate a reference answer that is only based on the conversation history, question, and fetched documents. Don't generate the reference answer based on your own knowledge.  
 
- You need to rate the provided response according to the reference answer if it's available on a scale of 1 (poor) to 5 (excellent), based on the below criteria:  
 
5 - Ideal: The provided response includes all information necessary to answer the question based on the reference answer and conversation history. Please be strict about giving a 5 score.  
 
4 - Mostly Relevant: The provided response is mostly relevant, although it might be a little too narrow or too broad based on the reference answer and conversation history.  
 
3 - Somewhat Relevant: The provided response might be partly helpful but might be hard to read or contain other irrelevant content based on the reference answer and conversation history.  
 
2 - Barely Relevant: The provided response is barely relevant, perhaps shown as a last resort based on the reference answer and conversation history.  
 
1 - Completely Irrelevant: The provided response should never be used for answering this question based on the reference answer and conversation history.  
 
- You need to rate the provided response to be 5, if the reference answer can not be generated since no relevant documents were retrieved.  
 
- You need to first provide a scoring reason for the evaluation according to the above criteria, and then provide a score for the quality of the provided response.  
 
- You need to translate the provided response into English if it's in another language. 

- Your final response must include both the reference answer and the evaluation result. The evaluation result should be written in English.  

A Big Language Model bírója által használt beépített kérés a metrika pontozására (beszélgetési adatformátum esetén) (a Földi igazság rendelkezésre áll):


Your task is to score the relevance between a generated answer and the question based on the ground truth answer in the range between 1 and 5, and please also provide the scoring reason.  
 
Your primary focus should be on determining whether the generated answer contains sufficient information to address the given question according to the ground truth answer.   
 
If the generated answer fails to provide enough relevant information or contains excessive extraneous information, then you should reduce the score accordingly.  
 
If the generated answer contradicts the ground truth answer, it will receive a low score of 1-2.   
 
For example, for question "Is the sky blue?", the ground truth answer is "Yes, the sky is blue." and the generated answer is "No, the sky is not blue.".   
 
In this example, the generated answer contradicts the ground truth answer by stating that the sky is not blue, when in fact it is blue.   
 
This inconsistency would result in a low score of 1-2, and the reason for the low score would reflect the contradiction between the generated answer and the ground truth answer.  
 
Please provide a clear reason for the low score, explaining how the generated answer contradicts the ground truth answer.  
 
Labeling standards are as following:  
 
5 - ideal, should include all information to answer the question comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
4 - mostly relevant, although it might be a little too narrow or too broad comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
3 - somewhat relevant, might be partly helpful but might be hard to read or contain other irrelevant content comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
2 - barely relevant, perhaps shown as a last resort comparing to the ground truth answer, and the generated answer contradicts with the ground truth answer  
 
1 - completely irrelevant, should never be used for answering this question comparing to the ground truth answer, and the generated answer contradicts with the ground truth answer  

Mi által támogatott: Koherencia

Pontszám jellemzői Pontszám részletei
Pontszámtartomány Egész szám [1-5]: ahol az 1 rossz, az 5 pedig jó
Mi ez a metrika? Azt méri, hogy a nyelvi modell milyen jól képes olyan kimenetet létrehozni, amely zökkenőmentesen áramlik, természetes módon olvas és hasonlít az emberi nyelvhez.
Hogyan működik? A koherencia-mérték felméri, hogy a nyelvi modell képes-e olyan szöveget létrehozni, amely természetes módon olvas, zökkenőmentesen halad, és hasonlít az emberi nyelvhez a válaszaiban.
Mikor érdemes használni? Használja a modell által generált válaszok olvashatóságának és felhasználóbarátságának felméréséhez a valós alkalmazásokban.
Mire van szükség bemenetként? Kérdés, generált válasz

A Large Language Model bírója által a metrika pontozásához használt beépített parancssor:

Coherence of an answer is measured by how well all the sentences fit together and sound naturally as a whole. Consider the overall quality of the answer when evaluating coherence. Given the question and answer, score the coherence of answer between one to five stars using the following rating scale: 

One star: the answer completely lacks coherence 

Two stars: the answer mostly lacks coherence 

Three stars: the answer is partially coherent 

Four stars: the answer is mostly coherent 

Five stars: the answer has perfect coherency 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Mi által támogatott: Fluency

Pontszám jellemzői Pontszám részletei
Pontszámtartomány Egész szám [1-5]: ahol az 1 rossz, az 5 pedig jó
Mi ez a metrika? Egy generatív AI előrejelzett válaszának nyelvtani jártasságát méri.
Hogyan működik? A fluency mérték felméri, hogy a létrehozott szöveg mennyire felel meg a nyelvtani szabályoknak, a szintaktikai struktúráknak és a megfelelő szókincshasználatnak, ami nyelvileg helyes válaszokat eredményez.
Mikor érdemes használni? Használja az AI által létrehozott szöveg nyelvi helyességének kiértékelésekor, biztosítva, hogy az megfeleljen a megfelelő nyelvtani szabályoknak, a szintaktikai struktúráknak és a szókincshasználatnak a generált válaszokban.
Mire van szükség bemenetként? Kérdés, generált válasz

A Large Language Model bírója által a metrika pontozásához használt beépített parancssor:

Fluency measures the quality of individual sentences in the answer, and whether they are well-written and grammatically correct. Consider the quality of individual sentences when evaluating fluency. Given the question and answer, score the fluency of the answer between one to five stars using the following rating scale: 

One star: the answer completely lacks fluency 

Two stars: the answer mostly lacks fluency 

Three stars: the answer is partially fluent 

Four stars: the answer is mostly fluent 

Five stars: the answer has perfect fluency 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

AI-támogatás: Lekérési pontszám

Pontszám jellemzői Pontszám részletei
Pontszámtartomány Float [1-5]: ahol 1 rossz és 5 jó
Mi ez a metrika? Méri, hogy a modell lekért dokumentumai milyen mértékben kapcsolódnak az adott kérdésekhez, és milyen mértékben kapcsolódnak közvetlenül az adott kérdésekhez.
Hogyan működik? A lekérési pontszám a lekért dokumentum minőségét és relevanciáját méri a felhasználó kérdésére (a teljes beszélgetési előzményekben összefoglalva). Lépések: 1. lépés: A felhasználói lekérdezések szándékokra bontása, a szándékok kinyerése a felhasználói lekérdezésből, például: "Mennyi az Azure Linux rendszerű virtuális gép és az Azure Windows rendszerű virtuális gép?" -> A szándék a következő lenne: ["mi az Azure Linux rendszerű virtuális gép díjszabása?", "Mi az Azure Windows virtuális gép díjszabása?"]. 2. lépés: A felhasználói lekérdezés minden szándékához kérje meg a modellt, hogy értékelje, hogy maga a szándék vagy a szándékra adott válasz jelen van-e, vagy a lekért dokumentumokból következtethető-e. A válasz lehet "Nem", vagy "Igen, dokumentumok [doc1], [doc2]...". Az "Igen" azt jelenti, hogy a lekért dokumentumok a szándékhoz vagy a szándékra adott válaszhoz kapcsolódnak, és fordítva. 3. lépés: Számítsa ki azon szándékok töredékét, amelyek "Igen" kezdetű választ adnak. Ebben az esetben minden szándéknak azonos jelentősége van. 4. lépés: Végül szögletesen adja meg a pontszámot a hibák büntetéséhez.
Mikor érdemes használni? A lekérési pontszámot akkor használja, ha garantálni szeretné, hogy a lekért dokumentumok rendkívül relevánsak legyenek a felhasználók kérdéseinek megválaszolásához. Ez a pontszám segít biztosítani a lekért tartalom minőségét és megfelelőségét.
Mire van szükség bemenetként? Kérdés, környezet, generált válasz

A Large Language Model bírója által a metrika pontozásához használt beépített parancssor:

A chat history between user and bot is shown below 

A list of documents is shown below in json format, and each document has one unique id.  

These listed documents are used as contex to answer the given question. 

The task is to score the relevance between the documents and the potential answer to the given question in the range of 1 to 5.  

1 means none of the documents is relevant to the question at all. 5 means either one of the document or combination of a few documents is ideal for answering the given question. 

Think through step by step: 

- Summarize each given document first 

- Determine the underlying intent of the given question, when the question is ambiguous, refer to the given chat history  

- Measure how suitable each document to the given question, list the document id and the corresponding relevance score.  

- Summarize the overall relevance of given list of documents to the given question after # Overall Reason, note that the answer to the question can soley from single document or a combination of multiple documents.  

- Finally, output "# Result" followed by a score from 1 to 5.  

  

# Question 

{{ query }} 

# Chat History 

{{ history }} 

# Documents 

---BEGIN RETRIEVED DOCUMENTS--- 

{{ FullBody }} 

---END RETRIEVED DOCUMENTS--- 

Mi által támogatott: GPT-Hasonlóság

Pontszám jellemzői Pontszám részletei
Pontszámtartomány Egész szám [1-5]: ahol az 1 rossz, az 5 pedig jó
Mi ez a metrika? A forrásadatok (alapigazság) mondat és az AI-modell által generált válasz közötti hasonlóságot méri.
Hogyan működik? A GPT-hasonlósági mérték kiértékeli az alapigaz mondat (vagy dokumentum) és az AI-modell által generált előrejelzés közötti hasonlóságot. Ez a számítás magában foglalja a mondatszintű beágyazások létrehozását mind az alapigazsághoz, mind a modell előrejelzéséhez, amelyek a mondatok szemantikai jelentését és kontextusát rögzítő, nagy dimenziójú vektorábrázolások.
Mikor érdemes használni? Akkor használja, ha objektíven szeretné kiértékelni egy AI-modell teljesítményét, különösen olyan szöveggenerálási feladatokban, ahol hozzáféréssel rendelkezik az alapigaz válaszokhoz. A GPT-hasonlóság lehetővé teszi, hogy felmérje a létrehozott szöveg szemantikai igazítását a kívánt tartalommal, így felmérheti a modell minőségét és pontosságát.
Mire van szükség bemenetként? Kérdés, Alapigazság válasz, Generált válasz

A Large Language Model bírója által a metrika pontozásához használt beépített parancssor:

GPT-Similarity, as a metric, measures the similarity between the predicted answer and the correct answer. If the information and content in the predicted answer is similar or equivalent to the correct answer, then the value of the Equivalence metric should be high, else it should be low. Given the question, correct answer, and predicted answer, determine the value of Equivalence metric using the following rating scale: 

One star: the predicted answer is not at all similar to the correct answer 

Two stars: the predicted answer is mostly not similar to the correct answer 

Three stars: the predicted answer is somewhat similar to the correct answer 

Four stars: the predicted answer is mostly similar to the correct answer 

Five stars: the predicted answer is completely similar to the correct answer 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Hagyományos gépi tanulás: F1 pontszám

Pontszám jellemzői Pontszám részletei
Pontszámtartomány Lebegőpontos [0-1]
Mi ez a metrika? A modellgenerálás és az alapigazság-válaszok közötti közös szavak számának arányát méri.
Hogyan működik? Az F1-pontszám kiszámítja a modellgenerálás és az alapigazság közötti közös szavak számának arányát. Az arányt a generált válaszban szereplő egyes szavakhoz viszonyítva számítjuk ki az alapigaz válaszban szereplő szavakkal szemben. A generáció és az igazság közötti közös szavak száma az F1 pontszám alapja: a pontosság a közös szavak számának és a generációs szavak teljes számának aránya, a visszahívás pedig a közös szavak számának és az alapigazságban lévő szavak teljes számának aránya.
Mikor érdemes használni? Az F1 pontszámot akkor használja, ha egyetlen átfogó metrikát szeretne, amely egyesíti a visszahívást és a pontosságot a modell válaszaiban. A modell teljesítményének kiegyensúlyozott kiértékelését biztosítja a pontos információk válaszban való rögzítése szempontjából.
Mire van szükség bemenetként? Kérdés, Alapigazság válasz, Generált válasz

Következő lépések