A kiértékelési metrikák leírásainak és használati eseteinek monitorozása

Cikk
02/23/2024

Ebben a cikkben megismerheti az Azure Machine Tanulás generatív AI-modellek monitorozása és értékelése során használt metrikákat, valamint a generatív AI-modellek monitorozásának ajánlott eljárásait.

Fontos

A figyelés jelenleg nyilvános előzetes verzióban érhető el. Ez az előzetes verzió szolgáltatásszintű szerződés nélkül érhető el, és éles számítási feladatokhoz nem ajánlott. Előfordulhat, hogy néhány funkció nem támogatott, vagy korlátozott képességekkel rendelkezik. További információ: Kiegészítő használati feltételek a Microsoft Azure előzetes verziójú termékeihez.

A modellfigyelés nyomon követi a modell teljesítményét az éles környezetben, és célja, hogy az adatelemzés és az üzemeltetés szempontjából is megértse. A monitorozás implementálásához az Azure Machine Tanulás a streamelt adatok adatelemzésével beszerzett monitorozási jeleket használja. Minden monitorozási jel egy vagy több metrikát is magában foglalt. Ezekhez a metrikákhoz küszöbértékeket állíthat be, hogy riasztásokat kapjon az Azure Machine Tanulás vagy az Azure Monitoron keresztül a modell- vagy adatrendellenességekről.

Alapozottság

A megalapozottság kiértékeli, hogy a modell által létrehozott válaszok mennyire összhangban vannak a bemeneti forrásból származó információkkal. A válaszokat a rendszer jogcímként ellenőrzi a felhasználó által definiált alapigaz forrás kontextusában: akkor is, ha a válaszok igazak (tényszerűen helyesek), ha nem ellenőrizhetők a forrásszövegen, akkor a rendszer az alapértékeket nem veszi figyelembe. Az alapigaz forrásban (például a bemeneti forrásban vagy az adatbázisban) lévő "környezettel" szembeni jogcímként ellenőrzött válaszok.

Használja a következő esetekben: Aggódik, hogy az alkalmazás olyan információkat hoz létre, amelyek nem szerepelnek a generatív AI betanított ismeretei (más néven ellenőrizhető információk) részeként.|
Útmutató: Ha a modell válaszai erősen megalapozottak, az azt jelzi, hogy az AI-rendszer válaszaiban szereplő tények a bemeneti forrás vagy a belső adatbázis által ellenőrizhetők. Ezzel szemben az alacsony alapértékek arra utalnak, hogy az AI-rendszer válaszaiban említett tényeket a bemeneti forrás vagy a belső adatbázis nem támogatja vagy ellenőrzi megfelelően. Ilyen esetekben a modell által létrehozott válaszok kizárólag az előre betanított tudáson alapulhatnak, ami nem feltétlenül felel meg az adott bemenet adott kontextusának vagy tartományának.
Scale (Méretezés):
- 1 = "ungrounded": azt javasolja, hogy a válaszok nem ellenőrizhetők a bemeneti forrás vagy a belső adatbázis által.
- 5 = a "tökéletes alapozás" azt sugallja, hogy az AI-rendszer válaszaiban szereplő tények ellenőrizhetők a bemeneti forrás vagy a belső adatbázis alapján.

Relevancia

A relevanciametrika azt méri, hogy a modell által generált válaszok mennyire relevánsak, és közvetlenül kapcsolódnak az adott kérdésekhez. Amikor a felhasználók generatív AI-modellel kommunikálnak, kérdéseket vagy bemeneti kérdéseket tesznek fel, és értelmes és kontextushoz illő válaszokat várnak.

Használja a következő esetekben: A generatív AI-rendszerek felhasználói élményének és hasznosságának javítása érdekében magas relevanciát szeretne elérni az alkalmazás válaszai szempontjából.
Hogyan olvassuk el: A válaszok pontozása abban a képességben van, hogy rögzítsék a kérdés legfontosabb pontjait az alapigazság forrásának kontextusából. Ha a modell válaszai rendkívül relevánsak, az azt jelzi, hogy az AI-rendszer felfogja a bemenetet, és koherens és környezetfüggő kimeneteket képes létrehozni. Ezzel szemben az alacsony relevancia-pontszámok arra utalnak, hogy a generált válaszok lehetnek nem aktuálisak, nincsenek kontextusok, vagy nem kezelik megfelelően a felhasználó által tervezett lekérdezéseket.  
Scale (Méretezés):
- 1 = "irreleváns" azt jelzi, hogy a generált válaszok lehetnek nem aktuálisak, nincsenek kontextusok, vagy nem kezelik megfelelően a felhasználó által tervezett lekérdezéseket.  
- 5 = a "tökéletes relevancia" környezetileg megfelelő kimeneteket javasol.

Koherencia

A koherencia kiértékeli, hogy a nyelvi modell milyen jól képes olyan kimenetet létrehozni, amely zökkenőmentesen halad, természetesen olvas és hasonlít az emberhez hasonló nyelvre. Mennyire jól kommunikálja a robot az üzeneteit rövid és világos módon, egyszerű és megfelelő nyelven, és elkerülve a szükségtelen vagy zavaró információkat? Mennyire könnyű a felhasználó számára megérteni és követni a robot válaszait, és mennyire felelnek meg a felhasználó igényeinek és elvárásainak?

Használja a következő esetekben: Szeretné tesztelni a modell által generált válaszok olvashatóságát és felhasználóbarátságát valós alkalmazásokban.
Útmutató: Ha a modell válaszai nagyon koherensek, az azt jelzi, hogy az AI-rendszer zökkenőmentes, jól strukturált szöveget hoz létre zökkenőmentes átmenetekkel. A szöveg konzisztens környezete javítja az olvashatóságot és a megértést. Az alacsony koherencia azt jelenti, hogy a modell előrejelzett válaszában szereplő mondatok minősége gyenge, és nem illeszkednek egymáshoz természetesen. Előfordulhat, hogy a létrehozott szöveg nem rendelkezik logikai folyamatokkal, és a mondatok különállónak tűnhetnek, ami megnehezíti az olvasók számára a teljes kontextus vagy a kívánt üzenet megértését. A válaszok pontszáma egyértelmű, rövid, megfelelő nyelv, valamint a meghatározott felhasználói igényeknek és elvárásoknak való megfelelés képessége
Scale (Méretezés):
- 1 = "inkognitív": arra utal, hogy a modell előrejelzett válaszában szereplő mondatok minősége gyenge, és nem illeszkednek egymáshoz természetesen. Előfordulhat, hogy a létrehozott szöveg nem rendelkezik logikai folyamatokkal, és a mondatok különállónak tűnhetnek, ami megnehezíti az olvasók számára a teljes kontextus vagy a kívánt üzenet megértését.
- 5 = "tökéletesen koherens": azt sugallja, hogy az AI-rendszer zökkenőmentes, jól strukturált szöveget hoz létre zökkenőmentes áttűnésekkel és konzisztens kontextussal a szövegben, amely javítja az olvashatóságot és a megértést.

Folyékonyan

A fluency kiértékeli a generatív AI előrejelzett válaszának nyelvtudását. Felméri, hogy a létrehozott szöveg mennyire tartja be a nyelvtani szabályokat, a szintaktikai struktúrákat és a szókincs megfelelő használatát, ami nyelvileg helyes és természetes hangvételű válaszokat eredményez. A válaszokat az egyes mondatok minősége, valamint a jól megírt és nyelvtanilag helyes válaszok mérik. Ez a metrika akkor hasznos, ha kiértékeli a nyelvi modell azon képességét, hogy olyan szöveget állítsunk elő, amely megfelel a megfelelő nyelvtani, szintaxisi és szókincshasználatnak.

Használja a következő esetekben: Szeretné felmérni a generatív AI előrejelzett válaszainak nyelvtani és nyelvi pontosságát.
Útmutató: Ha a modell válaszai nagyon koherensek, az azt jelzi, hogy az AI-rendszer nyelvtani szabályokat követ, és megfelelő szókincset használ. A szöveg konzisztens környezete javítja az olvashatóságot és a megértést. Ezzel szemben az alacsony flunciális pontszámok nyelvtani hibákkal és kínos kifejezésekkel való küzdelmét jelzik, így a szöveg kevésbé alkalmas gyakorlati alkalmazásokra.  
Scale (Méretezés):
- 1 = a "leállítás" nyelvtani hibákkal és kínos kifejezésekkel való küzdelemre utal, így a szöveg kevésbé alkalmas gyakorlati alkalmazásokra.  
- 5 = a "tökéletes folyékonyság" azt sugallja, hogy az AI-rendszer nyelvtani szabályokat követ, és megfelelő szókincset használ. A szöveg konzisztens környezete javítja az olvashatóságot és a megértést.

Hasonlóság

A hasonlóság számszerűsíti az alapigaz mondat (vagy dokumentum) és az AI-modell által létrehozott előrejelzési mondat közötti hasonlóságot. A számítás az első számítási mondatszintű beágyazások alapján történik, mind az alapigazság, mind a modell előrejelzése szempontjából. Ezek a beágyazások a mondatok nagy dimenziójú vektoros ábrázolását jelentik, rögzítve azok szemantikai jelentését és kontextusát.

Használja a következő esetekben: Objektíven szeretné kiértékelni egy AI-modell teljesítményét (olyan szöveggenerálási feladatokhoz, amelyekben hozzáféréssel rendelkezik a valóságnak megfelelő válaszokhoz). Az Ada-hasonlóság lehetővé teszi, hogy összehasonlítsa a létrehozott szöveget a kívánt tartalommal.
Hogyan olvassuk el: A válaszok pontszáma megegyezik az alapigaz válaszsal, és ugyanazt az információt és jelentést rögzíti, mint az adott kérdésre adott alapigaz válasz. A magas Ada-hasonlósági pontszám arra utal, hogy a modell előrejelzése környezetfüggően hasonlít az alapigazsághoz, pontos és releváns eredményeket jelezve. Ezzel szemben az alacsony Ada-hasonlósági pontszám az előrejelzés és a tényleges alapigazság közötti eltérést vagy eltérést jelenti, ami a modell teljesítményének pontatlanságait vagy hiányosságait jelezheti.
Scale (Méretezés):
- 1 = a "nonequivalence" az előrejelzés és a tényleges alapigazság közötti eltérésre vagy eltérésre utal, ami a modell teljesítményének pontatlanságait vagy hiányosságait jelezheti.
- 5 = a "tökéletes egyenértékűség" azt jelzi, hogy a modell előrejelzése környezetfüggően hasonlít az alapigazsághoz, pontos és releváns eredményeket jelezve.

Megosztás a következőn keresztül: