Generatív AI-alkalmazások értékelése
Fontos
A cikkben megjelölt (előzetes verziójú) elemek jelenleg nyilvános előzetes verzióban érhetők el. Ez az előzetes verzió szolgáltatásszint-szerződés nélkül érhető el, és éles számítási feladatokhoz nem javasoljuk. Előfordulhat, hogy néhány funkció nem támogatott, vagy korlátozott képességekkel rendelkezik. További információ: Kiegészítő használati feltételek a Microsoft Azure előzetes verziójú termékeihez.
Az olyan nyelvi modellek, mint például a GPT-4 az Azure OpenAI szolgáltatáson keresztüli fejlődése nagy ígéretet tesz, miközben a felelős AI-vel kapcsolatos kihívásokkal is szembesül. Ha nem gondosan tervezték, az ezekre a modellekre épülő rendszerek állandósíthatják a meglévő társadalmi torzításokat, elősegíthetik a félretájékoztatást, manipulatív tartalmakat hozhatnak létre, vagy számos más negatív hatáshoz vezethetnek. Ezeknek a kockázatoknak a kezelése és a felhasználók számára nyújtott előnyök maximalizálása iteratív megközelítéssel négy lépésben lehetséges: az azonosítás, a mérés és a mérséklés, a működés.
A mérési szakasz kulcsfontosságú információkat nyújt a minőség és a biztonság irányába irányuló kormányzás fejlesztéséhez. Ez magában foglalja a teljesítmény és a minőség értékelését is. Másrészt a kockázat és a biztonság értékelésekor ez magában foglalja az AI-rendszerek különböző kockázatokra való hajlamosságának értékelését (amelyek mindegyike különböző súlyosságú lehet). Ez mindkét esetben egyértelmű metrikák létrehozásával, tesztkészletek létrehozásával és iteratív, szisztematikus teszteléssel érhető el. Ez a mérési szakasz olyan jeleket biztosít a szakembereknek, amelyek tájékoztatják a célzott kockázatcsökkentési lépéseket, például a gyors tervezést és a tartalomszűrők alkalmazását. A kockázatcsökkentések alkalmazása után megismételheti az értékeléseket a hatékonyság teszteléséhez.
Az Azure AI Studio olyan eszközöket biztosít a szakembereknek a manuális és automatizált kiértékeléshez, amelyek segíthetnek a mérési fázisban. Javasoljuk, hogy kezdje a manuális kiértékeléssel, majd folytassa az automatikus kiértékeléssel. A manuális kiértékelés, vagyis az alkalmazás által létrehozott kimenetek manuális áttekintése hasznos lehet az előrehaladás nyomon követéséhez egy kis számú prioritási probléma esetén. Adott kockázatok mérséklésekor gyakran a legeredményesebb, ha manuálisan ellenőrzi az előrehaladást egy kis adatkészleten, amíg a kockázatok bizonyítékai már nem észlelhetők az automatizált értékelésre való áttérés előtt. Az Azure AI Studio támogatja a kis adathalmazok helyszíni ellenőrzésének manuális kiértékelését.
Az automatizált értékelés a minőség és a biztonság nagyobb lefedettséggel történő méréséhez hasznos, hogy átfogóbb eredményeket biztosítson. Az automatizált kiértékelési eszközök lehetővé teszik a folyamatos értékeléseket is, amelyek rendszeres időközönként futnak a regresszió monitorozásához a rendszer, a használat és a kockázatcsökkentések fejlődésével párhuzamosan. A generatív AI-alkalmazások automatizált kiértékelésének két fő módszerét támogatjuk: a hagyományos gépi tanulási értékeléseket és az AI által támogatott kiértékeléseket.
Hagyományos gépi tanulási mérések
A generatív AI kontextusában a hagyományos gépi tanulási értékelések (hagyományos gépi tanulási metrikák előállítása) akkor hasznosak, ha számszerűsíteni szeretnénk a generált kimenetek pontosságát a várt válaszokhoz képest. A hagyományos metrikák akkor hasznosak, ha az ember hozzáfér az alapigazsághoz és a várt válaszokhoz.
- Az alapigazság azokra az adatokra vonatkozik, amelyekről úgy gondoljuk, hogy igazak, ezért összehasonlítások alapkonfigurációjaként használhatók.
- A várt válaszok azok az eredmények, amelyekről úgy gondoljuk, hogy az alapigazság-adatok alapján kell történniük. Például olyan feladatokban, mint a besorolás vagy a rövid formátumú kérdés-válasz, ahol általában egy helyes vagy várt válasz van, F1 pontszámok vagy hasonló hagyományos metrikák használhatók a generált kimenetek pontosságának és visszahívásának mérésére a várt válaszok alapján.
A hagyományos metrikák akkor is hasznosak, ha meg akarjuk érteni, hogy a generált kimenetek mennyire regressziósak, azaz eltérnek a várt válaszoktól. Mennyiségi hiba- vagy eltérésmérést biztosítanak, amely lehetővé teszi a rendszer teljesítményének időbeli nyomon követését vagy a különböző rendszerek teljesítményének összehasonlítását. Ezek a metrikák azonban kevésbé alkalmasak a kreativitást, kétértelműséget vagy több helyes megoldást tartalmazó feladatokhoz, mivel ezek a metrikák általában hibaként kezelik a várt választól való eltérést.
AI által támogatott értékelések
A nagy nyelvi modellek (PÉLDÁUL GPT-4) a generatív AI nyelvi rendszerek kimenetének kiértékelésére használhatók. Ez úgy érhető el, hogy utasít egy LLM-et, hogy jegyzetelje az AI által létrehozott kimenet bizonyos aspektusait. Megadhat például a GPT-4-nek egy relevancia súlyossági skálát (például 1-5 skálán megadhatja a relevanciajegyzet feltételeit), majd megkérheti a GPT-4-et, hogy jegyzetekkel adja meg az AI-rendszer adott kérdésre adott válaszának relevanciáját.
Az AI által támogatott értékelések hasznosak lehetnek olyan helyzetekben, ahol az alapigazság és a várt válaszok nem érhetők el. Számos generatív AI-forgatókönyvben, például nyílt végű kérdések megválaszolásakor vagy kreatív íráskor nem létezik egyetlen helyes válasz, ami megnehezíti a hagyományos metrikákhoz szükséges alapigazságok vagy várt válaszok megállapítását.
Ezekben az esetekben az AI által támogatott értékelések segíthetnek olyan fontos fogalmak mérésében, mint a generált kimenetek minősége és biztonsága. Itt a minőség olyan teljesítmény- és minőségi attribútumokra utal, mint a relevancia, a koherencia, a fluency és az alaposság. A biztonság olyan kockázati és biztonsági attribútumokra utal, mint például a káros tartalom jelenléte (tartalomkockázatok).
Az LLM utasításainak és súlyossági skálájának létrehozásához minden attribútumhoz gondos fogalmi és kísérletezési folyamat szükséges. Néha ezek az attribútumok olyan összetett társadalmi-technikai fogalmakra utalnak, amelyeket a különböző emberek másképp tekinthetnek. Ezért kritikus fontosságú, hogy az LLM jegyzetelési utasításai úgy legyenek létrehozva, hogy az az attribútum elfogadott, konkrét definícióját képviselje. Ezután hasonlóan kritikus fontosságú annak biztosítása, hogy az LLM az utasításokat az emberi szakértő széljegyzetekkel összhangban alkalmazza.
Ha arra utasít egy LLM-et, hogy jegyzetelje ezeket az attribútumokat, létrehozhat egy metrikát annak érdekében, hogy egy generatív AI-alkalmazás milyen jól teljesít, még akkor is, ha nincs egyetlen helyes válasz. Az AI által támogatott értékelések rugalmas és árnyalt módot biztosítanak a generatív AI-alkalmazások kiértékelésére, különösen olyan feladatok esetében, amelyek kreativitást, kétértelműséget vagy több helyes megoldást tartalmaznak. Az értékelések megbízhatósága és érvényessége azonban az LLM minőségétől és a kapott utasításoktól függ.
AI által támogatott teljesítmény- és minőségi metrikák
Az AI által támogatott teljesítmény- és minőségértékelések futtatásához az LLM-et valószínűleg két különálló függvényhez használják. Először létre kell hozni egy tesztadatkészletet. Ez manuálisan hozható létre a parancssorok kiválasztásával és az AI-rendszer válaszainak rögzítésével, vagy szintetikusan is létrehozható az AI-rendszer és egy LLM közötti interakció szimulálásával (a következő ábrán az AI által támogatott adathalmaz-generátorként is ismert). Ezután egy LLM-et is használunk az AI-rendszer kimeneteinek megjegyzésére a tesztkészletben. Végül a széljegyzetek teljesítmény- és minőségi metrikákba vannak összesítve, és naplózva lesznek az AI Studio-projektben megtekintésre és elemzésre.
Feljegyzés
Jelenleg a GPT-4 és a GPT-3 támogatott modellként az AI által támogatott értékelésekhez. Ahhoz, hogy ezeket a modelleket kiértékelési célokra használhassa, érvényes kapcsolatokat kell létrehoznia. Kérjük, vegye figyelembe, hogy erősen javasoljuk a GPT-4 használatát, mivel jelentős fejlesztéseket kínál a környezetfüggő megértés és az utasítások betartása terén.
AI által támogatott kockázati és biztonsági metrikák
Az AI által támogatott minőség- és teljesítményértékelések egyik alkalmazása az AI által támogatott kockázati és biztonsági metrikák létrehozása. Az AI által támogatott kockázati és biztonsági metrikák létrehozásához az Azure AI Studio biztonsági kiértékelései kiépítenek egy Azure OpenAI GPT-4 modellt, amely egy háttérszolgáltatásban üzemel, majd vezényli a két LLM-függő lépést:
Aversariális interakciók szimulálása a generatív AI-rendszerrel:
A bemenetek és válaszok kiváló minőségű tesztadatkészletének létrehozása egyfordulós vagy többfordulós cserék szimulálásával, amelyeket a káros válaszok generálására szolgáló kérések vezérelnek.
A tesztadatkészlet jegyzetelése tartalom- vagy biztonsági kockázatok esetén:
Jegyzetelje a tesztadatkészlet minden interakcióját egy súlyossági skálából származtatott súlyossággal és érveléssel, amely az egyes tartalomtípusokra és biztonsági kockázatokra van meghatározva.
Mivel a kiépített GPT-4 modellek támadó adathalmaz-generátorként vagy széljegyzetként működnek, a biztonsági szűrők ki vannak kapcsolva, és a modellek egy háttérszolgáltatásban vannak üzemeltetve. Az ezen LLM-ekhez használt kérések és a célzott adversarial prompt-adatkészletek szintén a szolgáltatásban vannak tárolva. A létrehozott és az LLM-ben továbbított tartalom bizalmas jellege miatt a modellek és adategységek nem érhetők el közvetlenül az Azure AI Studio ügyfelei számára.
A támadó célzott gyorsadatkészleteket Microsoft-kutatók, alkalmazott tudósok, nyelvészek és biztonsági szakértők fejlesztették ki, hogy segítsenek a felhasználóknak a tartalom és a biztonsági kockázatok generatív AI-rendszerekben való értékelésében.
Ha már rendelkezik bemeneti kérésekkel és AI-rendszerválaszokkal rendelkező tesztadatkészlettel (például vörös összevonásból származó rekordokkal), közvetlenül továbbíthatja az adathalmazt, hogy a tartalomkockázat-kiértékelő jegyzetekkel rendelkezzen. A biztonsági értékelések segíthetnek a manuális vörös összevonási erőfeszítések növelésében és felgyorsításában azáltal, hogy lehetővé teszik, hogy a vörös csapatok nagy léptékben generálják és automatizálják a támadó kéréseket. Az AI által támogatott értékelések azonban nem az emberi felülvizsgálat helyettesítésére, sem az összes lehetséges kockázat átfogó lefedésére szolgálnak.
A jailbreak biztonsági résének kiértékelése
A tartalomkockázatokkal ellentétben a jailbreak biztonsági rését nem lehet megbízhatóan mérni egy LLM közvetlen megjegyzésével. A jailbreak biztonsági rése azonban két párhuzamos tesztadatkészlet összehasonlításával mérhető: egy alapkonfigurációs adversarial test dataset és ugyanahhoz az adversarial tesztadatkészlethez, amelynek első sorában jailbreak-injektálással történik. Az egyes adathalmazokat az AI által támogatott tartalomkockázat-kiértékelő jegyzetekkel láthatja el, és mindegyiknél tartalomkockázati hibaarányt eredményez. Ezután a felhasználó kiértékeli a jailbreak biztonsági rést a hibák arányának összehasonlításával és az olyan esetek jelölésével, amelyekben a jailbreak-adatkészlet több vagy nagyobb súlyossági hibához vezetett. Ha például ezekben a párhuzamos tesztadatkészletekben egy példányt a rendszer a jailbreak-injektálással rendelkező verziónál súlyosabbként jegyzetel, az a példány jailbreak-hibának minősül.
A támogatott tevékenységtípusokról és a beépített metrikákról további információt a generatív AI kiértékelési és monitorozási metrikáiban talál.
Generatív AI-alkalmazások kiértékelése és monitorozása
Az Azure AI Studio számos különböző útvonalat támogat a generatív AI-alkalmazásfejlesztők számára az alkalmazások kiértékeléséhez:
Játszótér: Az első útvonalon egy "játszótéri" élményben vehet részt. Itt kiválaszthatja a modell alapjául használni kívánt adatokat, kiválaszthatja az alkalmazás alapmodelljét, és metaprompt utasításokat adhat meg a modell viselkedésének irányításához. Ezután manuálisan is kiértékelheti az alkalmazást egy adathalmaz átadásával és az alkalmazás válaszainak megfigyelésével. Ha a manuális ellenőrzés befejeződött, a kiértékelési varázslóval átfogóbb értékeléseket végezhet hagyományos metrikákon vagy AI-támogatással végzett értékeléseken keresztül.
Folyamatok: Az Azure AI Studio Prompt folyamatoldala egy dedikált fejlesztőeszközt kínál, amely az LLM-ek által működtetett AI-alkalmazások teljes életciklusának javítására van kialakítva. Ezzel az elérési úttal végrehajtható folyamatokat hozhat létre, amelyek LLM-eket, kéréseket és Python-eszközöket kapcsolnak össze egy vizualizált gráfon keresztül. Ez a funkció leegyszerűsíti a folyamatok hibakeresését, megosztását és együttműködési iterációit. Emellett gyors változatokat is létrehozhat, és nagy léptékű teszteléssel értékelheti a teljesítményüket.
A Folyamatok fejlesztési eszköz mellett lehetősége van a generatív AI-alkalmazások fejlesztésére is egy kódelső SDK-felület használatával. A választott fejlesztési útvonaltól függetlenül kiértékelheti a létrehozott folyamatokat a kiértékelési varázslón keresztül, amely elérhető a "Folyamatok" lapon vagy az SDK/CLI felületen. A Folyamatok lapon még a testre szabott kiértékelési varázslót is használhatja, és saját metrikákat építhet be.Közvetlen adathalmaz kiértékelése: Ha olyan adathalmazt gyűjtött össze, amely interakciókat tartalmaz az alkalmazás és a végfelhasználók között, ezeket az adatokat közvetlenül a kiértékelési varázslóba küldheti el a "Kiértékelés" lapon. Ez a folyamat lehetővé teszi az automatikus AI-támogatású értékelések létrehozását, és az eredmények ugyanabban a lapon jeleníthetők meg. Ez a megközelítés egy adatközpontú kiértékelési módszerre összpontosít. Azt is megteheti, hogy kiértékeli a beszélgetési adathalmazt az SDK/CLI használatával, és kiértékeléseket hozhat létre és jeleníthet meg az Azure AI Studióban.
Miután kiértékelte az alkalmazásait, folyamatait vagy adatait ezen csatornák bármelyikéből, folytathatja a generatív AI-alkalmazás üzembe helyezését és annak minőségét és biztonságát éles környezetben, miközben új interakciókat folytat a felhasználókkal.