Kiértékelési eredmények megtekintése az Azure AI Studióban
Fontos
A cikkben megjelölt (előzetes verziójú) elemek jelenleg nyilvános előzetes verzióban érhetők el. Ez az előzetes verzió szolgáltatásszint-szerződés nélkül érhető el, és éles számítási feladatokhoz nem javasoljuk. Előfordulhat, hogy néhány funkció nem támogatott, vagy korlátozott képességekkel rendelkezik. További információ: Kiegészítő használati feltételek a Microsoft Azure előzetes verziójú termékeihez.
Az Azure AI Studio kiértékelési oldala egy sokoldalú központ, amely nemcsak az eredmények megjelenítését és értékelését teszi lehetővé, hanem vezérlőközpontként is szolgál az üzembe helyezési igényeknek megfelelő optimális AI-modell optimalizálásához, hibaelhárításához és kiválasztásához. Ez egy egyablakos megoldás az adatvezérelt döntéshozatalhoz és a teljesítmény növeléséhez az AI Studio-projektekben. Zökkenőmentesen elérheti és értelmezheti a különböző forrásokból származó eredményeket, beleértve a folyamatot, a játszótéri gyorsteszt-munkamenetet, a kiértékelési beküldési felhasználói felületet és az SDK-t. Ez a rugalmasság biztosítja, hogy a munkafolyamatnak és a beállításoknak leginkább megfelelő módon tudja kezelni az eredményeket.
Miután vizualizálta a kiértékelési eredményeket, alapos vizsgálatot végezhet. Ez magában foglalja azt a képességet, hogy ne csak az egyes eredményeket tekintsük meg, hanem összehasonlítsuk ezeket az eredményeket több kiértékelési futtatás között is. Ezzel azonosíthatja a trendeket, mintákat és eltéréseket, és felbecsülhetetlen értékű betekintést nyerhet az AI-rendszer teljesítményébe különböző feltételek mellett.
Ebből a cikkből megtudhatja, hogyan:
- A kiértékelési eredmények és a metrikák megtekintése.
- Hasonlítsa össze a kiértékelési eredményeket.
- A beépített kiértékelési metrikák megismerése.
- Javítsa a teljesítményt.
- A kiértékelési eredmények és a metrikák megtekintése.
A kiértékelési eredmények megkeresése
Az értékelés elküldése után a kiértékelési listában a Kiértékelési lapra lépve megtalálhatja a beküldött kiértékelési futtatást.
A futtatási listán belül figyelheti és kezelheti a kiértékelési futtatásokat. Az oszlopok oszlopszerkesztővel történő módosításának és a szűrők implementálásának rugalmasságával testre szabhatja és létrehozhatja a futtatási lista saját verzióját. Emellett gyorsan áttekintheti az összesített kiértékelési metrikákat a futtatások során, így gyors összehasonlításokat végezhet.
A kiértékelési metrikák származtatásának részletesebb megismeréséhez átfogó magyarázathoz juthat a "További tudnivalók a metrikákról" lehetőség kiválasztásával. Ez a részletes erőforrás értékes betekintést nyújt a kiértékelési folyamat során használt metrikák kiszámításába és értelmezésébe.
Kiválaszthat egy adott futtatási lehetőséget, amely a futtatás részleteinek lapjára viszi. Itt átfogó információkhoz férhet hozzá, beleértve a kiértékelési adatokat, például a tesztadatkészletet, a feladat típusát, a parancssort, a hőmérsékletet és egyebeket. Emellett megtekintheti az egyes adatmintákhoz társított metrikákat is. A metrikák pontszámdiagramjai vizuálisan ábrázolják, hogyan oszlanak el a pontszámok az egyes metrikákhoz az adathalmazban.
A metrikák részletes táblázatában az egyes adatminták átfogó vizsgálatát végezheti el. Itt áttekintheti a létrehozott kimenetet és annak megfelelő értékelési metrika-pontszámát. Ez a részletesség lehetővé teszi, hogy adatvezérelt döntéseket hozzon, és konkrét műveleteket hajtson végre a modell teljesítményének javítása érdekében.
A kiértékelési metrikákon alapuló lehetséges műveletelemek közé tartozhatnak a következők:
- Mintafelismerés: Numerikus értékek és metrikák szűrésével lehatolást végezhet az alacsonyabb pontszámú mintákra. Ezeket a mintákat vizsgálva azonosíthatja a modell válaszaiban szereplő ismétlődő mintákat vagy problémákat. Előfordulhat például, hogy az alacsony pontszámok gyakran akkor fordulnak elő, ha a modell tartalmat hoz létre egy adott témakörben.
- Modell pontosítása: Az alacsonyabb pontszámú mintákból származó megállapításokkal javíthatja a rendszer parancssori utasításait, vagy finomhangolhatja a modellt. Ha konzisztens problémákat tapasztal például a koherenciával vagy relevanciával kapcsolatban, ennek megfelelően módosíthatja a modell betanítási adatait vagy paramétereit is.
- Oszlop testreszabása: Az oszlopszerkesztővel testre szabott nézetet hozhat létre a táblázatról, amely a kiértékelési célok szempontjából leginkább releváns metrikákra és adatokra összpontosít. Ez leegyszerűsítheti az elemzést, és hatékonyabban észlelheti a trendeket.
- Kulcsszókeresés: A keresőmezővel konkrét szavakat vagy kifejezéseket kereshet a létrehozott kimenetben. Ez hasznos lehet az adott témakörökhöz vagy kulcsszavakhoz kapcsolódó problémák vagy minták kitűzéséhez és konkrét kezeléséhez.
A metrikák részletes táblázata számos olyan adatot kínál, amelyek segíthetnek a modellfejlesztési erőfeszítésekben, a minták felismerésétől a nézet testreszabásán át a modell hatékony elemzéséhez és a modell meghatározott problémák alapján történő finomításához.
Az összesített nézeteket vagy a metrikákat teljesítmény és minőség, valamint kockázat- és biztonsági metrikák szerint bontjuk le. Megtekintheti a pontszámok eloszlását a kiértékelt adathalmazban, és megtekintheti az egyes metrikák összesített pontszámait.
- A teljesítmény- és minőségi metrikák esetében az egyes metrikák pontszámainak átlagát számítjuk ki.
- A kockázati és biztonsági metrikák esetében az egyes metrikák hibaarányának kiszámításával összesítjük.
- Tartalomkárosító metrikák esetén a hibaarány a tesztadatkészlet azon példányainak százalékos aránya, amelyek túllépik a súlyossági skálán a teljes adathalmaz méretére vonatkozó küszöbértéket. Alapértelmezés szerint a küszöbérték "Közepes".
- Védett anyag és közvetett támadás esetén a hibaarány azoknak a példányoknak a százalékos aránya, ahol a kimenet "true" (Defect Rate = (#trues/ #instances) × 100).
Íme néhány példa a kérdések megválaszolására szolgáló forgatókönyv metrikáinak eredményeire:
Íme néhány példa a beszélgetési forgatókönyv metrikáinak eredményeire:
Többfordulós beszélgetési forgatókönyv esetén a "Kiértékelési eredmények megtekintése fordulatonként" lehetőséget választva ellenőrizheti a beszélgetés minden egyes fordulójának kiértékelési metrikáit.
A kockázati és biztonsági metrikák esetében az értékelés minden pontszámhoz egy súlyossági pontszámot és érvelést biztosít. Íme néhány példa a kockázat- és biztonsági metrikák eredményére a kérdés megválaszolási forgatókönyvében:
A kiértékelési eredmények különböző jelentéssel bírhatnak a különböző célközönségek számára. A biztonsági értékelések például olyan " alacsony" súlyosságú erőszakos tartalmak címkéjét eredményezhetik, amelyek nem feltétlenül igazodnak az emberi véleményező azon definícióihoz, hogy milyen súlyos lehet az adott erőszakos tartalom. Egy emberi visszajelzési oszlopot biztosítunk felfelé és lefelé mutató hüvelykujjal, amikor áttekinti a kiértékelési eredményeket, hogy felszínre hozhassuk, hogy mely példányokat hagyta jóvá vagy jelölje meg helytelenként egy emberi véleményező.
Az egyes tartalomkockázati metrikák megértéséhez egyszerűen megtekintheti az egyes metrikadefiníciók és súlyossági skálák megjelenítését a diagram fölötti metrikanévre kattintva, hogy részletes magyarázatot találjon egy előugró ablakban.
Ha valami probléma van a futtatással, hibakeresést is végezhet a kiértékelési futtatásban a naplóval és a nyomkövetéssel.
Íme néhány példa a kiértékelési futtatás hibakereséséhez használható naplókra:
Íme egy példa a nyomkövetési és hibakeresési nézetre:
Ha egy parancssori folyamatot értékel ki, a Folyamat nézete gombra kattintva a kiértékelt folyamatoldalra lépve frissítheti a folyamatot. Például adjon hozzá további metaadat-utasításokat, vagy módosítsa néhány paramétert, és értékelje újra.
A kiértékelési eredmények összehasonlítása
Ha két vagy több futtatás átfogó összehasonlítását szeretné megkönnyíteni, kiválaszthatja a kívánt futtatásokat, és elindíthatja a folyamatot a Compare (Összehasonlítás ) gombbal, vagy általános részletes irányítópult-nézet esetén a Váltás irányítópult nézetre gombbal. Ez a funkció lehetővé teszi több futtatás teljesítményének és eredményeinek elemzését és kontrasztját, így megalapozottabb döntéshozatalt és célzott fejlesztéseket tesz lehetővé.
Az irányítópult-nézetben két értékes összetevőhöz férhet hozzá: a metrikaeloszlás összehasonlító diagramhoz és az összehasonlító táblához. Ezek az eszközök lehetővé teszik a kiválasztott kiértékelési futtatások egymás melletti elemzését, lehetővé téve az egyes adatminták különböző aspektusainak egyszerű és pontos összehasonlítását.
Az összehasonlító táblázatban az összehasonlítási alapkonfigurációt úgy hozhatja létre, hogy a referenciapontként használni kívánt adott futtatásra mutat, és alapkonfigurációként van beállítva. Ezenkívül a "Változás megjelenítése" kapcsoló aktiválásával könnyen megjelenítheti az alapterv és a többi futtatás közötti különbségeket a numerikus értékek esetében. Emellett a "Csak a különbség megjelenítése" váltógomb engedélyezésével a táblázat csak a kiválasztott futtatások között eltérő sorokat jeleníti meg, ezzel segítve a különböző változatok azonosítását.
Az alábbi összehasonlító funkciók használatával megalapozott döntést hozhat a legjobb verzió kiválasztásáról:
- Alapterv-összehasonlítás: Alapterv-futtatás beállításával azonosíthat egy referenciapontot, amellyel összehasonlíthatja a többi futtatást. Így láthatja, hogy az egyes futtatások hogyan térnek el a választott szabványtól.
- Numerikus értékbecslés: A "Változás megjelenítése" beállítás engedélyezése segít megérteni az alapterv és az egyéb futtatások közötti különbségek mértékét. Ez hasznos annak kiértékeléséhez, hogy a különböző futtatások hogyan teljesítenek az adott értékelési metrikák szempontjából.
- Különbségelkülönítés: A "Csak a különbség megjelenítése" funkció leegyszerűsíti az elemzést, mivel csak azokat a területeket emeli ki, ahol eltérések vannak a futtatások között. Ez segíthet meghatározni, hogy hol van szükség fejlesztésekre vagy módosításokra.
Ezeknek az összehasonlító eszközöknek a hatékony használatával megállapíthatja, hogy a modell vagy a rendszer melyik verziója teljesít a legjobban a megadott feltételek és metrikák alapján, így végső soron segít kiválasztani az alkalmazás számára legoptimálisabb lehetőséget.
A jailbreak biztonsági résének mérése
A jailbreak kiértékelése összehasonlító mérés, nem pedig AI által támogatott metrikák. Futtasson kiértékeléseket két különböző, piros csapatú adatkészleten: egy alapkonfigurációs adversarial test dataset és ugyanahhoz az adversarial test datasethez, jailbreak-injektálásokkal az első fordulóban. Az adversarial adatszimulátor használatával létrehozhatja az adathalmazt jailbreak-injektálással vagy anélkül.
Annak megértéséhez, hogy az alkalmazás sebezhető-e a jailbreakmel szemben, megadhatja, hogy melyik az alapkonfiguráció, majd kapcsolja be a "Jailbreak hibaaránya" kapcsolót az összehasonlító táblázatban. A jailbreak-hibák aránya a tesztadatkészlet azon példányainak százalékos aránya, ahol a jailbreak-injektálás magasabb súlyossági pontszámot eredményezett a tartalomkockázati metrikák esetében a teljes adathalmaz méretének alapkonfigurációjához képest. Az összehasonlítási irányítópulton több értékelést is kiválaszthat a hibaarányok különbségének megtekintéséhez.
Tipp.
A feltörési hibák arányát viszonylag csak azonos méretű adathalmazokra számítjuk ki, és csak akkor, ha az összes futtatás tartalomkockázati és biztonsági metrikákat tartalmaz.
A beépített kiértékelési metrikák ismertetése
A beépített metrikák ismerete elengedhetetlen az AI-alkalmazás teljesítményének és hatékonyságának felméréséhez. Ha betekintést nyer ezekbe a kulcsfontosságú mérési eszközökbe, jobban fel van szerelve az eredmények értelmezésére, megalapozott döntések meghozatalára és az alkalmazás finomhangolására az optimális eredmények elérése érdekében. Ha többet szeretne megtudni az egyes metrikák jelentőségéről, a számítás módjáról, a modell különböző aspektusainak értékelésében játszott szerepéről, valamint az eredmények adatvezérelt fejlesztésekhez való értelmezéséről, tekintse meg a kiértékelési és monitorozási metrikákat.
Következő lépések
További információ a generatív AI-alkalmazások kiértékeléséről: