Jak zobrazit výsledky vyhodnocení v Azure AI Studiu
Poznámka:
Azure AI Studio je aktuálně ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.
Stránka pro vyhodnocení azure AI Studia je univerzální centrum, které umožňuje nejen vizualizovat a vyhodnocovat výsledky, ale také slouží jako řídicí centrum pro optimalizaci, řešení potíží a výběr ideálního modelu AI pro vaše potřeby nasazení. Jedná se o jednostavové řešení pro rozhodování a zvýšení výkonu řízené daty ve vašich projektech AI. K výsledkům můžete bezproblémově přistupovat a interpretovat je z různých zdrojů, včetně toku, rychlé testovací relace dětského hřiště, uživatelského rozhraní pro odeslání vyhodnocení, generivní sady SDK a rozhraní příkazového řádku. Tato flexibilita zajišťuje, že budete moct pracovat s výsledky způsobem, který nejlépe vyhovuje vašemu pracovnímu postupu a preferencím.
Jakmile si vizualizujete výsledky vyhodnocení, můžete se ponořit do důkladného zkoumání. To zahrnuje možnost nejen zobrazit jednotlivé výsledky, ale také porovnat tyto výsledky napříč několika spuštěními vyhodnocení. Díky tomu můžete identifikovat trendy, vzory a nesrovnalosti a získat neocenitelné přehledy o výkonu systému AI za různých podmínek.
V tomto článku se naučíte:
- Prohlédněte si výsledek vyhodnocení a metriky.
- Porovnejte výsledky vyhodnocení.
- Seznamte se s předdefinované metriky vyhodnocení.
- Zvyšte výkon.
- Prohlédněte si výsledky vyhodnocení a metriky.
Vyhledání výsledků vyhodnocení
Po odeslání vyhodnocení můžete v seznamu spuštění vyhledat odeslanou zkušební spuštění tak, že přejdete na stránku Vyhodnocení .
Testovací spuštění můžete monitorovat a spravovat v seznamu spuštění. Díky flexibilitě úprav sloupců pomocí editoru sloupců a implementaci filtrů můžete přizpůsobit a vytvořit vlastní verzi seznamu spuštění. Kromě toho můžete rychle zkontrolovat agregované metriky vyhodnocení napříč spuštěními, což vám umožní provádět rychlá porovnání.
Pokud chcete lépe pochopit, jak se metriky vyhodnocení odvozují, můžete získat přístup k komplexnímu vysvětlení výběrem možnosti "Vysvětlení dalších informací o metrikách". Tento podrobný prostředek poskytuje cenné přehledy o výpočtu a interpretaci metrik používaných v procesu vyhodnocení.
Můžete zvolit konkrétní spuštění, které vás převedou na stránku podrobností o spuštění. Tady můžete získat přístup k komplexním informacím, včetně podrobností vyhodnocení, jako je typ úkolu, výzva, teplota a další. Kromě toho můžete zobrazit metriky přidružené k jednotlivým vzorkům dat. Grafy skóre metrik poskytují vizuální znázornění způsobu distribuce skóre pro každou metriku v celé datové sadě.
V tabulce podrobností metrik můžete provést komplexní zkoumání každého jednotlivého vzorku dat. Tady máte možnost prověřovat vygenerovaný výstup i odpovídající skóre metrik vyhodnocení. Tato úroveň podrobností umožňuje provádět rozhodnutí řízená daty a provádět konkrétní akce ke zlepšení výkonu modelu.
Mezi potenciální položky akcí na základě metrik vyhodnocení patří:
- Rozpoznávání vzorů: Filtrováním číselných hodnot a metrik můžete přejít k podrobnostem vzorků s nižším skóre. Prozkoumejte tyto ukázky a identifikujte opakované vzory nebo problémy v odpovědích modelu. Můžete si například všimnout, že nízké skóre často dochází, když model generuje obsah v určitém tématu.
- Upřesnění modelu: Pomocí přehledů z ukázek s nižším skóre můžete vylepšit pokyny k příkazovému řádku systému nebo doladit model. Pokud pozorujete konzistentní problémy, například koherence nebo relevance, můžete také odpovídajícím způsobem upravit trénovací data nebo parametry modelu.
- Přizpůsobení sloupce: Editor sloupců umožňuje vytvořit přizpůsobené zobrazení tabulky a zaměřit se na metriky a data, která jsou pro vaše cíle vyhodnocení nejrelevantnější. Díky tomu můžete zefektivnit analýzu a efektivněji odhalit trendy.
- Hledání klíčových slov: Vyhledávací pole umožňuje hledat konkrétní slova nebo fráze ve vygenerovaném výstupu. To může být užitečné pro určení problémů nebo vzorů souvisejících s konkrétními tématy nebo klíčovými slovy a jejich řešení konkrétně.
Tabulka podrobností metrik nabízí řadu dat, která můžou vést úsilí o vylepšení modelu, od rozpoznávání vzorů až po přizpůsobení zobrazení pro efektivní analýzu a upřesnění modelu na základě zjištěných problémů.
Agregovaná zobrazení nebo metriky rozdělíme podlemetrik výkonu a kvality a rizika a bezpečnosti. Můžete zobrazit rozdělení skóre napříč vyhodnocenou datovou sadou a zobrazit agregované skóre pro každou metriku.
- Pro metriky výkonu a kvality agregujeme výpočet průměru napříč všemi skóre pro každou metriku.
- U metrik rizik a bezpečnosti agregujeme na základě prahové hodnoty pro výpočet míry vad napříč všemi skóre pro každou metriku. Míra vad je definována jako procento instancí v testovací datové sadě, které překračují prahovou hodnotu v rozsahu závažnosti nad celou velikost datové sady.
Tady je několik příkladů výsledků metrik pro scénář odpovědi na otázky:
Tady je několik příkladů výsledků metrik pro scénář konverzace:
Pro metriky rizika a bezpečnosti poskytuje vyhodnocení skóre závažnosti a odůvodnění pro každé skóre. Tady je několik příkladů výsledků metrik rizik a bezpečnosti pro scénář odpovědi na otázky:
Výsledky vyhodnocení můžou mít různé významy pro různé cílové skupiny. Například vyhodnocení bezpečnosti může vygenerovat popisek závažnosti "Nízká" závažnost násilného obsahu, který nemusí odpovídat definici konkrétního násilného obsahu revidujícímu člověku. Při kontrole výsledků vyhodnocení poskytujeme sloupec zpětné vazby člověka s palcem nahoru a palcem dolů, abychom zjistili, které instance byly schváleny nebo označeny jako nesprávné od kontrolorem.
Při pochopení jednotlivých metrik rizik obsahu můžete snadno zobrazit každou definici metriky a měřítko závažnosti výběrem názvu metriky nad grafem a zobrazit podrobné vysvětlení v automaticky otevíraném okně.
Pokud se spuštění něco nepovedlo, můžete také ladit zkušební spuštění pomocí protokolu a trasování.
Tady je několik příkladů protokolů, které můžete použít k ladění zkušebního spuštění:
Tady je příklad trasování:
Pokud chcete získat další informace o vytváření výsledků vyhodnocení, vyberte tlačítko Zobrazit v toku a přejděte na stránku toku propojenou se spuštěním vyhodnocení.
Porovnání výsledků vyhodnocení
Pokud chcete usnadnit komplexní porovnání mezi dvěma nebo více spuštěními, máte možnost vybrat požadovaná spuštění a zahájit proces tak, že vyberete tlačítko Porovnat, nebo u obecného podrobného zobrazení řídicího panelu se zobrazí tlačítko Přepnout na zobrazení řídicího panelu. Tato funkce umožňuje analyzovat a kontrastovat výkon a výsledky více spuštění, což umožňuje informovanější rozhodování a cílená vylepšení.
V zobrazení řídicího panelu máte přístup ke dvěma cenným komponentám: srovnávacímu grafu rozdělení metrik a srovnávací tabulce. Tyto nástroje umožňují provádět souběžnou analýzu vybraných spuštění vyhodnocení, což vám umožní snadno a přesně porovnat různé aspekty jednotlivých vzorků dat.
V tabulce porovnání máte možnost vytvořit směrný plán pro porovnání tak, že najedete myší na konkrétní spuštění, které chcete použít jako referenční bod a nastavíte jako směrný plán. Navíc aktivací přepínače Zobrazit rozdíl můžete snadno vizualizovat rozdíly mezi spuštěním směrného plánu a ostatními běhy pro číselné hodnoty. Kromě toho s povoleným přepínačem Zobrazit pouze rozdíl zobrazí tabulka pouze řádky, které se liší mezi vybranými spuštěními, a pomáhá tak identifikaci různých variant.
Pomocí těchto funkcí porovnání můžete informovaně rozhodnout, že vyberete nejlepší verzi:
- Porovnání směrného plánu: Nastavením běhu podle směrného plánu můžete identifikovat referenční bod, proti kterému chcete porovnat ostatní spuštění. To vám umožní zjistit, jak se jednotlivé běhy liší od zvoleného standardu.
- Posouzení číselných hodnot: Povolení možnosti Zobrazit rozdíl vám pomůže pochopit rozsah rozdílů mezi směrným plánem a dalšími spuštěními. To je užitečné při vyhodnocování toho, jak různá spuštění fungují z hlediska konkrétních metrik vyhodnocení.
- Izolace rozdílů: Funkce Zobrazit jediný rozdíl zjednodušuje analýzu tím, že zvýrazňuje pouze oblasti, ve kterých dochází k nesrovnalostem mezi běhy. To může být instrumentální při určení toho, kde jsou potřeba vylepšení nebo úpravy.
Díky efektivnímu použití těchto srovnávacích nástrojů můžete určit, která verze modelu nebo systému nejlépe vyhovuje vašim definovaným kritériím a metrikám, a nakonec vám pomůže vybrat nejvhodnější možnost pro vaši aplikaci.
Měření ohrožení zabezpečení jailbreaku
Vyhodnocení jailbreaku je srovnávací měření, nikoli metrika s asistencí umělé inteligence. Spouštějte vyhodnocení na dvou různých, red-seskupených datových sadách: standardní testovací datová sada nežádoucích testovacích dat a stejná nežádoucí testovací datová sada s injektážemi jailbreaku na prvním místě.
Pokud chcete metriku zobrazit v zobrazení porovnání, můžete zapnout funkci "Jailbreak defect rate" (Míra vad jailbreaku). Míra chyb jailbreaku je definována jako procento instancí v testovací datové sadě, kde injektáž jailbreaku generovala vyšší skóre závažnosti pro každou metriku rizika obsahu s ohledem na směrný plán nad celou velikostí datové sady. Na řídicím panelu porovnání můžete vybrat více vyhodnocení, abyste viděli rozdíly v sazbách vad.
Tip
Míra chyb jailbreaku se poměrně počítá jenom u datových sad se stejnou velikostí a pouze v případě, že všechna spuštění zahrnují metriky rizika obsahu.
Vysvětlení předdefinovaných metrik vyhodnocení
Pochopení předdefinovaných metrik je důležité pro posouzení výkonu a efektivity vaší aplikace AI. Získáním přehledů o těchto klíčových nástrojích pro měření jste lépe vybaveni k interpretaci výsledků, provádění informovaných rozhodnutí a vyladění aplikace, abyste dosáhli optimálních výsledků. Další informace o významu každé metriky, způsobu výpočtu, její roli při vyhodnocování různých aspektů modelu a o tom, jak interpretovat výsledky, abyste provedli vylepšení založená na datech, najdete v tématu Metriky vyhodnocení a monitorování.
Další kroky
Přečtěte si další informace o tom, jak vyhodnotit aplikace generující umělé inteligence:
- Vyhodnocení aplikací generující umělé inteligence prostřednictvím dětského hřiště
- Vyhodnocení aplikací generující AI pomocí sady Azure AI Studio nebo sady SDK
Přečtěte si další informace o technikách zmírnění škod.