Jak zobrazit výsledky vyhodnocení v Azure AI Studiu

Článek
09/25/2024

Důležité

Položky označené (Preview) v tomto článku jsou aktuálně ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.

Stránka pro vyhodnocení azure AI Studia je univerzální centrum, které umožňuje nejen vizualizovat a vyhodnocovat výsledky, ale také slouží jako řídicí centrum pro optimalizaci, řešení potíží a výběr ideálního modelu AI pro vaše potřeby nasazení. Jedná se o jednostavové řešení pro rozhodování a zvýšení výkonu řízené daty v projektech AI Studio. K výsledkům můžete bezproblémově přistupovat a interpretovat je z různých zdrojů, včetně toku, rychlé testovací relace dětského hřiště, uživatelského rozhraní pro odeslání vyhodnocení a sady SDK. Tato flexibilita zajišťuje, že budete moct pracovat s výsledky způsobem, který nejlépe vyhovuje vašemu pracovnímu postupu a preferencím.

Jakmile si vizualizujete výsledky vyhodnocení, můžete se ponořit do důkladného zkoumání. To zahrnuje možnost nejen zobrazit jednotlivé výsledky, ale také porovnat tyto výsledky napříč několika spuštěními vyhodnocení. Díky tomu můžete identifikovat trendy, vzory a nesrovnalosti a získat neocenitelné přehledy o výkonu systému AI za různých podmínek.

V tomto článku se naučíte:

Prohlédněte si výsledek vyhodnocení a metriky.
Porovnejte výsledky vyhodnocení.
Seznamte se s předdefinované metriky vyhodnocení.
Zvyšte výkon.
Prohlédněte si výsledky vyhodnocení a metriky.

Vyhledání výsledků vyhodnocení

Po odeslání vyhodnocení můžete v seznamu spuštění vyhledat odeslanou zkušební spuštění tak, že přejdete na stránku Vyhodnocení .

Testovací spuštění můžete monitorovat a spravovat v seznamu spuštění. Díky flexibilitě úprav sloupců pomocí editoru sloupců a implementaci filtrů můžete přizpůsobit a vytvořit vlastní verzi seznamu spuštění. Kromě toho můžete rychle zkontrolovat agregované metriky vyhodnocení napříč spuštěními, což vám umožní provádět rychlá porovnání.

Pokud chcete lépe pochopit, jak se metriky vyhodnocení odvozují, můžete získat přístup k komplexnímu vysvětlení výběrem možnosti "Vysvětlení dalších informací o metrikách". Tento podrobný prostředek poskytuje cenné přehledy o výpočtu a interpretaci metrik používaných v procesu vyhodnocení.

Můžete zvolit konkrétní spuštění, které vás převedou na stránku podrobností o spuštění. Tady můžete získat přístup k komplexním informacím, včetně podrobností vyhodnocení, jako jsou testovací datová sada, typ úkolu, výzva, teplota a další. Kromě toho můžete zobrazit metriky přidružené k jednotlivým vzorkům dat. Grafy skóre metrik poskytují vizuální znázornění způsobu distribuce skóre pro každou metriku v celé datové sadě.

V tabulce podrobností metrik můžete provést komplexní zkoumání každého jednotlivého vzorku dat. Tady můžete prověřovat vygenerovaný výstup a odpovídající skóre metrik vyhodnocení. Tato úroveň podrobností umožňuje provádět rozhodnutí řízená daty a provádět konkrétní akce ke zlepšení výkonu modelu.

Mezi potenciální položky akcí na základě metrik vyhodnocení patří:

Rozpoznávání vzorů: Filtrováním číselných hodnot a metrik můžete přejít k podrobnostem vzorků s nižším skóre. Prozkoumejte tyto ukázky a identifikujte opakované vzory nebo problémy v odpovědích modelu. Můžete si například všimnout, že nízké skóre často dochází, když model generuje obsah v určitém tématu.
Upřesnění modelu: Pomocí přehledů z ukázek s nižším skóre můžete vylepšit pokyny k příkazovému řádku systému nebo doladit model. Pokud pozorujete konzistentní problémy, například koherence nebo relevance, můžete také odpovídajícím způsobem upravit trénovací data nebo parametry modelu.
Přizpůsobení sloupce: Editor sloupců umožňuje vytvořit přizpůsobené zobrazení tabulky a zaměřit se na metriky a data, která jsou pro vaše cíle vyhodnocení nejrelevantnější. Díky tomu můžete zefektivnit analýzu a efektivněji odhalit trendy.
Hledání klíčových slov: Vyhledávací pole umožňuje hledat konkrétní slova nebo fráze ve vygenerovaném výstupu. To může být užitečné pro určení problémů nebo vzorů souvisejících s konkrétními tématy nebo klíčovými slovy a jejich řešení konkrétně.

Tabulka podrobností metrik nabízí řadu dat, která můžou vést úsilí o vylepšení modelu, od rozpoznávání vzorů až po přizpůsobení zobrazení pro efektivní analýzu a upřesnění modelu na základě zjištěných problémů.

Agregovaná zobrazení nebo metriky rozdělíme podle metrik výkonu a kvality a rizika a bezpečnosti. Můžete zobrazit rozdělení skóre napříč vyhodnocenou datovou sadou a zobrazit agregované skóre pro každou metriku.

Pro metriky výkonu a kvality agregujeme výpočet průměru napříč všemi skóre pro každou metriku.
Pro metriky rizik a bezpečnosti agregujeme výpočetem míry vad pro každou metriku.
- U metrik poškození obsahu se míra vad definuje jako procento instancí ve vaší testovací datové sadě, které překračují prahovou hodnotu v rozsahu závažnosti nad celou velikost datové sady. Ve výchozím nastavení je prahová hodnota Střední.
- U chráněného materiálu a nepřímého útoku se sazba vad vypočítá jako procento instancí, kde je výstup true (Defect Rate = (#trues / #instances) × 100).

Tady je několik příkladů výsledků metrik pro scénář odpovědi na otázky:

Tady je několik příkladů výsledků metrik pro scénář konverzace:

U scénáře s více konverzacemi můžete vybrat Možnost Zobrazit výsledky vyhodnocení na turnu a zkontrolovat metriky vyhodnocení jednotlivých konverzací.

Pro metriky rizika a bezpečnosti poskytuje vyhodnocení skóre závažnosti a odůvodnění pro každé skóre. Tady je několik příkladů výsledků metrik rizik a bezpečnosti pro scénář odpovědi na otázky:

Výsledky vyhodnocení můžou mít různé významy pro různé cílové skupiny. Například vyhodnocení bezpečnosti může generovat popisek pro "nízkou" závažnost násilného obsahu, který nemusí odpovídat definici lidského revidujícímu, jak závažný může být konkrétní násilné obsah. Při kontrole výsledků vyhodnocení poskytujeme sloupec zpětné vazby člověka s palcem nahoru a palcem dolů, abychom zjistili, které instance byly schváleny nebo označeny jako nesprávné od kontrolorem.

Při pochopení jednotlivých metrik rizika obsahu můžete snadno zobrazit každou definici metriky a měřítko závažnosti tak, že vyberete název metriky nad grafem a zobrazíte podrobné vysvětlení v automaticky otevíraném okně.

Pokud se spuštění něco nepovedlo, můžete také ladit zkušební spuštění pomocí protokolu a trasování.

Tady je několik příkladů protokolů, které můžete použít k ladění zkušebního spuštění:

Tady je příklad zobrazení trasování a ladění:

Pokud vyhodnocujete tok výzvy, můžete výběrem tlačítka Zobrazit v toku přejít na stránku vyhodnoceného toku a aktualizovat tok. Můžete například přidat další instrukci meta příkazového řádku nebo změnit některé parametry a znovu vyhodnotit.

Porovnání výsledků vyhodnocení

Pokud chcete usnadnit komplexní porovnání mezi dvěma nebo více spuštěními, máte možnost vybrat požadovaná spuštění a zahájit proces tak, že vyberete tlačítko Porovnat nebo v případě obecného podrobného zobrazení řídicího panelu tlačítko Přepnout na zobrazení řídicího panelu. Tato funkce umožňuje analyzovat a kontrastovat výkon a výsledky více spuštění, což umožňuje informovanější rozhodování a cílená vylepšení.

V zobrazení řídicího panelu máte přístup ke dvěma cenným komponentám: srovnávacímu grafu rozdělení metrik a srovnávací tabulce. Tyto nástroje umožňují provádět souběžnou analýzu vybraných spuštění vyhodnocení, což vám umožní snadno a přesně porovnat různé aspekty jednotlivých vzorků dat.

V tabulce porovnání máte možnost vytvořit směrný plán pro porovnání tak, že najedete myší na konkrétní spuštění, které chcete použít jako referenční bod a nastavíte jako směrný plán. Navíc aktivací přepínače Zobrazit rozdíl můžete snadno vizualizovat rozdíly mezi spuštěním směrného plánu a ostatními běhy pro číselné hodnoty. Kromě toho s povoleným přepínačem Zobrazit pouze rozdíl zobrazí tabulka pouze řádky, které se liší mezi vybranými spuštěními, a pomáhá tak identifikaci různých variant.

Pomocí těchto funkcí porovnání můžete informovaně rozhodnout, že vyberete nejlepší verzi:

Porovnání směrného plánu: Nastavením běhu podle směrného plánu můžete identifikovat referenční bod, proti kterému chcete porovnat ostatní spuštění. To vám umožní zjistit, jak se jednotlivé běhy liší od zvoleného standardu.
Posouzení číselných hodnot: Povolení možnosti Zobrazit rozdíl vám pomůže pochopit rozsah rozdílů mezi směrným plánem a dalšími spuštěními. To je užitečné při vyhodnocování toho, jak různá spuštění fungují z hlediska konkrétních metrik vyhodnocení.
Izolace rozdílů: Funkce Zobrazit jediný rozdíl zjednodušuje analýzu tím, že zvýrazňuje pouze oblasti, ve kterých dochází k nesrovnalostem mezi běhy. To může být instrumentální při určení toho, kde jsou potřeba vylepšení nebo úpravy.

Díky efektivnímu použití těchto srovnávacích nástrojů můžete určit, která verze modelu nebo systému nejlépe vyhovuje vašim definovaným kritériím a metrikám, a nakonec vám pomůže vybrat nejvhodnější možnost pro vaši aplikaci.

Měření ohrožení zabezpečení jailbreaku

Vyhodnocení jailbreaku je srovnávací měření, nikoli metrika s asistencí umělé inteligence. Spouštějte vyhodnocení na dvou různých, red-seskupených datových sadách: standardní testovací datová sada nežádoucích testovacích dat a stejná nežádoucí testovací datová sada s injektážemi jailbreaku na prvním místě. Simulátor nežádoucích dat můžete použít k vygenerování datové sady s injektážemi jailbreaku nebo bez injektáže jailbreaku.

Pokud chcete zjistit, jestli je vaše aplikace zranitelná vůči jailbreaku, můžete určit, který směrný plán je, a zapnout přepínač "Jailbreak defect rates" (Sazby chyb jailbreaku) v tabulce porovnání. Míra chyb jailbreaku je definována jako procento instancí v testovací datové sadě, kde injektáž jailbreaku generovala vyšší skóre závažnosti pro každou metriku rizika obsahu s ohledem na směrný plán nad celou velikostí datové sady. Na řídicím panelu porovnání můžete vybrat více vyhodnocení, abyste viděli rozdíly v sazbách vad.

Tip

Míra chyb jailbreaku se poměrně počítá jenom u datových sad se stejnou velikostí a pouze v případě, že všechna spuštění zahrnují rizika obsahu a bezpečnostní metriky.

Vysvětlení předdefinovaných metrik vyhodnocení

Pochopení předdefinovaných metrik je důležité pro posouzení výkonu a efektivity vaší aplikace AI. Získáním přehledů o těchto klíčových nástrojích pro měření jste lépe vybaveni k interpretaci výsledků, provádění informovaných rozhodnutí a vyladění aplikace, abyste dosáhli optimálních výsledků. Další informace o významu každé metriky, způsobu výpočtu, její roli při vyhodnocování různých aspektů modelu a o tom, jak interpretovat výsledky, abyste provedli vylepšení založená na datech, najdete v tématu Metriky vyhodnocení a monitorování.

Další kroky

Přečtěte si další informace o tom, jak vyhodnotit aplikace generující umělé inteligence:

Přečtěte si další informace o technikách zmírnění škod.

Sdílet prostřednictvím