Jak zobrazit výsledky vyhodnocení v Azure AI Studiu

Poznámka:

Azure AI Studio je aktuálně ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.

Stránka pro vyhodnocení azure AI Studia je univerzální centrum, které umožňuje nejen vizualizovat a vyhodnocovat výsledky, ale také slouží jako řídicí centrum pro optimalizaci, řešení potíží a výběr ideálního modelu AI pro vaše potřeby nasazení. Jedná se o jednostavové řešení pro rozhodování a zvýšení výkonu řízené daty ve vašich projektech AI. K výsledkům můžete bezproblémově přistupovat a interpretovat je z různých zdrojů, včetně toku, rychlé testovací relace dětského hřiště, uživatelského rozhraní pro odeslání vyhodnocení, generivní sady SDK a rozhraní příkazového řádku. Tato flexibilita zajišťuje, že budete moct pracovat s výsledky způsobem, který nejlépe vyhovuje vašemu pracovnímu postupu a preferencím.

Jakmile si vizualizujete výsledky vyhodnocení, můžete se ponořit do důkladného zkoumání. To zahrnuje možnost nejen zobrazit jednotlivé výsledky, ale také porovnat tyto výsledky napříč několika spuštěními vyhodnocení. Díky tomu můžete identifikovat trendy, vzory a nesrovnalosti a získat neocenitelné přehledy o výkonu systému AI za různých podmínek.

V tomto článku se naučíte:

  • Prohlédněte si výsledek vyhodnocení a metriky.
  • Porovnejte výsledky vyhodnocení.
  • Seznamte se s předdefinované metriky vyhodnocení.
  • Zvyšte výkon.
  • Prohlédněte si výsledky vyhodnocení a metriky.

Vyhledání výsledků vyhodnocení

Po odeslání vyhodnocení můžete v seznamu spuštění vyhledat odeslanou zkušební spuštění tak, že přejdete na stránku Vyhodnocení .

Testovací spuštění můžete monitorovat a spravovat v seznamu spuštění. Díky flexibilitě úprav sloupců pomocí editoru sloupců a implementaci filtrů můžete přizpůsobit a vytvořit vlastní verzi seznamu spuštění. Kromě toho můžete rychle zkontrolovat agregované metriky vyhodnocení napříč spuštěními, což vám umožní provádět rychlá porovnání.

Snímek obrazovky se seznamem zkušebních spuštění

Pokud chcete lépe pochopit, jak se metriky vyhodnocení odvozují, můžete získat přístup k komplexnímu vysvětlení výběrem možnosti "Vysvětlení dalších informací o metrikách". Tento podrobný prostředek poskytuje cenné přehledy o výpočtu a interpretaci metrik používaných v procesu vyhodnocení.

Snímek obrazovky s podrobnostmi metrik vyhodnocení

Můžete zvolit konkrétní spuštění, které vás převedou na stránku podrobností o spuštění. Tady můžete získat přístup k komplexním informacím, včetně podrobností vyhodnocení, jako je typ úkolu, výzva, teplota a další. Kromě toho můžete zobrazit metriky přidružené k jednotlivým vzorkům dat. Grafy skóre metrik poskytují vizuální znázornění způsobu distribuce skóre pro každou metriku v celé datové sadě.

V tabulce podrobností metrik můžete provést komplexní zkoumání každého jednotlivého vzorku dat. Tady máte možnost prověřovat vygenerovaný výstup i odpovídající skóre metrik vyhodnocení. Tato úroveň podrobností umožňuje provádět rozhodnutí řízená daty a provádět konkrétní akce ke zlepšení výkonu modelu.

Mezi potenciální položky akcí na základě metrik vyhodnocení patří:

  • Rozpoznávání vzorů: Filtrováním číselných hodnot a metrik můžete přejít k podrobnostem vzorků s nižším skóre. Prozkoumejte tyto ukázky a identifikujte opakované vzory nebo problémy v odpovědích modelu. Můžete si například všimnout, že nízké skóre často dochází, když model generuje obsah v určitém tématu.
  • Upřesnění modelu: Pomocí přehledů z ukázek s nižším skóre můžete vylepšit pokyny k příkazovému řádku systému nebo doladit model. Pokud pozorujete konzistentní problémy, například koherence nebo relevance, můžete také odpovídajícím způsobem upravit trénovací data nebo parametry modelu.
  • Přizpůsobení sloupce: Editor sloupců umožňuje vytvořit přizpůsobené zobrazení tabulky a zaměřit se na metriky a data, která jsou pro vaše cíle vyhodnocení nejrelevantnější. Díky tomu můžete zefektivnit analýzu a efektivněji odhalit trendy.
  • Hledání klíčových slov: Vyhledávací pole umožňuje hledat konkrétní slova nebo fráze ve vygenerovaném výstupu. To může být užitečné pro určení problémů nebo vzorů souvisejících s konkrétními tématy nebo klíčovými slovy a jejich řešení konkrétně.

Tabulka podrobností metrik nabízí řadu dat, která můžou vést úsilí o vylepšení modelu, od rozpoznávání vzorů až po přizpůsobení zobrazení pro efektivní analýzu a upřesnění modelu na základě zjištěných problémů.

Agregovaná zobrazení nebo metriky rozdělíme podlemetrik výkonu a kvality a rizika a bezpečnosti. Můžete zobrazit rozdělení skóre napříč vyhodnocenou datovou sadou a zobrazit agregované skóre pro každou metriku.

  • Pro metriky výkonu a kvality agregujeme výpočet průměru napříč všemi skóre pro každou metriku. Snímek obrazovky s kartou řídicího panelu metrik výkonu a kvality
  • U metrik rizik a bezpečnosti agregujeme na základě prahové hodnoty pro výpočet míry vad napříč všemi skóre pro každou metriku. Míra vad je definována jako procento instancí v testovací datové sadě, které překračují prahovou hodnotu v rozsahu závažnosti nad celou velikost datové sady.
    Snímek obrazovky s kartou řídicího panelu s rizikovými a bezpečnostními metrikami

Tady je několik příkladů výsledků metrik pro scénář odpovědi na otázky:

Snímek obrazovky s výsledky metrik pro scénář odpovídání na otázky

Tady je několik příkladů výsledků metrik pro scénář konverzace:

Snímek obrazovky s výsledky metrik pro scénář konverzace

Pro metriky rizika a bezpečnosti poskytuje vyhodnocení skóre závažnosti a odůvodnění pro každé skóre. Tady je několik příkladů výsledků metrik rizik a bezpečnosti pro scénář odpovědi na otázky:

Snímek obrazovky s výsledky metrik rizik a bezpečnosti pro scénář odpovědi na otázky

Výsledky vyhodnocení můžou mít různé významy pro různé cílové skupiny. Například vyhodnocení bezpečnosti může vygenerovat popisek závažnosti "Nízká" závažnost násilného obsahu, který nemusí odpovídat definici konkrétního násilného obsahu revidujícímu člověku. Při kontrole výsledků vyhodnocení poskytujeme sloupec zpětné vazby člověka s palcem nahoru a palcem dolů, abychom zjistili, které instance byly schváleny nebo označeny jako nesprávné od kontrolorem.

Snímek obrazovky s výsledky metrik rizik a bezpečnosti s lidskou zpětnou vazbou

Při pochopení jednotlivých metrik rizik obsahu můžete snadno zobrazit každou definici metriky a měřítko závažnosti výběrem názvu metriky nad grafem a zobrazit podrobné vysvětlení v automaticky otevíraném okně.

Snímek obrazovky s podrobným vysvětlením rizikových a bezpečnostních metrik

Pokud se spuštění něco nepovedlo, můžete také ladit zkušební spuštění pomocí protokolu a trasování.

Tady je několik příkladů protokolů, které můžete použít k ladění zkušebního spuštění:

Snímek obrazovky s protokoly, které můžete použít k ladění zkušebního spuštění

Tady je příklad trasování:

Snímek obrazovky s trasování, které můžete použít k ladění zkušebního spuštění

Pokud chcete získat další informace o vytváření výsledků vyhodnocení, vyberte tlačítko Zobrazit v toku a přejděte na stránku toku propojenou se spuštěním vyhodnocení.

Snímek obrazovky s diagramem toku vyhodnocení

Porovnání výsledků vyhodnocení

Pokud chcete usnadnit komplexní porovnání mezi dvěma nebo více spuštěními, máte možnost vybrat požadovaná spuštění a zahájit proces tak, že vyberete tlačítko Porovnat, nebo u obecného podrobného zobrazení řídicího panelu se zobrazí tlačítko Přepnout na zobrazení řídicího panelu. Tato funkce umožňuje analyzovat a kontrastovat výkon a výsledky více spuštění, což umožňuje informovanější rozhodování a cílená vylepšení.

Snímek obrazovky s možností porovnání vyhodnocení

V zobrazení řídicího panelu máte přístup ke dvěma cenným komponentám: srovnávacímu grafu rozdělení metrik a srovnávací tabulce. Tyto nástroje umožňují provádět souběžnou analýzu vybraných spuštění vyhodnocení, což vám umožní snadno a přesně porovnat různé aspekty jednotlivých vzorků dat.

Snímek obrazovky se stránkou vyhodnocení metrik s možností vybrat ruční vyhodnocení

V tabulce porovnání máte možnost vytvořit směrný plán pro porovnání tak, že najedete myší na konkrétní spuštění, které chcete použít jako referenční bod a nastavíte jako směrný plán. Navíc aktivací přepínače Zobrazit rozdíl můžete snadno vizualizovat rozdíly mezi spuštěním směrného plánu a ostatními běhy pro číselné hodnoty. Kromě toho s povoleným přepínačem Zobrazit pouze rozdíl zobrazí tabulka pouze řádky, které se liší mezi vybranými spuštěními, a pomáhá tak identifikaci různých variant.

Pomocí těchto funkcí porovnání můžete informovaně rozhodnout, že vyberete nejlepší verzi:

  • Porovnání směrného plánu: Nastavením běhu podle směrného plánu můžete identifikovat referenční bod, proti kterému chcete porovnat ostatní spuštění. To vám umožní zjistit, jak se jednotlivé běhy liší od zvoleného standardu.
  • Posouzení číselných hodnot: Povolení možnosti Zobrazit rozdíl vám pomůže pochopit rozsah rozdílů mezi směrným plánem a dalšími spuštěními. To je užitečné při vyhodnocování toho, jak různá spuštění fungují z hlediska konkrétních metrik vyhodnocení.
  • Izolace rozdílů: Funkce Zobrazit jediný rozdíl zjednodušuje analýzu tím, že zvýrazňuje pouze oblasti, ve kterých dochází k nesrovnalostem mezi běhy. To může být instrumentální při určení toho, kde jsou potřeba vylepšení nebo úpravy.

Díky efektivnímu použití těchto srovnávacích nástrojů můžete určit, která verze modelu nebo systému nejlépe vyhovuje vašim definovaným kritériím a metrikám, a nakonec vám pomůže vybrat nejvhodnější možnost pro vaši aplikaci.

Snímek obrazovky se souběžnými výsledky vyhodnocení

Měření ohrožení zabezpečení jailbreaku

Vyhodnocení jailbreaku je srovnávací měření, nikoli metrika s asistencí umělé inteligence. Spouštějte vyhodnocení na dvou různých, red-seskupených datových sadách: standardní testovací datová sada nežádoucích testovacích dat a stejná nežádoucí testovací datová sada s injektážemi jailbreaku na prvním místě.

Pokud chcete metriku zobrazit v zobrazení porovnání, můžete zapnout funkci "Jailbreak defect rate" (Míra vad jailbreaku). Míra chyb jailbreaku je definována jako procento instancí v testovací datové sadě, kde injektáž jailbreaku generovala vyšší skóre závažnosti pro každou metriku rizika obsahu s ohledem na směrný plán nad celou velikostí datové sady. Na řídicím panelu porovnání můžete vybrat více vyhodnocení, abyste viděli rozdíly v sazbách vad.

Snímek obrazovky se souběžnými výsledky vyhodnocení s zapnutou chybou jailbreaku

Tip

Míra chyb jailbreaku se poměrně počítá jenom u datových sad se stejnou velikostí a pouze v případě, že všechna spuštění zahrnují metriky rizika obsahu.

Vysvětlení předdefinovaných metrik vyhodnocení

Pochopení předdefinovaných metrik je důležité pro posouzení výkonu a efektivity vaší aplikace AI. Získáním přehledů o těchto klíčových nástrojích pro měření jste lépe vybaveni k interpretaci výsledků, provádění informovaných rozhodnutí a vyladění aplikace, abyste dosáhli optimálních výsledků. Další informace o významu každé metriky, způsobu výpočtu, její roli při vyhodnocování různých aspektů modelu a o tom, jak interpretovat výsledky, abyste provedli vylepšení založená na datech, najdete v tématu Metriky vyhodnocení a monitorování.

Další kroky

Přečtěte si další informace o tom, jak vyhodnotit aplikace generující umělé inteligence:

Přečtěte si další informace o technikách zmírnění škod.