Vyhodnocení aplikací generativní AI
Důležité
Položky označené (Preview) v tomto článku jsou aktuálně ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.
Pokroky v jazykových modelech, jako je GPT-4 prostřednictvím služby Azure OpenAI Service, nabízejí skvělé přísliby při řešení výzev souvisejících s zodpovědnou AI. Pokud nejsou navrženy pečlivě, systémy založené na těchto modelech mohou vést k zachování stávajících společenských předsudků, propagaci mstimulování, vytváření manipulativního obsahu nebo vést k široké škále dalších negativních dopadů. Řešení těchto rizik při maximalizaci výhod pro uživatele je možné iterativním přístupem ve čtyřech fázích: identifikovat, měřit a zmírnit provoz.
Fáze měření poskytuje zásadní informace pro vývoj řízení směrem ke kvalitě a bezpečnosti. Na jedné straně to zahrnuje vyhodnocení výkonu a kvality. Na druhou stranu při vyhodnocování rizik a bezpečnosti to zahrnuje vyhodnocení rizika a bezpečnosti systému AI směrem k různým rizikům (každá z nich může mít různé závažnosti). V obou případech toho dosáhnete stanovením jasných metrik, vytvořením testovacích sad a dokončením iterativního a systematického testování. Tato fáze měření poskytuje odborníkům signály, které informují cílené kroky pro zmírnění rizik, jako je příprava výzvy a použití filtrů obsahu. Jakmile se použijí zmírnění rizik, můžete vyhodnocení opakovat a otestovat efektivitu.
Azure AI Studio poskytuje odborníkům nástroje pro ruční a automatizované vyhodnocení, které vám můžou pomoct s fází měření. Doporučujeme začít ručním vyhodnocením a pak pokračovat k automatizovanému vyhodnocení. Ruční vyhodnocení, to znamená ruční kontrola generovaných výstupů aplikace, je užitečné ke sledování průběhu u malé sady problémů s prioritou. Při zmírnění konkrétních rizik je často nejproduktivnější udržovat ruční kontrolu průběhu u malé datové sady, dokud se před přechodem na automatizované vyhodnocení nepozorují důkazy o rizicích. Azure AI Studio podporuje ruční zkušební prostředí pro kontrolu malých datových sad.
Automatizované hodnocení je užitečné pro měření kvality a bezpečnosti ve velkém měřítku se zvýšeným pokrytím, aby poskytovalo komplexnější výsledky. Automatizované nástroje pro vyhodnocení také umožňují průběžné hodnocení, která se pravidelně spouštějí pro monitorování regrese při vývoji systému, využití a zmírnění rizik. Podporujeme dvě hlavní metody automatizovaného vyhodnocování aplikací generující umělé inteligence: tradiční vyhodnocení strojového učení a hodnocení s asistencí umělé inteligence.
Měření tradičního strojového učení
V kontextu generování umělé inteligence jsou tradiční vyhodnocení strojového učení (vytváření tradičních metrik strojového učení) užitečné, když chceme kvantifikovat přesnost vygenerovaných výstupů v porovnání s očekávanými odpověďmi. Tradiční metriky jsou užitečné, když má přístup k základní pravdu a očekávané odpovědi.
- Základní pravda odkazuje na data, u které věříme, že jsou pravdivá, a proto se používá jako základ pro porovnání.
- Očekávané odpovědi jsou výsledky, kterým věříme, že by měly nastat na základě našich podkladových údajů o pravdivých datech. Například v úkolech, jako je klasifikace nebo odpověď na krátkou podobu, kde je obvykle jedna správná nebo očekávaná odpověď, skóre F1 nebo podobné tradiční metriky se dají použít k měření přesnosti a úplnosti vygenerovaných výstupů proti očekávaným odpovědím.
Tradiční metriky jsou užitečné také v případě, že chceme pochopit, kolik vygenerovaných výstupů se regrese snižuje, tj. odchyluje se od očekávaných odpovědí. Poskytují kvantitativní míru chyb nebo odchylek, což nám umožňuje sledovat výkon systému v průběhu času nebo porovnávat výkon různých systémů. Tyto metriky ale mohou být méně vhodné pro úlohy, které zahrnují kreativitu, nejednoznačnost nebo více správných řešení, protože tyto metriky obvykle zachází s libovolnou odchylkou od očekávané odpovědi jako s chybou.
Hodnocení s asistencí umělé inteligence
Velké jazykové modely (LLM), jako je GPT-4, se dají použít k vyhodnocení výstupu systémů generujícího jazyka AI. Toho dosáhnete tak, že dáme LLM pokyn k přidání poznámek k určitým aspektům výstupu generovaného AI. Můžete například poskytnout GPT-4 se závažností závažnosti relevance (například zadat kritéria pro poznámku k relevance ve škále 1–5) a pak požádat GPT-4 o přidání poznámek k odpovědi systému AI na danou otázku.
Hodnocení s asistencí umělé inteligence můžou být přínosná ve scénářích, kdy nejsou k dispozici základní pravdy a očekávané odpovědi. V mnoha generativních scénářích umělé inteligence, jako je například odpovědi na otázky s otevřeným koncem nebo kreativní psaní, neexistují jediné správné odpovědi, což ztěžuje stanovení základní pravdy nebo očekávaných odpovědí, které jsou nezbytné pro tradiční metriky.
V těchto případech mohou hodnocení s asistencí umělé inteligence pomoct měřit důležité koncepty, jako je kvalita a bezpečnost vygenerovaných výstupů. Zde kvalita odkazuje na atributy výkonu a kvality, jako je relevance, soudržnost, plynulost a uzemnění. Bezpečnost se týká rizik a bezpečnostních atributů, jako je přítomnost škodlivého obsahu (rizika obsahu).
Pro každý z těchto atributů se k vytvoření pokynů a závažnosti LLM vyžaduje pečlivé koncepční a experimentování. Někdy se tyto atributy týkají složitých sociotechnických konceptů, které mohou různí lidé zobrazit odlišně. Proto je důležité, aby pokyny k poznámce LLM byly vytvořeny tak, aby představovaly dohodnutou konkrétní definici atributu. Poté je podobně důležité zajistit, aby LLM použil pokyny způsobem, který je konzistentní s lidskými experty anotátory.
Když dáte LLM pokyn k přidání poznámek k těmto atributům, můžete vytvořit metriku pro to, jak dobře funguje generující aplikace AI, i když neexistuje jediná správná odpověď. Hodnocení s asistencí umělé inteligence poskytují flexibilní a nuancovaný způsob vyhodnocování generovaných aplikací umělé inteligence, zejména v úlohách, které zahrnují kreativitu, nejednoznačnost nebo několik správných řešení. Spolehlivost a platnost těchto hodnocení však závisí na kvalitě LLM a na pokynech, které mu byly poskytnuty.
Metriky výkonu a kvality s asistencí umělé inteligence
Ke spuštění hodnocení výkonu a kvality s asistencí umělé inteligence se llM může využít pro dvě samostatné funkce. Nejprve se musí vytvořit testovací datová sada. Můžete ho vytvořit ručně tak, že zvolíte výzvy a zachytíte odpovědi ze systému AI nebo ho můžete vytvořit synteticky simulací interakcí mezi systémem AI a LLM (v následujícím diagramu se označuje jako generátor datových sad s asistencí AI). Pak se LLM používá také k přidávání poznámek k výstupům systému AI v testovací sadě. Poznámky se nakonec agregují do metrik výkonu a kvality a zaprotokolují se do projektu AI Studia pro zobrazení a analýzu.
Poznámka:
V současné době podporujeme GPT-4 a GPT-3 jako modely pro hodnocení s asistencí AI. Pokud chcete tyto modely použít pro vyhodnocení, musíte navázat platná připojení. Upozorňujeme, že důrazně doporučujeme používat GPT-4, protože nabízí významná vylepšení v kontextuální porozumění a dodržování pokynů.
Metriky rizika a bezpečnosti asistované umělé inteligence
Jednou z aplikací hodnocení kvality a výkonu s asistencí umělé inteligence je vytvoření metrik rizika a bezpečnosti asistované umělé inteligence. Pokud chcete vytvořit metriky rizika a bezpečnosti asistované umělé inteligence, zřídí bezpečnostní vyhodnocení Azure AI Studio model GPT-4 Azure OpenAI, který je hostovaný v back-endové službě, a pak orchestruje každý ze dvou kroků závislých na LLM:
Simulace nežádoucích interakcí se systémem generující umělé inteligence:
Vygenerujte vysoce kvalitní testovací datovou sadu vstupů a odpovědí simulací výměn s jedním otočením nebo vícenásobné výměny s průvodcem výzvami, které jsou cílem generování škodlivých odpovědí.
Přidávání poznámek k testovací datové sadě pro rizika obsahu nebo zabezpečení:
Každou interakci z testovací datové sady můžete komentovat závažností a odůvodněním odvozenou z rozsahu závažnosti definovaného pro každý typ obsahu a bezpečnostních rizik.
Vzhledem k tomu, že zřízené modely GPT-4 fungují jako nežádoucí generátor datových sad nebo anotátor, jsou jejich bezpečnostní filtry vypnuté a modely jsou hostované v back-endové službě. Výzvy používané pro tyto LLM a cílové datové sady nežádoucích výzev jsou také hostovány ve službě. Vzhledem k citlivé povaze vygenerovaného a předávaného obsahu prostřednictvím LLM nejsou modely a datové prostředky přímo přístupné zákazníkům Azure AI Studia.
Nežádoucí cílené datové sady výzvy byly vyvinuty výzkumníky Microsoftu, aplikovanými vědci, lingvisty a odborníky na zabezpečení, které uživatelům pomůžou začít vyhodnocovat obsah a bezpečnostní rizika v generivních systémech AI.
Pokud už máte testovací datovou sadu se vstupními výzvami a odpověďmi systému AI (například záznamy z red-seskupování), můžete tuto datovou sadu předat přímo, aby ji vyhodnocoval rizika obsahu. Bezpečnostní hodnocení můžou pomoct rozšířit a urychlit ruční seskupování tím, že umožní červeným týmům generovat a automatizovat nežádoucí výzvy ve velkém měřítku. Hodnocení s asistencí umělé inteligence však nejsou navržena tak, aby nahradila lidské hodnocení ani poskytovala komplexní pokrytí všech možných rizik.
Vyhodnocení ohrožení zabezpečení jailbreaku
Na rozdíl od rizik v obsahu nejde ohrožení zabezpečení jailbreaku spolehlivě měřit pomocí přímé poznámky LLM. Ohrožení zabezpečení jailbreaku se ale dá měřit porovnáním dvou paralelních testovacích datových sad: standardní testovací datová sada nežádoucích testovacích dat a stejná nežádoucí testovací datová sada s injektážemi jailbreaku v první řadě. Každá datová sada může být opatřena poznámkami vyhodnocovačem rizik obsahu s asistencí umělé inteligence, která pro každou z nich vytváří míru chyb rizika obsahu. Pak uživatel vyhodnotí ohrožení zabezpečení jailbreaku porovnáním sazeb vad a tím, že si povede případy, kdy datová sada jailbreaku vedla k chybám větší nebo vyšší závažnosti. Pokud je například instance v těchto paralelních testovacích datových sadách označená jako vážnější pro verzi pomocí injektáže jailbreaku, bude tato instance považována za vadu jailbreaku.
Další informace o podporovanýchtypech
Vyhodnocení a monitorování aplikací generující umělé inteligence
Azure AI Studio podporuje několik různých způsobů, jak generovat vývojáře aplikací AI k vyhodnocení aplikací:
Dětské hřiště: V první cestě můžete začít zapojením do prostředí "dětského hřiště". Tady máte možnost vybrat data, která chcete použít k uzemnění modelu, zvolit základní model pro aplikaci a poskytnout pokyny pro metaprompt pro vodítko chování modelu. Aplikaci pak můžete ručně vyhodnotit předáním datové sady a sledováním odpovědí aplikace. Po dokončení ruční kontroly se můžete rozhodnout použít průvodce vyhodnocením k provádění komplexnějších hodnocení, a to buď prostřednictvím tradičních metrik, nebo hodnocení s asistencí umělé inteligence.
Toky: Stránka toku Azure AI Studio Prompt nabízí vyhrazený vývojový nástroj přizpůsobený pro zjednodušení celého životního cyklu aplikací umělé inteligence využívajících LLM. Pomocí této cesty můžete vytvářet spustitelné toky, které propojují LLM, výzvy a nástroje Pythonu prostřednictvím vizualizovaného grafu. Tato funkce zjednodušuje ladění, sdílení a iterace toků pro spolupráci. Kromě toho můžete vytvářet varianty výzvy a vyhodnocovat jejich výkon prostřednictvím rozsáhlého testování.
Kromě vývojového nástroje Flow máte také možnost vyvíjet aplikace generující AI pomocí prostředí sady SDK pro první kód. Bez ohledu na zvolenou cestu vývoje můžete vytvořené toky vyhodnotit pomocí průvodce vyhodnocením, který je přístupný z karty Toky, nebo prostřednictvím prostředí sady SDK nebo rozhraní příkazového řádku. Na kartě Toky máte dokonce flexibilitu používat přizpůsobeného průvodce vyhodnocením a začlenit vlastní metriky.Přímé vyhodnocení datové sady: Pokud jste shromáždili datovou sadu obsahující interakce mezi vaší aplikací a koncovými uživateli, můžete tato data odeslat přímo do průvodce vyhodnocením na kartě Vyhodnocení. Tento proces umožňuje generování automatických hodnocení s asistencí umělé inteligence a výsledky je možné vizualizovat na stejné kartě. Tento přístup se zaměřuje na metodu vyhodnocení zaměřenou na data. Alternativně máte možnost vyhodnotit datovou sadu konverzací pomocí sady SDK/CLI a vygenerovat a vizualizovat vyhodnocení prostřednictvím sady Azure AI Studio.
Po posouzení aplikací, toků nebo dat z libovolného z těchto kanálů můžete pokračovat nasazením generující aplikace AI a sledovat její kvalitu a bezpečnost v produkčním prostředí, protože se zabývá novými interakcemi s uživateli.