Jak vyhodnotit generování aplikací AI pomocí azure AI Studia

Článek
09/25/2024

Důležité

Položky označené (Preview) v tomto článku jsou aktuálně ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.

Pokud chcete důkladně posoudit výkon generující aplikace AI při použití na podstatnou datovou sadu, můžete zahájit proces vyhodnocení. Během tohoto vyhodnocení se vaše aplikace testuje s danou datovou sadou a její výkon se bude kvantitativní měřit pomocí matematických metrik i metrik s asistencí umělé inteligence. Tato zkušební spuštění poskytuje komplexní přehled o možnostech a omezeních aplikace.

K provedení tohoto vyhodnocení můžete využít funkce vyhodnocení v Azure AI Studiu, komplexní platformu, která nabízí nástroje a funkce pro posouzení výkonu a bezpečnosti vašeho generujícího modelu AI. V AI Studiu můžete protokolovat, zobrazovat a analyzovat podrobné metriky vyhodnocení.

V tomto článku se naučíte vytvořit zkušební běh z testovací datové sady nebo toku s integrovanými metrikami vyhodnocení z uživatelského rozhraní Azure AI Studio. Pokud chcete větší flexibilitu, můžete vytvořit vlastní tok vyhodnocení a použít vlastní funkci vyhodnocení . Pokud je vaším cílem provést dávkové spuštění pouze bez vyhodnocení, můžete také využít vlastní funkci vyhodnocení.

Požadavky

Pokud chcete spustit vyhodnocení s metrikami s asistencí AI, musíte mít následující připravené:

Testovací datová sada v jednom z těchto formátů: csv nebo jsonl.
Připojení Azure OpenAI
Nasazení jednoho z těchto modelů: modely GPT 3.5, modely GPT 4 nebo Modely Davinci.

Vytvoření vyhodnocení s využitím předdefinovaných metrik vyhodnocení

Spuštění vyhodnocení umožňuje generovat výstupy metrik pro každý řádek dat v testovací datové sadě. Můžete zvolit jednu nebo více metrik vyhodnocení, abyste mohli vyhodnotit výstup z různých aspektů. Zkušební spuštění můžete vytvořit ze stránek vyhodnocení a zobrazit výzvy na stránkách toku v AI Studiu. Pak se zobrazí průvodce vytvořením vyhodnocení, který vás provede procesem nastavení zkušebního spuštění.

Na stránce vyhodnocení

V levé sbalitelné nabídce vyberte Vyhodnocení>+ Nové vyhodnocení.

Ze stránky toku

V levé sbalitelné nabídce vyberte PříkazOvý tok>Vyhodnocení>integrovaného vyhodnocení.

Základní informace

Když začnete vyhodnocení ze stránky vyhodnocení, musíte nejprve rozhodnout, jaký je cíl vyhodnocení. Zadáním vhodného cíle vyhodnocení můžeme hodnocení přizpůsobit konkrétní povaze vaší aplikace a zajistit přesné a relevantní metriky. V současné době podporujeme dva typy cíle hodnocení:

Datová sada: V testovací datové sadě už máte vygenerované výstupy modelu. Tok výzvy: Vytvořili jste tok a chcete vyhodnotit výstup z toku.

Když zadáte průvodce vytvořením vyhodnocení, můžete zadat volitelný název spuštění vyhodnocení a vybrat scénář, který nejlépe odpovídá cílům vaší aplikace. V současné době nabízíme podporu pro následující scénáře:

Otázka a odpověď s kontextem: Tento scénář je určený pro aplikace, které zahrnují odpovídání na dotazy uživatelů a poskytování odpovědí s kontextovými informacemi.
Otázka a odpověď bez kontextu: Tento scénář je určený pro aplikace, které zahrnují odpovědi na dotazy uživatelů a odpovědi bez kontextu.

Pomocí panelu nápovědy můžete zkontrolovat nejčastější dotazy a projít si průvodce.

Pokud vyhodnocujete tok výzvy, můžete vybrat tok, který chcete vyhodnotit. Pokud zahájíte vyhodnocení ze stránky Flow, automaticky vybereme váš tok, který se má vyhodnotit. Pokud máte v úmyslu vyhodnotit jiný tok, můžete vybrat jiný tok. Je důležité si uvědomit, že v rámci toku můžete mít více uzlů, z nichž každá může mít vlastní sadu variant. V takových případech musíte určit uzel a varianty, které chcete vyhodnotit během procesu vyhodnocení.

Konfigurace testovacích dat

Můžete vybrat z existujících datových sad nebo nahrát novou datovou sadu, která se má vyhodnotit. Testovací datová sada musí mít vygenerované výstupy modelu, které se mají použít k vyhodnocení, pokud v předchozím kroku není vybraný žádný tok.

Zvolte existující datovou sadu: Testovací datovou sadu můžete zvolit z vytvořené kolekce datových sad.
Přidat novou datovou sadu: Soubory můžete nahrát z místního úložiště. Podporujeme .csv pouze formáty souborů a .jsonl formáty souborů.
Mapování dat pro tok: Pokud vyberete tok, který se má vyhodnotit, ujistěte se, že jsou vaše datové sloupce nakonfigurované tak, aby odpovídaly požadovaným vstupům pro spuštění toku, aby se spustil dávkové spuštění a vygeneroval výstup pro posouzení. Vyhodnocení se pak provede pomocí výstupu z toku. Pak nakonfigurujte mapování dat pro vstupy vyhodnocení v dalším kroku.

Výběr metrik

Podporujeme dva typy metrik kurátorovaných Microsoftem, abychom usnadnili komplexní vyhodnocení vaší aplikace:

Metriky výkonu a kvality: Tyto metriky vyhodnocují celkovou kvalitu a soudržnost generovaného obsahu.
Metriky rizik a bezpečnosti: Tyto metriky se zaměřují na identifikaci potenciálních rizik obsahu a zajištění bezpečnosti generovaného obsahu.

V tabulce najdete úplný seznam metrik, pro které nabízíme podporu v jednotlivých scénářích. Podrobnější informace o jednotlivých definicích metrik a jejich výpočtu najdete v tématu Vyhodnocení a monitorování metrik.

Scénář	Metriky výkonu a kvality	Metriky rizik a bezpečnosti
Otázka a odpověď s kontextem	Uzemnění, relevance, soudržnost, plynulost, podobnost GPT, skóre F1	Obsah související s vlastním poškozením, nenávistný a nespravedlivý obsah, násilné obsah, sexuální obsah, chráněný materiál, nepřímý útok
Otázka a odpověď bez kontextu	Soudržnost, Fluency, podobnost GPT, skóre F1	Obsah související s vlastním poškozením, nenávistný a nespravedlivý obsah, násilné obsah, sexuální obsah, chráněný materiál, nepřímý útok

Při použití metrik s asistencí AI pro vyhodnocení výkonu a kvality je nutné zadat model GPT pro proces výpočtu. Zvolte připojení Azure OpenAI a nasazení s využitím GPT-3.5, GPT-4 nebo modelu Davinci pro naše výpočty.

U metrik rizik a bezpečnosti nemusíte zadávat připojení a nasazení. Back-endová služba azure AI Studio pro vyhodnocení bezpečnosti zřídí model GPT-4, který může generovat skóre závažnosti rizika obsahu a odůvodnění, které vám umožní vyhodnotit vaši aplikaci za škody v obsahu.

Můžete nastavit prahovou hodnotu pro výpočet míry vad pro metriky poškození obsahu (obsah související s vlastním poškozením, nenávistný a nespravedlivý obsah, násilné obsah, sexuální obsah). Rychlost vad se vypočítá tak, že vezme procento instancí s úrovněmi závažnosti (velmi nízká, nízká, střední, vysoká) nad prahovou hodnotou. Ve výchozím nastavení nastavíme prahovou hodnotu na Střední.

U chráněného materiálu a nepřímého útoku se sazba vad počítá tak, že vezme procento instancí, kde je výstup "true" (Defect Rate = (#trues / #instances) × 100).

Poznámka:

Metriky rizika a bezpečnosti s asistencí umělé inteligence jsou hostované back-endovou službou azure AI Studio a jsou k dispozici pouze v následujících oblastech: USA – východ 2, Francie – střed, Velká Británie – jih, Švédsko – střed

Mapování dat pro vyhodnocení: Je nutné určit, které datové sloupce v datové sadě odpovídají vstupům potřebným při vyhodnocení. Různé vyhodnocovací metriky vyžadují různé typy datových vstupů pro přesné výpočty.

Poznámka:

Pokud vyhodnocujete data, měla by se "odpověď" namapovat na sloupec odpovědí v datové sadě ${data$answer}. Pokud vyhodnocujete tok, měla by "odpověď" pocházet z výstupu ${run.outputs.answer}toku .

Pokyny ke konkrétním požadavkům mapování dat pro každou metriku najdete v informacích uvedených v tabulce:

Otázky týkající se požadavků na metriku

Metrika	Otázka	Odpověď	Kontext	Základní pravda
Uzemnění	Povinné: Str	Povinné: Str	Povinné: Str	–
Koherence	Povinné: Str	Povinné: Str	–	N/A
Plynulost	Povinné: Str	Povinné: Str	–	N/A
Relevance	Povinné: Str	Povinné: Str	Povinné: Str	–
Podobnost GPT	Povinné: Str	Povinné: Str	–	Povinné: Str
F1 Score	Povinné: Str	Povinné: Str	–	Povinné: Str
Obsah související s vlastním poškozením	Povinné: Str	Povinné: Str	–	N/A
Nenávistný a nespravedlivý obsah	Povinné: Str	Povinné: Str	–	N/A
Násilné obsah	Povinné: Str	Povinné: Str	–	N/A
Sexuální obsah	Povinné: Str	Povinné: Str	–	N/A
Chráněný materiál	Povinné: Str	Povinné: Str	–	N/A
Nepřímý útok	Povinné: Str	Povinné: Str	–	N/A

Otázka: otázka, kterou uživatel položil ve dvojici otázek odpovědí
Odpověď: odpověď na otázku vygenerovanou modelem jako odpověď
Kontext: zdroj, který je vygenerována odpověď s ohledem na (to znamená podkladové dokumenty)
Základní pravda: odpověď na otázku vygenerovanou uživatelem nebo člověkem jako pravdivá odpověď

Kontrola a dokončení

Po dokončení všech potřebných konfigurací můžete zkontrolovat a pokračovat výběrem možnosti Odeslat a odeslat zkušební spuštění.

Vytvoření vyhodnocení s využitím vlastního toku vyhodnocení

Můžete vyvíjet vlastní metody hodnocení:

Na stránce toku: V levé sbalitelné nabídce vyberte Možnost Vyhodnocení>vlastního vyhodnocení toku>výzvy.

Zobrazení a správa vyhodnocovačů v knihovně vyhodnocovače

Knihovna vyhodnocovače je centralizované místo, kde můžete zobrazit podrobnosti a stav vyhodnocovačů. Můžete zobrazit a spravovat vyhodnocovače kurátorovaných Microsoftem.

Tip

Vlastní vyhodnocovače můžete použít prostřednictvím sady SDK toku výzvy. Další informace najdete v tématu Vyhodnocení pomocí sady SDK toku výzvy.

Knihovna vyhodnocovače také umožňuje správu verzí. V případě potřeby můžete porovnat různé verze práce, obnovit předchozí verze a snadněji spolupracovat s ostatními.

Pokud chcete použít knihovnu vyhodnocovače v AI Studiu, přejděte na stránku Vyhodnocení projektu a vyberte kartu Knihovny vyhodnocovače.

Pokud chcete zobrazit další podrobnosti, můžete vybrat název vyhodnocovače. Můžete zobrazit název, popis a parametry a zkontrolovat všechny soubory přidružené k vyhodnocovaci. Tady je několik příkladů kurátorovaných vyhodnocovačů Microsoftu:

U vyhodnocovačů výkonu a kvality kurátorovaných Microsoftem můžete zobrazit výzvu k poznámce na stránce s podrobnostmi. Tyto výzvy můžete přizpůsobit vlastnímu případu použití změnou parametrů nebo kritérií podle vašich dat a cílů pomocí sady SDK toku výzvy. Můžete například vybrat Groundedness-Evaluator a zkontrolovat soubor Výzvy ukazující způsob výpočtu metriky.
U vyhodnocovačů rizik a bezpečnosti kurátorovaných Microsoftem si můžete prohlédnout definici metrik. Můžete například vybrat vyhodnocovač obsahu souvisejícího s vlastním poškozením a zjistit, co to znamená a jak Microsoft určuje různé úrovně závažnosti pro tuto metriku zabezpečení.

Další kroky

Přečtěte si další informace o tom, jak vyhodnotit aplikace generující umělé inteligence:

Vyhodnocení aplikací generující umělé inteligence prostřednictvím dětského hřiště
Zobrazení výsledků vyhodnocení
Přečtěte si další informace o technikách zmírnění škod.
Poznámka k transparentnosti pro bezpečnostní vyhodnocení azure AI Studio

Sdílet prostřednictvím