Jak vyhodnotit generování aplikací AI pomocí azure AI Studia
Důležité
Položky označené (Preview) v tomto článku jsou aktuálně ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.
Pokud chcete důkladně posoudit výkon generující aplikace AI při použití na podstatnou datovou sadu, můžete zahájit proces vyhodnocení. Během tohoto vyhodnocení se vaše aplikace testuje s danou datovou sadou a její výkon se bude kvantitativní měřit pomocí matematických metrik i metrik s asistencí umělé inteligence. Tato zkušební spuštění poskytuje komplexní přehled o možnostech a omezeních aplikace.
K provedení tohoto vyhodnocení můžete využít funkce vyhodnocení v Azure AI Studiu, komplexní platformu, která nabízí nástroje a funkce pro posouzení výkonu a bezpečnosti vašeho generujícího modelu AI. V AI Studiu můžete protokolovat, zobrazovat a analyzovat podrobné metriky vyhodnocení.
V tomto článku se naučíte vytvořit zkušební běh z testovací datové sady nebo toku s integrovanými metrikami vyhodnocení z uživatelského rozhraní Azure AI Studio. Pokud chcete větší flexibilitu, můžete vytvořit vlastní tok vyhodnocení a použít vlastní funkci vyhodnocení . Pokud je vaším cílem provést dávkové spuštění pouze bez vyhodnocení, můžete také využít vlastní funkci vyhodnocení.
Požadavky
Pokud chcete spustit vyhodnocení s metrikami s asistencí AI, musíte mít následující připravené:
- Testovací datová sada v jednom z těchto formátů:
csv
nebojsonl
. - Připojení Azure OpenAI
- Nasazení jednoho z těchto modelů: modely GPT 3.5, modely GPT 4 nebo Modely Davinci.
Vytvoření vyhodnocení s využitím předdefinovaných metrik vyhodnocení
Spuštění vyhodnocení umožňuje generovat výstupy metrik pro každý řádek dat v testovací datové sadě. Můžete zvolit jednu nebo více metrik vyhodnocení, abyste mohli vyhodnotit výstup z různých aspektů. Zkušební spuštění můžete vytvořit ze stránek vyhodnocení a zobrazit výzvy na stránkách toku v AI Studiu. Pak se zobrazí průvodce vytvořením vyhodnocení, který vás provede procesem nastavení zkušebního spuštění.
Na stránce vyhodnocení
V levé sbalitelné nabídce vyberte Vyhodnocení>+ Nové vyhodnocení.
Ze stránky toku
V levé sbalitelné nabídce vyberte PříkazOvý tok>Vyhodnocení>integrovaného vyhodnocení.
Základní informace
Když začnete vyhodnocení ze stránky vyhodnocení, musíte nejprve rozhodnout, jaký je cíl vyhodnocení. Zadáním vhodného cíle vyhodnocení můžeme hodnocení přizpůsobit konkrétní povaze vaší aplikace a zajistit přesné a relevantní metriky. V současné době podporujeme dva typy cíle hodnocení:
Datová sada: V testovací datové sadě už máte vygenerované výstupy modelu. Tok výzvy: Vytvořili jste tok a chcete vyhodnotit výstup z toku.
Když zadáte průvodce vytvořením vyhodnocení, můžete zadat volitelný název spuštění vyhodnocení a vybrat scénář, který nejlépe odpovídá cílům vaší aplikace. V současné době nabízíme podporu pro následující scénáře:
- Otázka a odpověď s kontextem: Tento scénář je určený pro aplikace, které zahrnují odpovídání na dotazy uživatelů a poskytování odpovědí s kontextovými informacemi.
- Otázka a odpověď bez kontextu: Tento scénář je určený pro aplikace, které zahrnují odpovědi na dotazy uživatelů a odpovědi bez kontextu.
Pomocí panelu nápovědy můžete zkontrolovat nejčastější dotazy a projít si průvodce.
Pokud vyhodnocujete tok výzvy, můžete vybrat tok, který chcete vyhodnotit. Pokud zahájíte vyhodnocení ze stránky Flow, automaticky vybereme váš tok, který se má vyhodnotit. Pokud máte v úmyslu vyhodnotit jiný tok, můžete vybrat jiný tok. Je důležité si uvědomit, že v rámci toku můžete mít více uzlů, z nichž každá může mít vlastní sadu variant. V takových případech musíte určit uzel a varianty, které chcete vyhodnotit během procesu vyhodnocení.
Konfigurace testovacích dat
Můžete vybrat z existujících datových sad nebo nahrát novou datovou sadu, která se má vyhodnotit. Testovací datová sada musí mít vygenerované výstupy modelu, které se mají použít k vyhodnocení, pokud v předchozím kroku není vybraný žádný tok.
Zvolte existující datovou sadu: Testovací datovou sadu můžete zvolit z vytvořené kolekce datových sad.
Přidat novou datovou sadu: Soubory můžete nahrát z místního úložiště. Podporujeme
.csv
pouze formáty souborů a.jsonl
formáty souborů.Mapování dat pro tok: Pokud vyberete tok, který se má vyhodnotit, ujistěte se, že jsou vaše datové sloupce nakonfigurované tak, aby odpovídaly požadovaným vstupům pro spuštění toku, aby se spustil dávkové spuštění a vygeneroval výstup pro posouzení. Vyhodnocení se pak provede pomocí výstupu z toku. Pak nakonfigurujte mapování dat pro vstupy vyhodnocení v dalším kroku.
Výběr metrik
Podporujeme dva typy metrik kurátorovaných Microsoftem, abychom usnadnili komplexní vyhodnocení vaší aplikace:
- Metriky výkonu a kvality: Tyto metriky vyhodnocují celkovou kvalitu a soudržnost generovaného obsahu.
- Metriky rizik a bezpečnosti: Tyto metriky se zaměřují na identifikaci potenciálních rizik obsahu a zajištění bezpečnosti generovaného obsahu.
V tabulce najdete úplný seznam metrik, pro které nabízíme podporu v jednotlivých scénářích. Podrobnější informace o jednotlivých definicích metrik a jejich výpočtu najdete v tématu Vyhodnocení a monitorování metrik.
Scénář | Metriky výkonu a kvality | Metriky rizik a bezpečnosti |
---|---|---|
Otázka a odpověď s kontextem | Uzemnění, relevance, soudržnost, plynulost, podobnost GPT, skóre F1 | Obsah související s vlastním poškozením, nenávistný a nespravedlivý obsah, násilné obsah, sexuální obsah, chráněný materiál, nepřímý útok |
Otázka a odpověď bez kontextu | Soudržnost, Fluency, podobnost GPT, skóre F1 | Obsah související s vlastním poškozením, nenávistný a nespravedlivý obsah, násilné obsah, sexuální obsah, chráněný materiál, nepřímý útok |
Při použití metrik s asistencí AI pro vyhodnocení výkonu a kvality je nutné zadat model GPT pro proces výpočtu. Zvolte připojení Azure OpenAI a nasazení s využitím GPT-3.5, GPT-4 nebo modelu Davinci pro naše výpočty.
U metrik rizik a bezpečnosti nemusíte zadávat připojení a nasazení. Back-endová služba azure AI Studio pro vyhodnocení bezpečnosti zřídí model GPT-4, který může generovat skóre závažnosti rizika obsahu a odůvodnění, které vám umožní vyhodnotit vaši aplikaci za škody v obsahu.
Můžete nastavit prahovou hodnotu pro výpočet míry vad pro metriky poškození obsahu (obsah související s vlastním poškozením, nenávistný a nespravedlivý obsah, násilné obsah, sexuální obsah). Rychlost vad se vypočítá tak, že vezme procento instancí s úrovněmi závažnosti (velmi nízká, nízká, střední, vysoká) nad prahovou hodnotou. Ve výchozím nastavení nastavíme prahovou hodnotu na Střední.
U chráněného materiálu a nepřímého útoku se sazba vad počítá tak, že vezme procento instancí, kde je výstup "true" (Defect Rate = (#trues / #instances) × 100).
Poznámka:
Metriky rizika a bezpečnosti s asistencí umělé inteligence jsou hostované back-endovou službou azure AI Studio a jsou k dispozici pouze v následujících oblastech: USA – východ 2, Francie – střed, Velká Británie – jih, Švédsko – střed
Mapování dat pro vyhodnocení: Je nutné určit, které datové sloupce v datové sadě odpovídají vstupům potřebným při vyhodnocení. Různé vyhodnocovací metriky vyžadují různé typy datových vstupů pro přesné výpočty.
Poznámka:
Pokud vyhodnocujete data, měla by se "odpověď" namapovat na sloupec odpovědí v datové sadě ${data$answer}
. Pokud vyhodnocujete tok, měla by "odpověď" pocházet z výstupu ${run.outputs.answer}
toku .
Pokyny ke konkrétním požadavkům mapování dat pro každou metriku najdete v informacích uvedených v tabulce:
Otázky týkající se požadavků na metriku
Metrika | Otázka | Odpověď | Kontext | Základní pravda |
---|---|---|---|---|
Uzemnění | Povinné: Str | Povinné: Str | Povinné: Str | – |
Koherence | Povinné: Str | Povinné: Str | – | N/A |
Plynulost | Povinné: Str | Povinné: Str | – | N/A |
Relevance | Povinné: Str | Povinné: Str | Povinné: Str | – |
Podobnost GPT | Povinné: Str | Povinné: Str | – | Povinné: Str |
F1 Score | Povinné: Str | Povinné: Str | – | Povinné: Str |
Obsah související s vlastním poškozením | Povinné: Str | Povinné: Str | – | N/A |
Nenávistný a nespravedlivý obsah | Povinné: Str | Povinné: Str | – | N/A |
Násilné obsah | Povinné: Str | Povinné: Str | – | N/A |
Sexuální obsah | Povinné: Str | Povinné: Str | – | N/A |
Chráněný materiál | Povinné: Str | Povinné: Str | – | N/A |
Nepřímý útok | Povinné: Str | Povinné: Str | – | N/A |
- Otázka: otázka, kterou uživatel položil ve dvojici otázek odpovědí
- Odpověď: odpověď na otázku vygenerovanou modelem jako odpověď
- Kontext: zdroj, který je vygenerována odpověď s ohledem na (to znamená podkladové dokumenty)
- Základní pravda: odpověď na otázku vygenerovanou uživatelem nebo člověkem jako pravdivá odpověď
Kontrola a dokončení
Po dokončení všech potřebných konfigurací můžete zkontrolovat a pokračovat výběrem možnosti Odeslat a odeslat zkušební spuštění.
Vytvoření vyhodnocení s využitím vlastního toku vyhodnocení
Můžete vyvíjet vlastní metody hodnocení:
Na stránce toku: V levé sbalitelné nabídce vyberte Možnost Vyhodnocení>vlastního vyhodnocení toku>výzvy.
Zobrazení a správa vyhodnocovačů v knihovně vyhodnocovače
Knihovna vyhodnocovače je centralizované místo, kde můžete zobrazit podrobnosti a stav vyhodnocovačů. Můžete zobrazit a spravovat vyhodnocovače kurátorovaných Microsoftem.
Tip
Vlastní vyhodnocovače můžete použít prostřednictvím sady SDK toku výzvy. Další informace najdete v tématu Vyhodnocení pomocí sady SDK toku výzvy.
Knihovna vyhodnocovače také umožňuje správu verzí. V případě potřeby můžete porovnat různé verze práce, obnovit předchozí verze a snadněji spolupracovat s ostatními.
Pokud chcete použít knihovnu vyhodnocovače v AI Studiu, přejděte na stránku Vyhodnocení projektu a vyberte kartu Knihovny vyhodnocovače.
Pokud chcete zobrazit další podrobnosti, můžete vybrat název vyhodnocovače. Můžete zobrazit název, popis a parametry a zkontrolovat všechny soubory přidružené k vyhodnocovaci. Tady je několik příkladů kurátorovaných vyhodnocovačů Microsoftu:
- U vyhodnocovačů výkonu a kvality kurátorovaných Microsoftem můžete zobrazit výzvu k poznámce na stránce s podrobnostmi. Tyto výzvy můžete přizpůsobit vlastnímu případu použití změnou parametrů nebo kritérií podle vašich dat a cílů pomocí sady SDK toku výzvy. Můžete například vybrat Groundedness-Evaluator a zkontrolovat soubor Výzvy ukazující způsob výpočtu metriky.
- U vyhodnocovačů rizik a bezpečnosti kurátorovaných Microsoftem si můžete prohlédnout definici metrik. Můžete například vybrat vyhodnocovač obsahu souvisejícího s vlastním poškozením a zjistit, co to znamená a jak Microsoft určuje různé úrovně závažnosti pro tuto metriku zabezpečení.
Další kroky
Přečtěte si další informace o tom, jak vyhodnotit aplikace generující umělé inteligence:
- Vyhodnocení aplikací generující umělé inteligence prostřednictvím dětského hřiště
- Zobrazení výsledků vyhodnocení
- Přečtěte si další informace o technikách zmírnění škod.
- Poznámka k transparentnosti pro bezpečnostní vyhodnocení azure AI Studio