Jak vyhodnotit generování aplikací AI pomocí azure AI Studia

Důležité

Některé funkce popsané v tomto článku můžou být dostupné jenom ve verzi Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.

Pokud chcete důkladně posoudit výkon generující aplikace AI při použití na podstatnou datovou sadu, můžete zahájit proces vyhodnocení. Během tohoto vyhodnocení se vaše aplikace testuje s danou datovou sadou a její výkon se bude kvantitativní měřit pomocí matematických metrik i metrik s asistencí umělé inteligence. Tato zkušební spuštění poskytuje komplexní přehled o možnostech a omezeních aplikace.

K provedení tohoto vyhodnocení můžete využít funkce vyhodnocení v Azure AI Studiu, komplexní platformu, která nabízí nástroje a funkce pro posouzení výkonu a bezpečnosti vašeho generujícího modelu AI. V AI Studiu můžete protokolovat, zobrazovat a analyzovat podrobné metriky vyhodnocení.

V tomto článku se naučíte vytvořit zkušební běh z testovací datové sady nebo toku s integrovanými metrikami vyhodnocení z uživatelského rozhraní Azure AI Studio. Pokud chcete větší flexibilitu, můžete vytvořit vlastní tok vyhodnocení a použít vlastní funkci vyhodnocení . Pokud je vaším cílem provést dávkové spuštění pouze bez vyhodnocení, můžete také využít vlastní funkci vyhodnocení.

Požadavky

Pokud chcete spustit vyhodnocení s metrikami s asistencí AI, musíte mít následující připravené:

  • Testovací datová sada v jednom z těchto formátů: csv nebo jsonl.
  • Připojení Azure OpenAI
  • Nasazení jednoho z těchto modelů: modely GPT 3.5, modely GPT 4 nebo Modely Davinci.

Vytvoření vyhodnocení s využitím předdefinovaných metrik vyhodnocení

Spuštění vyhodnocení umožňuje generovat výstupy metrik pro každý řádek dat v testovací datové sadě. Můžete zvolit jednu nebo více metrik vyhodnocení, abyste mohli vyhodnotit výstup z různých aspektů. Zkušební spuštění můžete vytvořit ze stránek vyhodnocení a zobrazit výzvy na stránkách toku v AI Studiu. Pak se zobrazí průvodce vytvořením vyhodnocení, který vás provede procesem nastavení zkušebního spuštění.

Na stránce vyhodnocení

V levé sbalitelné nabídce vyberte Vyhodnocení>+ Nové vyhodnocení.

Snímek obrazovky s tlačítkem pro vytvoření nového vyhodnocení

Ze stránky toku

V levé sbalitelné nabídce vyberte PříkazOvý tok>Vyhodnocení>integrovaného vyhodnocení.

Snímek obrazovky s výběrem integrovaného vyhodnocení

Základní informace

Když zadáte průvodce vytvořením vyhodnocení, můžete zadat volitelný název spuštění vyhodnocení a vybrat scénář, který nejlépe odpovídá cílům vaší aplikace. V současné době nabízíme podporu pro následující scénáře:

  • Otázka a odpověď s kontextem: Tento scénář je určený pro aplikace, které zahrnují odpovídání na dotazy uživatelů a poskytování odpovědí s kontextovými informacemi.
  • Otázka a odpověď bez kontextu: Tento scénář je určený pro aplikace, které zahrnují odpovědi na dotazy uživatelů a odpovědi bez kontextu.

Pomocí panelu nápovědy můžete zkontrolovat nejčastější dotazy a projít si průvodce.

Snímek obrazovky se stránkou základních informací při vytváření nového vyhodnocení

Zadáním vhodného scénáře můžeme vyhodnocení přizpůsobit konkrétní povaze vaší aplikace a zajistit přesné a relevantní metriky.

  • Vyhodnocení z dat: Pokud už máte v testovací datové sadě vygenerované výstupy modelu, přeskočte výběr toku, který chcete vyhodnotit, a přejděte přímo k dalšímu kroku a nakonfigurujte testovací data.
  • Vyhodnocení z toku: Pokud zahájíte vyhodnocení na stránce Flow, automaticky vybereme váš tok, který se má vyhodnotit. Pokud máte v úmyslu vyhodnotit jiný tok, můžete vybrat jiný tok. Je důležité si uvědomit, že v rámci toku můžete mít více uzlů, z nichž každá může mít vlastní sadu variant. V takových případech musíte určit uzel a varianty, které chcete vyhodnotit během procesu vyhodnocení.

Snímek obrazovky s výběrem toku, který se má vyhodnotit na stránce při vytváření nového vyhodnocení

Konfigurace testovacích dat

Můžete vybrat z existujících datových sad nebo nahrát novou datovou sadu, která se má vyhodnotit. Testovací datová sada musí mít vygenerované výstupy modelu, které se mají použít k vyhodnocení, pokud v předchozím kroku není vybraný žádný tok.

  • Zvolte existující datovou sadu: Testovací datovou sadu můžete zvolit z vytvořené kolekce datových sad.

    Snímek obrazovky s možností zvolit testovací data při vytváření nového vyhodnocení

  • Přidat novou datovou sadu: Soubory můžete nahrát z místního úložiště. Podporujeme .csv pouze formáty souborů a .jsonl formáty souborů.

    Snímek obrazovky s možností nahrát soubor při vytváření nového vyhodnocení

  • Mapování dat pro tok: Pokud vyberete tok, který se má vyhodnotit, ujistěte se, že jsou vaše datové sloupce nakonfigurované tak, aby odpovídaly požadovaným vstupům pro spuštění toku, aby se spustil dávkové spuštění a vygeneroval výstup pro posouzení. Vyhodnocení se pak provede pomocí výstupu z toku. Pak nakonfigurujte mapování dat pro vstupy vyhodnocení v dalším kroku.

    Snímek obrazovky s mapováním datové sady při vytváření nového vyhodnocení

Výběr metrik

Podporujeme dva typy metrik kurátorovaných Microsoftem, abychom usnadnili komplexní vyhodnocení vaší aplikace:

  • Metriky výkonu a kvality: Tyto metriky vyhodnocují celkovou kvalitu a soudržnost generovaného obsahu.
  • Metriky rizik a bezpečnosti: Tyto metriky se zaměřují na identifikaci potenciálních rizik obsahu a zajištění bezpečnosti generovaného obsahu.

V tabulce najdete úplný seznam metrik, pro které nabízíme podporu v jednotlivých scénářích. Podrobnější informace o jednotlivých definicích metrik a jejich výpočtu najdete v tématu Vyhodnocení a monitorování metrik.

Scénář Metriky výkonu a kvality Metriky rizik a bezpečnosti
Otázka a odpověď s kontextem Uzemnění, relevance, soudržnost, plynulost, podobnost GPT, skóre F1 Obsah související s vlastním poškozením, nenávistný a nespravedlivý obsah, násilné obsah, sexuální obsah
Otázka a odpověď bez kontextu Soudržnost, Fluency, podobnost GPT, skóre F1 Obsah související s vlastním poškozením, nenávistný a nespravedlivý obsah, násilné obsah, sexuální obsah

Při použití metrik s asistencí AI pro vyhodnocení výkonu a kvality je nutné zadat model GPT pro proces výpočtu. Zvolte připojení Azure OpenAI a nasazení s využitím GPT-3.5, GPT-4 nebo modelu Davinci pro naše výpočty.

Snímek obrazovky se stránkou pro výběr metrik s vybranými metrikami kvality při vytváření nového vyhodnocení

U metrik rizik a bezpečnosti nemusíte zadávat připojení a nasazení. Back-endová služba azure AI Studio pro vyhodnocení bezpečnosti zřídí model GPT-4, který může generovat skóre závažnosti rizika obsahu a odůvodnění, které vám umožní vyhodnotit vaši aplikaci za škody v obsahu.

Prahovou hodnotu můžete nastavit pro výpočet míry vad pro metriky rizika a bezpečnosti. Rychlost vad se vypočítá tak, že vezme procento instancí s úrovněmi závažnosti (velmi nízká, nízká, střední, vysoká) nad prahovou hodnotou. Ve výchozím nastavení nastavíme prahovou hodnotu na Střední.

Snímek obrazovky se stránkou vybrat metriky s vybranými bezpečnostními metrikami při vytváření nového vyhodnocení

Poznámka:

Metriky rizika a bezpečnosti s asistencí umělé inteligence jsou hostované back-endovou službou azure AI Studio a jsou k dispozici pouze v následujících oblastech: USA – východ 2, Francie – střed, Velká Británie – jih, Švédsko – střed

Mapování dat pro vyhodnocení: Je nutné určit, které datové sloupce v datové sadě odpovídají vstupům potřebným při vyhodnocení. Různé vyhodnocovací metriky vyžadují různé typy datových vstupů pro přesné výpočty.

Snímek obrazovky s mapováním datové sady na vstup vyhodnocení

Poznámka:

Pokud vyhodnocujete data, měla by se "odpověď" namapovat na sloupec odpovědí v datové sadě ${data$answer}. Pokud vyhodnocujete tok, měla by "odpověď" pocházet z výstupu ${run.outputs.answer}toku .

Pokyny ke konkrétním požadavkům mapování dat pro každou metriku najdete v informacích uvedených v tabulce:

Otázky týkající se požadavků na metriku
Metrika Otázka Odpověď Kontext Základní pravda
Uzemnění Povinné: Str Povinné: Str Povinné: Str
Soudržnost Povinné: Str Povinné: Str N/A
Plynulost Povinné: Str Povinné: Str N/A
Relevance Povinné: Str Povinné: Str Povinné: Str
Podobnost GPT Povinné: Str Povinné: Str Povinné: Str
F1 Score Povinné: Str Povinné: Str Povinné: Str
Obsah související s vlastním poškozením Povinné: Str Povinné: Str N/A
Nenávistný a nespravedlivý obsah Povinné: Str Povinné: Str N/A
Násilné obsah Povinné: Str Povinné: Str N/A
Sexuální obsah Povinné: Str Povinné: Str N/A
  • Otázka: otázka, kterou uživatel položil ve dvojici otázek odpovědí
  • Odpověď: odpověď na otázku vygenerovanou modelem jako odpověď
  • Kontext: zdroj, který je vygenerována odpověď s ohledem na (to znamená podkladové dokumenty)
  • Základní pravda: odpověď na otázku vygenerovanou uživatelem nebo člověkem jako pravdivá odpověď

Kontrola a dokončení

Po dokončení všech potřebných konfigurací můžete zkontrolovat a pokračovat výběrem možnosti Odeslat a odeslat zkušební spuštění.

Snímek obrazovky se stránkou revize a dokončení pro vytvoření nového vyhodnocení

Vytvoření vyhodnocení s využitím vlastního toku vyhodnocení

Můžete vyvíjet vlastní metody hodnocení:

Na stránce toku: V levé sbalitelné nabídce vyberte Možnost Vyhodnocení>vlastního vyhodnocení toku>výzvy.

Snímek obrazovky znázorňující, jak vytvořit vlastní vyhodnocení z toku výzvy

Zobrazení a správa vyhodnocovačů v knihovně vyhodnocovače

Knihovna vyhodnocovače je centralizované místo, kde můžete zobrazit podrobnosti a stav vyhodnocovačů. Můžete zobrazit a spravovat vyhodnocovače kurátorovaných Microsoftem.

Tip

Vlastní vyhodnocovače můžete použít prostřednictvím sady SDK toku výzvy. Další informace najdete v tématu Vyhodnocení pomocí sady SDK toku výzvy.

Knihovna vyhodnocovače také umožňuje správu verzí. V případě potřeby můžete porovnat různé verze práce, obnovit předchozí verze a snadněji spolupracovat s ostatními.

Pokud chcete použít knihovnu vyhodnocovače v AI Studiu, přejděte na stránku Vyhodnocení projektu a vyberte kartu Knihovny vyhodnocovače.

Snímek obrazovky se stránkou pro výběr vyhodnocovačů z knihovny vyhodnocovačů

Pokud chcete zobrazit další podrobnosti, můžete vybrat název vyhodnocovače. Můžete zobrazit název, popis a parametry a zkontrolovat všechny soubory přidružené k vyhodnocovaci. Tady je několik příkladů kurátorovaných vyhodnocovačů Microsoftu:

  • U vyhodnocovačů výkonu a kvality kurátorovaných Microsoftem můžete zobrazit výzvu k poznámce na stránce s podrobnostmi. Tyto výzvy můžete přizpůsobit vlastnímu případu použití změnou parametrů nebo kritérií podle vašich dat a cílů pomocí sady SDK toku výzvy. Můžete například vybrat Groundedness-Evaluator a zkontrolovat soubor Výzvy ukazující způsob výpočtu metriky.
  • U vyhodnocovačů rizik a bezpečnosti kurátorovaných Microsoftem si můžete prohlédnout definici metrik. Můžete například vybrat vyhodnocovač obsahu souvisejícího s vlastním poškozením a zjistit, co to znamená a jak Microsoft určuje různé úrovně závažnosti pro tuto metriku zabezpečení.

Další kroky

Přečtěte si další informace o tom, jak vyhodnotit aplikace generující umělé inteligence: