Sdílet prostřednictvím


Jak vyhodnotit generování aplikací AI pomocí azure AI Studia

Důležité

Položky označené (Preview) v tomto článku jsou aktuálně ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.

Pokud chcete důkladně posoudit výkon generující aplikace AI při použití na podstatnou datovou sadu, můžete zahájit proces vyhodnocení. Během tohoto vyhodnocení se vaše aplikace testuje s danou datovou sadou a její výkon se bude kvantitativní měřit pomocí matematických metrik i metrik s asistencí umělé inteligence. Tato zkušební spuštění poskytuje komplexní přehled o možnostech a omezeních aplikace.

K provedení tohoto vyhodnocení můžete využít funkce vyhodnocení v Azure AI Studiu, komplexní platformu, která nabízí nástroje a funkce pro posouzení výkonu a bezpečnosti vašeho generujícího modelu AI. V AI Studiu můžete protokolovat, zobrazovat a analyzovat podrobné metriky vyhodnocení.

V tomto článku se naučíte vytvořit zkušební běh z testovací datové sady nebo toku s integrovanými metrikami vyhodnocení z uživatelského rozhraní Azure AI Studio. Pokud chcete větší flexibilitu, můžete vytvořit vlastní tok vyhodnocení a použít vlastní funkci vyhodnocení . Pokud je vaším cílem provést dávkové spuštění pouze bez vyhodnocení, můžete také využít vlastní funkci vyhodnocení.

Požadavky

Pokud chcete spustit vyhodnocení s metrikami s asistencí AI, musíte mít následující připravené:

  • Testovací datová sada v jednom z těchto formátů: csv nebo jsonl.
  • Připojení Azure OpenAI
  • Nasazení jednoho z těchto modelů: modely GPT 3.5, modely GPT 4 nebo Modely Davinci.

Vytvoření vyhodnocení s využitím předdefinovaných metrik vyhodnocení

Spuštění vyhodnocení umožňuje generovat výstupy metrik pro každý řádek dat v testovací datové sadě. Můžete zvolit jednu nebo více metrik vyhodnocení, abyste mohli vyhodnotit výstup z různých aspektů. Zkušební spuštění můžete vytvořit ze stránek vyhodnocení a zobrazit výzvy na stránkách toku v AI Studiu. Pak se zobrazí průvodce vytvořením vyhodnocení, který vás provede procesem nastavení zkušebního spuštění.

Na stránce vyhodnocení

V levé sbalitelné nabídce vyberte Vyhodnocení>+ Nové vyhodnocení.

Snímek obrazovky s tlačítkem pro vytvoření nového vyhodnocení

Ze stránky toku

V levé sbalitelné nabídce vyberte PříkazOvý tok>Vyhodnocení>integrovaného vyhodnocení.

Snímek obrazovky s výběrem integrovaného vyhodnocení

Základní informace

Když začnete vyhodnocení ze stránky vyhodnocení, musíte nejprve rozhodnout, jaký je cíl vyhodnocení. Zadáním vhodného cíle vyhodnocení můžeme hodnocení přizpůsobit konkrétní povaze vaší aplikace a zajistit přesné a relevantní metriky. V současné době podporujeme dva typy cíle hodnocení:

Datová sada: V testovací datové sadě už máte vygenerované výstupy modelu. Tok výzvy: Vytvořili jste tok a chcete vyhodnotit výstup z toku.

Snímek obrazovky s informacemi o tom, co chcete vyhodnotit, zobrazující výběr datové sady nebo výběr toku výzvy

Když zadáte průvodce vytvořením vyhodnocení, můžete zadat volitelný název spuštění vyhodnocení a vybrat scénář, který nejlépe odpovídá cílům vaší aplikace. V současné době nabízíme podporu pro následující scénáře:

  • Otázka a odpověď s kontextem: Tento scénář je určený pro aplikace, které zahrnují odpovídání na dotazy uživatelů a poskytování odpovědí s kontextovými informacemi.
  • Otázka a odpověď bez kontextu: Tento scénář je určený pro aplikace, které zahrnují odpovědi na dotazy uživatelů a odpovědi bez kontextu.

Pomocí panelu nápovědy můžete zkontrolovat nejčastější dotazy a projít si průvodce.

Snímek obrazovky se stránkou základních informací při vytváření nového vyhodnocení

Pokud vyhodnocujete tok výzvy, můžete vybrat tok, který chcete vyhodnotit. Pokud zahájíte vyhodnocení ze stránky Flow, automaticky vybereme váš tok, který se má vyhodnotit. Pokud máte v úmyslu vyhodnotit jiný tok, můžete vybrat jiný tok. Je důležité si uvědomit, že v rámci toku můžete mít více uzlů, z nichž každá může mít vlastní sadu variant. V takových případech musíte určit uzel a varianty, které chcete vyhodnotit během procesu vyhodnocení.

Snímek obrazovky s výběrem toku, který se má vyhodnotit na stránce při vytváření nového vyhodnocení

Konfigurace testovacích dat

Můžete vybrat z existujících datových sad nebo nahrát novou datovou sadu, která se má vyhodnotit. Testovací datová sada musí mít vygenerované výstupy modelu, které se mají použít k vyhodnocení, pokud v předchozím kroku není vybraný žádný tok.

  • Zvolte existující datovou sadu: Testovací datovou sadu můžete zvolit z vytvořené kolekce datových sad.

    Snímek obrazovky s možností zvolit testovací data při vytváření nového vyhodnocení

  • Přidat novou datovou sadu: Soubory můžete nahrát z místního úložiště. Podporujeme .csv pouze formáty souborů a .jsonl formáty souborů.

    Snímek obrazovky s možností nahrát soubor při vytváření nového vyhodnocení

  • Mapování dat pro tok: Pokud vyberete tok, který se má vyhodnotit, ujistěte se, že jsou vaše datové sloupce nakonfigurované tak, aby odpovídaly požadovaným vstupům pro spuštění toku, aby se spustil dávkové spuštění a vygeneroval výstup pro posouzení. Vyhodnocení se pak provede pomocí výstupu z toku. Pak nakonfigurujte mapování dat pro vstupy vyhodnocení v dalším kroku.

    Snímek obrazovky s mapováním datové sady při vytváření nového vyhodnocení

Výběr metrik

Podporujeme dva typy metrik kurátorovaných Microsoftem, abychom usnadnili komplexní vyhodnocení vaší aplikace:

  • Metriky výkonu a kvality: Tyto metriky vyhodnocují celkovou kvalitu a soudržnost generovaného obsahu.
  • Metriky rizik a bezpečnosti: Tyto metriky se zaměřují na identifikaci potenciálních rizik obsahu a zajištění bezpečnosti generovaného obsahu.

V tabulce najdete úplný seznam metrik, pro které nabízíme podporu v jednotlivých scénářích. Podrobnější informace o jednotlivých definicích metrik a jejich výpočtu najdete v tématu Vyhodnocení a monitorování metrik.

Scénář Metriky výkonu a kvality Metriky rizik a bezpečnosti
Otázka a odpověď s kontextem Uzemnění, relevance, soudržnost, plynulost, podobnost GPT, skóre F1 Obsah související s vlastním poškozením, nenávistný a nespravedlivý obsah, násilné obsah, sexuální obsah, chráněný materiál, nepřímý útok
Otázka a odpověď bez kontextu Soudržnost, Fluency, podobnost GPT, skóre F1 Obsah související s vlastním poškozením, nenávistný a nespravedlivý obsah, násilné obsah, sexuální obsah, chráněný materiál, nepřímý útok

Při použití metrik s asistencí AI pro vyhodnocení výkonu a kvality je nutné zadat model GPT pro proces výpočtu. Zvolte připojení Azure OpenAI a nasazení s využitím GPT-3.5, GPT-4 nebo modelu Davinci pro naše výpočty.

Snímek obrazovky se stránkou pro výběr metrik s vybranými metrikami kvality při vytváření nového vyhodnocení

U metrik rizik a bezpečnosti nemusíte zadávat připojení a nasazení. Back-endová služba azure AI Studio pro vyhodnocení bezpečnosti zřídí model GPT-4, který může generovat skóre závažnosti rizika obsahu a odůvodnění, které vám umožní vyhodnotit vaši aplikaci za škody v obsahu.

Můžete nastavit prahovou hodnotu pro výpočet míry vad pro metriky poškození obsahu (obsah související s vlastním poškozením, nenávistný a nespravedlivý obsah, násilné obsah, sexuální obsah). Rychlost vad se vypočítá tak, že vezme procento instancí s úrovněmi závažnosti (velmi nízká, nízká, střední, vysoká) nad prahovou hodnotou. Ve výchozím nastavení nastavíme prahovou hodnotu na Střední.

U chráněného materiálu a nepřímého útoku se sazba vad počítá tak, že vezme procento instancí, kde je výstup "true" (Defect Rate = (#trues / #instances) × 100).

Snímek obrazovky s metrikami rizik a bezpečnosti kurátorovanými Microsoftem, který znázorňuje vybranou možnost sebepoškozování, chráněného materiálu a nepřímého útoku

Poznámka:

Metriky rizika a bezpečnosti s asistencí umělé inteligence jsou hostované back-endovou službou azure AI Studio a jsou k dispozici pouze v následujících oblastech: USA – východ 2, Francie – střed, Velká Británie – jih, Švédsko – střed

Mapování dat pro vyhodnocení: Je nutné určit, které datové sloupce v datové sadě odpovídají vstupům potřebným při vyhodnocení. Různé vyhodnocovací metriky vyžadují různé typy datových vstupů pro přesné výpočty.

Snímek obrazovky s mapováním datové sady na vstup vyhodnocení

Poznámka:

Pokud vyhodnocujete data, měla by se "odpověď" namapovat na sloupec odpovědí v datové sadě ${data$answer}. Pokud vyhodnocujete tok, měla by "odpověď" pocházet z výstupu ${run.outputs.answer}toku .

Pokyny ke konkrétním požadavkům mapování dat pro každou metriku najdete v informacích uvedených v tabulce:

Otázky týkající se požadavků na metriku
Metrika Otázka Odpověď Kontext Základní pravda
Uzemnění Povinné: Str Povinné: Str Povinné: Str
Koherence Povinné: Str Povinné: Str N/A
Plynulost Povinné: Str Povinné: Str N/A
Relevance Povinné: Str Povinné: Str Povinné: Str
Podobnost GPT Povinné: Str Povinné: Str Povinné: Str
F1 Score Povinné: Str Povinné: Str Povinné: Str
Obsah související s vlastním poškozením Povinné: Str Povinné: Str N/A
Nenávistný a nespravedlivý obsah Povinné: Str Povinné: Str N/A
Násilné obsah Povinné: Str Povinné: Str N/A
Sexuální obsah Povinné: Str Povinné: Str N/A
Chráněný materiál Povinné: Str Povinné: Str N/A
Nepřímý útok Povinné: Str Povinné: Str N/A
  • Otázka: otázka, kterou uživatel položil ve dvojici otázek odpovědí
  • Odpověď: odpověď na otázku vygenerovanou modelem jako odpověď
  • Kontext: zdroj, který je vygenerována odpověď s ohledem na (to znamená podkladové dokumenty)
  • Základní pravda: odpověď na otázku vygenerovanou uživatelem nebo člověkem jako pravdivá odpověď

Kontrola a dokončení

Po dokončení všech potřebných konfigurací můžete zkontrolovat a pokračovat výběrem možnosti Odeslat a odeslat zkušební spuštění.

Snímek obrazovky se stránkou revize a dokončení pro vytvoření nového vyhodnocení

Vytvoření vyhodnocení s využitím vlastního toku vyhodnocení

Můžete vyvíjet vlastní metody hodnocení:

Na stránce toku: V levé sbalitelné nabídce vyberte Možnost Vyhodnocení>vlastního vyhodnocení toku>výzvy.

Snímek obrazovky znázorňující, jak vytvořit vlastní vyhodnocení z toku výzvy

Zobrazení a správa vyhodnocovačů v knihovně vyhodnocovače

Knihovna vyhodnocovače je centralizované místo, kde můžete zobrazit podrobnosti a stav vyhodnocovačů. Můžete zobrazit a spravovat vyhodnocovače kurátorovaných Microsoftem.

Tip

Vlastní vyhodnocovače můžete použít prostřednictvím sady SDK toku výzvy. Další informace najdete v tématu Vyhodnocení pomocí sady SDK toku výzvy.

Knihovna vyhodnocovače také umožňuje správu verzí. V případě potřeby můžete porovnat různé verze práce, obnovit předchozí verze a snadněji spolupracovat s ostatními.

Pokud chcete použít knihovnu vyhodnocovače v AI Studiu, přejděte na stránku Vyhodnocení projektu a vyberte kartu Knihovny vyhodnocovače.

Snímek obrazovky se stránkou pro výběr vyhodnocovačů z knihovny vyhodnocovačů

Pokud chcete zobrazit další podrobnosti, můžete vybrat název vyhodnocovače. Můžete zobrazit název, popis a parametry a zkontrolovat všechny soubory přidružené k vyhodnocovaci. Tady je několik příkladů kurátorovaných vyhodnocovačů Microsoftu:

  • U vyhodnocovačů výkonu a kvality kurátorovaných Microsoftem můžete zobrazit výzvu k poznámce na stránce s podrobnostmi. Tyto výzvy můžete přizpůsobit vlastnímu případu použití změnou parametrů nebo kritérií podle vašich dat a cílů pomocí sady SDK toku výzvy. Můžete například vybrat Groundedness-Evaluator a zkontrolovat soubor Výzvy ukazující způsob výpočtu metriky.
  • U vyhodnocovačů rizik a bezpečnosti kurátorovaných Microsoftem si můžete prohlédnout definici metrik. Můžete například vybrat vyhodnocovač obsahu souvisejícího s vlastním poškozením a zjistit, co to znamená a jak Microsoft určuje různé úrovně závažnosti pro tuto metriku zabezpečení.

Další kroky

Přečtěte si další informace o tom, jak vyhodnotit aplikace generující umělé inteligence: