Automatizované vyhodnocení

Dokončeno

Automatizované vyhodnocení na portálu Microsoft Foundry vám umožní vyhodnotit výkon modelů, datových sad nebo výzev k posouzení kvality a bezpečnosti obsahu.

Data pro vyhodnocení

K vyhodnocení modelu potřebujete datovou sadu výzev a odpovědí (a volitelně očekávané odpovědi jako "základní pravda"). Tuto datovou sadu můžete zkompilovat ručně nebo použít výstup z existující aplikace; ale užitečný způsob, jak začít, je použít model AI k vygenerování sady výzev a odpovědí souvisejících s konkrétním předmětem. Potom můžete vygenerované výzvy a odpovědi upravit tak, aby odrážely požadovaný výstup, a použít je jako základní pravdu k vyhodnocení odpovědí z jiného modelu.

Snímek obrazovky s daty vyhodnocení vygenerovanými AI

Metriky vyhodnocení

Automatizované vyhodnocení umožňuje zvolit, které vyhodnocovače chcete vyhodnotit a které metriky by tyto vyhodnocovače měly vypočítat. Existují vyhodnocovače, které vám pomůžou měřit:

  • Kvalita AI: Kvalita odpovědí modelu se měří pomocí modelů AI k jejich vyhodnocení pro metriky, jako je soudržnost a relevance , a použití standardních metrik NLP, jako jsou skóre F1, BLEU, METEOR a ROUGE, na základě základní pravdy (ve formě očekávaného textu odpovědi)
  • Rizika a bezpečnost: hodnotitelé, kteří vyhodnocuje odpovědi na problémy týkající se bezpečnosti obsahu, včetně násilí, nenávisti, sexuálního obsahu a obsahu souvisejícího se sebepoškozováním.