Automatizované vyhodnocení
Automatizované vyhodnocení na portálu Microsoft Foundry vám umožní vyhodnotit výkon modelů, datových sad nebo výzev k posouzení kvality a bezpečnosti obsahu.
Data pro vyhodnocení
K vyhodnocení modelu potřebujete datovou sadu výzev a odpovědí (a volitelně očekávané odpovědi jako "základní pravda"). Tuto datovou sadu můžete zkompilovat ručně nebo použít výstup z existující aplikace; ale užitečný způsob, jak začít, je použít model AI k vygenerování sady výzev a odpovědí souvisejících s konkrétním předmětem. Potom můžete vygenerované výzvy a odpovědi upravit tak, aby odrážely požadovaný výstup, a použít je jako základní pravdu k vyhodnocení odpovědí z jiného modelu.
Metriky vyhodnocení
Automatizované vyhodnocení umožňuje zvolit, které vyhodnocovače chcete vyhodnotit a které metriky by tyto vyhodnocovače měly vypočítat. Existují vyhodnocovače, které vám pomůžou měřit:
- Kvalita AI: Kvalita odpovědí modelu se měří pomocí modelů AI k jejich vyhodnocení pro metriky, jako je soudržnost a relevance , a použití standardních metrik NLP, jako jsou skóre F1, BLEU, METEOR a ROUGE, na základě základní pravdy (ve formě očekávaného textu odpovědi)
- Rizika a bezpečnost: hodnotitelé, kteří vyhodnocuje odpovědi na problémy týkající se bezpečnosti obsahu, včetně násilí, nenávisti, sexuálního obsahu a obsahu souvisejícího se sebepoškozováním.