Sdílet prostřednictvím


Ruční vyhodnocení výzev v dětském prostředí Azure AI Studio

Důležité

Položky označené (Preview) v tomto článku jsou aktuálně ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.

Jakmile začnete s technikou výzvy, měli byste otestovat různé vstupy po jednom, abyste mohli vyhodnotit efektivitu výzvy, může být velmi časově náročné. Je to proto, že je důležité zkontrolovat, jestli filtry obsahu správně fungují, jestli je odpověď přesná a další.

Pokud chcete tento proces zjednodušit, můžete použít ruční vyhodnocení v Azure AI Studiu, což je nástroj pro vyhodnocení, který umožňuje nepřetržitě iterovat a vyhodnocovat výzvy vůči testovacím datům v jednom rozhraní. Výstupy, odpovědi modelu můžete také ohodnotit ručně, abyste získali jistotu v výzvě.

Ruční vyhodnocení vám pomůže pochopit, jak dobře vaše výzva funguje, a iterovat na příkazovém řádku, abyste měli jistotu, že dosáhnete požadované úrovně spolehlivosti.

V tomto článku se naučíte:

  • Generování výsledků ručního vyhodnocení
  • Ohodnoťte odpovědi modelu.
  • Iterace na příkazovém řádku a opětovné hodnocení
  • Uložení a porovnání výsledků
  • Vyhodnocení s využitím předdefinovaných metrik

Požadavky

Pokud chcete vygenerovat výsledky ručního vyhodnocení, musíte mít následující:

  • Testovací datová sada v jednom z těchto formátů: csv nebo jsonl. Pokud datovou sadu nemáte k dispozici, umožníme vám také ručně zadávat data z uživatelského rozhraní.

  • Nasazení jednoho z těchto modelů: modely GPT 3.5, modely GPT 4 nebo Modely Davinci. Další informace o tom, jak vytvořit nasazení, najdete v tématu Nasazení modelů.

Poznámka:

Ruční vyhodnocení se v současnosti podporuje jenom pro modely Azure OpenAI pro typy úloh chatu a dokončení.

Generování výsledků ručního vyhodnocení

V dětském hřišti vyberte Ruční vyhodnocení a začněte proces ruční kontroly odpovědí modelu na základě testovacích dat a výzvy. Výzva se automaticky přepošla na ruční vyhodnocení a teď stačí přidat testovací data pro vyhodnocení výzvy.

To lze provést ručně pomocí textových polí ve sloupci Vstup .

Můžete také importovat data a zvolit jednu z předchozích existujících datových sad v projektu nebo nahrát datovou sadu, která je ve formátu CSV nebo JSONL. Po načtení dat se zobrazí výzva, abyste sloupce namapovali odpovídajícím způsobem. Po dokončení a výběru možnosti Importovat se data vyplní odpovídajícím způsobem ve sloupcích níže.

Snímek obrazovky s generováním výsledků ručního vyhodnocení

Poznámka:

Do ručního vyhodnocení můžete přidat až 50 vstupních řádků. Pokud testovací data mají více než 50 vstupních řádků, nahrajeme prvních 50 ve vstupním sloupci.

Teď, když jsou vaše data přidaná, můžete spustit a naplnit výstupní sloupec odpovědí modelu.

Ohodnoťte odpovědi modelu.

Pro každou odpověď můžete zadat palec nahoru nebo dolů, abyste mohli vyhodnotit výstup výzvy. Na základě vámi zadaných hodnocení můžete tyto skóre odpovědí zobrazit v souhrnech na první pohled.

Snímek obrazovky se skóre odpovědí v souhrnech na první pohled

Iterace na příkazovém řádku a opětovné hodnocení

Na základě souhrnu můžete chtít provést změny výzvy. Pomocí výše uvedených ovládacích prvků výzvy můžete upravit nastavení výzvy. Může se jednat o aktualizaci systémové zprávy, změnu modelu nebo úpravu parametrů.

Po provedení úprav můžete znovu spustit celou tabulku, nebo se zaměřit na opakované spuštění konkrétních řádků, které nesplní vaše očekávání při prvním spuštění.

Uložení a porovnání výsledků

Po naplnění výsledků můžete výsledky uložit , abyste mohli sdílet průběh se svým týmem nebo pokračovat v ručním vyhodnocení, odkud jste skončili později.

Snímek obrazovky s výsledky uložení

Můžete také porovnat palec nahoru a dolů hodnocení v různých ručních vyhodnoceních tím, že je uložíte a zobrazíte na kartě Vyhodnocení v části Ruční vyhodnocení.

Další kroky

Přečtěte si další informace o tom, jak vyhodnotit aplikace generující umělé inteligence:

Přečtěte si další informace o technikách zmírnění škod.