Sdílet prostřednictvím


Vyhodnocení modelů a aplikací generující umělé inteligence pomocí Microsoft Foundry

Poznámka:

Tento dokument se týká portálu Microsoft Foundry (nový).

Pokud chcete důkladně posoudit výkon vašich generovaných modelů AI a aplikací v podstatné datové sadě, zahajte proces vyhodnocení. Během tohoto vyhodnocení se model nebo aplikace testují s danou datovou sadou a jeho výkon se měří pomocí matematických metrik a metrik s asistencí AI. Toto zkušební spuštění poskytuje komplexní přehled o možnostech a omezeních aplikace.

Využijte funkce vyhodnocení na portálu Microsoft Foundry, což je platforma, která nabízí nástroje a funkce pro posouzení výkonu a bezpečnosti generovaných modelů AI. Zaznamenávat, zobrazovat a analyzovat podrobné metriky hodnocení na portálu Foundry.

Tento článek vysvětluje, jak vytvořit zkušební spuštění s modelem, agentem nebo testovací datovou sadou pomocí předdefinovaných metrik vyhodnocení z uživatelského rozhraní Foundry. Pokud chcete větší flexibilitu, můžete vytvořit vlastní tok vyhodnocení a použít vlastní funkci vyhodnocení . K provedení dávkového spuštění bez vyhodnocení použijte funkci vlastního vyhodnocení .

Požadavky

  • Testovací datová sada v jednom z těchto formátů: CSV nebo ŘÁDKY JSON (JSONL).
  • Připojení Azure OpenAI k nasazení jednoho z těchto modelů: modelu GPT-3.5, modelu GPT-4 nebo modelu Davinci. To se vyžaduje pouze pro hodnocení kvality s asistencí umělé inteligence.
  • Testovací datová sada v jednom z těchto formátů: model, agent nebo testovací datová sada v jednom z těchto formátů: CSV nebo JSON Lines (JSONL).
  • Připojení Azure OpenAI Nasazení jednoho z těchto modelů: model GPT-3.5, model GPT-4 nebo Model Davinci. Vyžaduje se pouze v případě, že spouštíte hodnocení kvality s asistencí umělé inteligence.

Vytvoření vyhodnocení s využitím předdefinovaných metrik vyhodnocení

Proces vyhodnocení umožňuje vygenerovat metriky pro každý datový řádek v testovací sadě. Vyberte jednu nebo více metrik vyhodnocení, abyste mohli vyhodnotit výstup z různých aspektů. Na portálu Foundry vytvořte zkušební spuštění ze stránek katalogu hodnocení nebo modelu. Průvodce vytvořením vyhodnocení vás provede nastavením procesu vyhodnocení.

Na stránce vyhodnocení

V levém podokně vyberte Vytvořit>nové vyhodnocení.

V levém podokně vyberte Vyhodnocení>Vytvořit.

Ze stránky katalogu modelů

  1. V levém podokně vyberte Katalog modelů.

  2. Přejděte k modelu.

  3. Vyberte kartu Srovnávací testy .

  4. Vyberte Vyzkoušet s vlastními daty. Tento výběr otevře panel vyhodnocení modelu, ve kterém můžete vytvořit běh vyhodnocení s vybraným modelem.

    Snímek obrazovky s tlačítkem Vyzkoušet s vlastními daty ze stránky katalogu modelů

Ze stránky dětského hřiště modelu nebo agenta

Na stránce testovacího prostředí pro modely nebo na stránce testovacího prostředí agenta vyberte Vyhodnocení>Vytvořit nebo vyberte Metriky>Spustit úplné vyhodnocení.

Cíl vyhodnocení

Když spustíte vyhodnocení ze stránky Vyhodnocení , zvolte cíl vyhodnocení. Určením vhodného cíle vyhodnocení se hodnocení přizpůsobí konkrétní povaze vaší aplikace, čímž zajistíte přesné a relevantní metriky. Podporujeme dva typy cílů hodnocení:

  • Model: Tato volba vyhodnocuje výstup vygenerovaný vybraným modelem a uživatelem definovanou výzvou.
  • Datová sada: Výstupy generované modelem už jsou v testovací datové sadě.

Když spustíte vyhodnocení ze stránky Vyhodnocení , musíte nejprve zvolit cíl vyhodnocení. Zadáním vhodného cíle vyhodnocení můžeme hodnocení přizpůsobit konkrétní povaze vaší aplikace a zajistit přesné a relevantní metriky. Podporujeme tři typy cílů hodnocení:

  • Model: Tato volba vyhodnocuje výstup vygenerovaný vybraným modelem a uživatelem definovanou výzvou.
  • Agent: Tato volba vyhodnocuje výstup vygenerovaný vybraným agentem a uživatelem definovanou výzvou.
  • Datová sada: Výstupy vygenerované modelem nebo agentem už jsou v testovací datové sadě.

Konfigurace testovacích dat

V průvodci vytvořením vyhodnocení vyberte z existujících datových sad nebo nahrajte novou datovou sadu, která se má vyhodnotit. Testovací datová sada musí mít výstupy generované modelem, které se mají použít k vyhodnocení. V pravém podokně se zobrazí náhled testovacích dat.

  • Zvolte existující datovou sadu: Testovací datovou sadu můžete vybrat z vytvořené kolekce datových sad.

    Snímek obrazovky s možností vybrat testovací data při vytváření nového vyhodnocení

  • Přidat novou datovou sadu: Nahrajte soubory z místního úložiště. Podporují se jenom formáty souborů CSV a JSONL. V pravém podokně se zobrazí náhled testovacích dat.

    Snímek obrazovky s možností nahrát soubor, kterou můžete použít při vytváření nového vyhodnocení

Výběr nebo vytvoření datové sady

Pokud se rozhodnete vyhodnotit model nebo agenta, potřebujete datovou sadu, která bude fungovat jako vstupy do těchto cílů, aby bylo možné vyhodnotit odpovědi vyhodnocovači. V kroku datové sady můžete vybrat nebo nahrát vlastní datovou sadu nebo můžete datovou sadu vygenerovat synteticky.

  • Přidat novou datovou sadu: Nahrajte soubory z místního úložiště. Podporují se jenom formáty souborů CSV a JSONL. V pravém podokně se zobrazí náhled testovacích dat.
  • Syntetická generace datových sad: Syntetické datové sady jsou užitečné v situacích, kdy vám chybí data nebo chybí přístup k datům k otestování modelu nebo agenta, který jste vytvořili. Při generování syntetických dat zvolíte prostředek pro generování dat, počet řádků, které chcete vygenerovat, a musíte zadat výzvu popisující typ dat, která chcete vygenerovat. Kromě toho můžete nahrát soubory, abyste zlepšili význam datové sady na požadovanou úlohu agenta nebo modelu.

Poznámka:

Tato funkce není dostupná ve všech oblastech. Generování syntetických dat je k dispozici v regionech, které podporují rozhraní API pro odpovědi. Aktuální seznam podporovaných oblastí najdete v tématu Dostupnost oblastí rozhraní API odpovědí Azure OpenAI.

Konfigurace testovacích kritérií

Podporujeme tři typy metrik kurátorovaných Microsoftem, abychom usnadnili komplexní vyhodnocení vaší aplikace:

  • Kvalita AI (asistovaná AI):Tyto metriky vyhodnocují celkovou kvalitu a soudržnost generovaného obsahu. Ke spuštění těchto metrik potřebujete nasazení modelu sloužící jako hodnotící.
  • Kvalita AI (NLP):: Tyto metriky zpracování přirozeného jazyka (NLP) jsou matematické a také vyhodnocují celkovou kvalitu generovaného obsahu. Často vyžadují základní pravdivá data, ale nevyžadují nasazení modelu jako soudce.
  • Metriky rizik a bezpečnosti: Tyto metriky se zaměřují na identifikaci potenciálních rizik obsahu a zajištění bezpečnosti generovaného obsahu.

Můžete také vytvořit vlastní metriky a vybrat je jako vyhodnocovače během kroku testovacích kritérií.

Při přidávání testovacích kritérií se v rámci vyhodnocení použijí různé metriky. V tabulce najdete úplný seznam metrik, pro které nabízíme podporu v jednotlivých scénářích. Podrobnější informace o definicích metrik a jejich výpočtu najdete v tématu Co jsou vyhodnocovače?.

Kvalita AI (asistovaná AI) Kvalita AI (NLP) Metriky rizik a bezpečnosti
Uzemnění, relevance, soudržnost, plynulost, podobnost GPT F1 skóre, ROUGE skóre, BLEU skóre, GLEU skóre, METEOR skóre Obsah související s vlastním poškozením, nenávistný a nespravedlivý obsah, násilné obsah, sexuální obsah, chráněný materiál, nepřímý útok

Při spuštění hodnocení kvality s asistencí umělé inteligence je nutné zadat model GPT pro proces výpočtu/známkování.

Snímek obrazovky znázorňující vyhodnocovač likert-scale s metrikami kvality AI (asistované umělé inteligence) uvedenými v předvolbách

Metriky kvality AI (NLP) jsou matematicky založené na měřeních, která vyhodnocují výkon vaší aplikace. Často vyžadují základní pravdivá data pro výpočet. ROUGE je řada metrik. Pokud chcete vypočítat skóre, můžete vybrat typ ROUGE. Různé typy metrik ROUGE nabízejí způsoby, jak vyhodnotit kvalitu generování textu. ROUGE-N měří překrývání n-gramů mezi kandidátskými a referenčními texty.

Snímek obrazovky znázorňující podobnost textu s metrikami kvality AI (NLP) uvedenými v předvolbách

Pro metriky rizik a bezpečnosti nemusíte zadávat nasazení. Portál Foundry nabízí model GPT-4, který umožňuje generovat skóre závažnosti rizik obsahu a poskytuje odůvodnění, což vám umožní vyhodnotit vaší aplikace pro posouzení škod na obsahu.

Poznámka:

Metriky rizik s asistencí umělé inteligence a bezpečnosti jsou hostované vyhodnocením bezpečnosti Foundry a jsou k dispozici pouze v následujících oblastech: USA – východ 2, Francie – střed, Velká Británie – jih, Švédsko – střed.

Snímek obrazovky znázorňující metriku násilného obsahu, což je jedna z metrik rizik a bezpečnosti

Upozornění

Uživatelé, kteří dříve spravovali svá nasazení modelu a spustili vyhodnocení pomocí oai.azure.comnástroje Microsoft Foundry, a pak se připojovali k vývojářské platformě Microsoft Foundry, mají tato omezení při použití ai.azure.com:

  • Tito uživatelé nemůžou zobrazit hodnocení vytvořená prostřednictvím rozhraní Azure OpenAI API. Chcete-li zobrazit tato hodnocení, musí se vrátit na oai.azure.com.
  • Tito uživatelé nemůžou použít rozhraní API Azure OpenAI ke spouštění vyhodnocení v rámci Foundry. Místo toho by měli pro tento úkol dál používat oai.azure.com . Můžou ale použít vyhodnocovače Azure OpenAI, které jsou k dispozici přímo v Foundry (ai.azure.com) v možnosti pro vytvoření vyhodnocení datové sady. Možnost pro jemně doladěné vyhodnocení modelu není podporována, pokud je nasazení výsledkem migrace z Azure OpenAI do Foundry.

Pro scénář nahrávání datových sad a používání vlastního úložiště existuje několik požadavků na konfiguraci:

  • Účty musí být ověřeny prostřednictvím Microsoft Entra ID.
  • Úložiště musí být přidáno do účtu. Když ho přidáte do projektu, dojde k chybám služby.
  • Uživatelé musí svůj projekt přidat do svého účtu úložiště prostřednictvím řízení přístupu na webu Azure Portal.

Další informace o vytváření vyhodnocení pomocí známek hodnocení OpenAI v centru Azure OpenAI najdete v tématu Jak používat Azure OpenAI v vyhodnocení modelů Foundry.

Mapování dat

Mapování dat pro vyhodnocení: Pro každou přidanou metriku musíte určit, které datové sloupce v datové sadě odpovídají vstupům potřebným při vyhodnocování. Různé vyhodnocovací metriky vyžadují různé typy datových vstupů pro přesné výpočty.

Během vyhodnocení se odpověď modelu posuzuje na základě klíčových vstupů, jako jsou:

  • Dotaz: Vyžaduje se pro všechny metriky.
  • Kontext: Volitelné.
  • Základní pravda: Volitelné, povinné pro metriky kvality AI (NLP).

Tato mapování zajišťují přesné zarovnání mezi vašimi daty a kritérii hodnocení.

Snímek obrazovky s mapováním dotazu, kontextu a základní pravdy na vstup vyhodnocení

Mapování dat pro vyhodnocení: Různé metriky vyhodnocení vyžadují různé typy vstupů dat pro přesné výpočty.

Na základě datové sady, kterou jste vygenerovali nebo nahráli, automaticky namapujeme tato pole datové sady na pole, která jsou v vyhodnocovacích objektech. Vždy byste ale měli pečlivě zkontrolovat mapování polí, abyste měli jistotu, že je přesné. V případě potřeby můžete pole znovu přiřadit.

Požadavky na metriky dotazů a odpovědí

Pokyny ke konkrétním požadavkům mapování dat pro každou metriku najdete v informacích uvedených v tabulce:

Ukazatel Dotaz Odezva Kontext Základní pravda
Ukotvenost Povinné: Str Povinné: Str Povinné: Str Nevztahuje se
Koherence Povinné: Str Povinné: Str Nevztahuje se Nevztahuje se
Plynulost Povinné: Str Povinné: Str Nevztahuje se Nevztahuje se
Význam Povinné: Str Povinné: Str Povinné: Str Nevztahuje se
Podobnost GPT Povinné: Str Povinné: Str Nevztahuje se Povinné: Str
skóre F1 Nevztahuje se Povinné: Str Nevztahuje se Povinné: Str
Skóre BLEU Nevztahuje se Povinné: Str Nevztahuje se Povinné: Str
Skóre GLEU Nevztahuje se Povinné: Str Nevztahuje se Povinné: Str
Skóre METEOR Nevztahuje se Povinné: Str Nevztahuje se Povinné: Str
SKÓRE VE SPOLEČNOSTI ROUGE Nevztahuje se Povinné: Str Nevztahuje se Povinné: Str
Obsah související s vlastním poškozením Povinné: Str Povinné: Str Nevztahuje se Nevztahuje se
Nenávistný a nespravedlivý obsah Povinné: Str Povinné: Str Nevztahuje se Nevztahuje se
Násilné obsah Povinné: Str Povinné: Str Nevztahuje se Nevztahuje se
Sexuální obsah Povinné: Str Povinné: Str Nevztahuje se Nevztahuje se
Chráněný materiál Povinné: Str Povinné: Str Nevztahuje se Nevztahuje se
Nepřímý útok Povinné: Str Povinné: Str Nevztahuje se Nevztahuje se
  • Dotaz: Dotaz, který hledá konkrétní informace.
  • Odpověď: Odpověď na dotaz vygenerovaný modelem.
  • Kontext: Zdroj, na který je odpověď založená. Příklad: základní dokumenty.
  • Základní pravda: Odpověď na dotazy vygenerovaná lidským uživatelem, který slouží jako pravdivá odpověď.

Kontrola a odeslání

Po dokončení potřebných konfigurací zadejte volitelný název pro vaše vyhodnocení. Zkontrolujte nastavení a výběrem možnosti Odeslat spusťte zkušební spuštění.

Po dokončení všech potřebných konfigurací můžete zadat název vyhodnocení. Pak můžete zkontrolovat a vybrat Odeslat pro odeslání hodnocení.

Vyhodnocení modelu

Pokud chcete vytvořit nové vyhodnocení pro vybrané nasazení modelu, můžete použít model GPT k vygenerování ukázkových otázek nebo si můžete vybrat ze vytvořené kolekce datových sad.

Konfigurace testovacích dat pro model

Nastavte testovací datovou sadu, která se používá k vyhodnocení. Tato datová sada se odešle do modelu, aby se vygenerovaly odpovědi pro posouzení. Máte dvě možnosti konfigurace testovacích dat:

  • Generování ukázkových otázek
  • Použití existující datové sady (nebo nahrání nové datové sady)
Generování ukázkových otázek

Pokud datovou sadu nemáte snadno dostupnou a chcete spustit vyhodnocení s malou ukázkou, vyberte nasazení modelu, které chcete vyhodnotit na základě zvoleného tématu. Podporují se modely Azure OpenAI a další otevřené modely, které jsou kompatibilní s nasazením bezserverového rozhraní API, jako jsou modely řady Meta Llama a Phi-3.

Toto téma přizpůsobí vygenerovaný obsah vaší oblasti zájmu. Dotazy a odpovědi se generují v reálném čase a podle potřeby je můžete znovu vygenerovat.

Použijte svou datovou sadu

Můžete také vybrat vytvořenou kolekci datových sad nebo nahrát novou datovou sadu.

Snímek obrazovky znázorňující výběr zdroje dat a zvýraznění pomocí existující datové sady

Výběr metrik vyhodnocení

Pokud chcete nakonfigurovat kritéria testu, vyberte Další. Při výběru kritérií se přidají metriky a je potřeba namapovat sloupce datové sady na požadovaná pole pro vyhodnocení. Tato mapování zajišťují přesné zarovnání mezi vašimi daty a kritérii hodnocení.

Jakmile vyberete požadovaná kritéria testu, můžete vyhodnocení zkontrolovat, volitelně změnit název vyhodnocení a pak vybrat Odeslat. Výsledky zobrazíte tak, že přejdete na stránku vyhodnocení.

Poznámka:

Vygenerovaná datová sada se po vytvoření hodnotícího spuštění uloží do blob úložiště projektu.

Zobrazení a správa vyhodnocovačů v knihovně vyhodnocovače

Podívejte se na podrobnosti a stav vyhodnocovačů na jednom místě v knihovně vyhodnocovačů. Zobrazení a správa vyhodnocovačů kurátorovaných Microsoftem

Knihovna vyhodnocovače také umožňuje správu verzí. V případě potřeby můžete porovnat různé verze práce, obnovit předchozí verze a snadněji spolupracovat s ostatními.

Pokud chcete použít knihovnu vyhodnocovače na portálu Foundry, přejděte na stránku Vyhodnocení projektu a vyberte kartu Knihovny vyhodnocovače .

Výběrem názvu vyhodnocovače zobrazíte další podrobnosti, včetně názvu, popisu, parametrů a všech přidružených souborů. Tady je několik příkladů vyhodnocovačů kurátorovaných Microsoftem:

  • Pokud chcete vidět hodnotitele výkonu a kvality spravované Microsoftem, podívejte se na instrukce k anotaci na stránkách s podrobnostmi. Přizpůsobte tyto výzvy vašemu případu použití. Změňte parametry nebo kritéria na základě vašich dat a cílů v sadě Azure AI Evaluation SDK. Můžete například vybrat Groundedness-Evaluator a zkontrolovat soubor Prompty, který ukazuje způsob výpočtu metriky.
  • Informace o vyhodnocování rizik a bezpečnosti kurátorovaných Microsoftem najdete v definici metrik. Pokud chcete například zjistit, co to znamená, a pochopit, jak Microsoft určuje úrovně závažnosti, vyberte Možnost Vyhodnocení obsahu souvisejícího s vlastním poškozením .

Přečtěte si další informace o vyhodnocování aplikací generující umělé inteligence: