Sdílet prostřednictvím


Pozorovatelnost v generativní umělé inteligenci

Poznámka:

Tento dokument se týká portálu Microsoft Foundry (nový).

Důležité

Položky označené (Preview) v tomto článku jsou aktuálně ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce nemusí být podporované nebo můžou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.

V dnešním světě založeném na umělé inteligenci (Generative AI Operations) (GenAIOps) mění způsob sestavování a nasazování inteligentních systémů organizací. Vzhledem k tomu, že společnosti stále častěji používají agenty a aplikace umělé inteligence k transformaci rozhodování, vylepšení zákaznických zážitků a podporou inovací, nejdůležitějším prvkem je robustní hodnotící rámce. Vyhodnocení není jen kontrolní bod. Je základem kvality a důvěry v aplikace umělé inteligence. Bez důkladného posouzení a monitorování můžou systémy AI vytvářet obsah, který je:

  • Vymyšlené nebo bez opory v realitě
  • Irelevantní nebo inkoherentní
  • Škodlivé při zachování rizik a stereotypů v obsahu
  • Nebezpečné při šíření dezinformací
  • Ohrožená zneužitím zabezpečení

V tomto případě se pozorovatelnost stává zásadní. Tyto funkce měří četnost i závažnost rizik ve výstupech umělé inteligence, což týmům umožňuje systematicky řešit otázky kvality, bezpečnosti a zabezpečení v rámci celé cesty vývoje umělé inteligence – od výběru správného modelu až po monitorování výkonu, kvality a bezpečnosti výroby.

Co je pozorovatelnost?

Pozorovatelnost umělé inteligence označuje schopnost monitorovat, pochopit a řešit potíže se systémy AI v průběhu jejich životního cyklu. Zahrnuje shromažďování a analýzu signálů, jako jsou metriky vyhodnocení, protokoly, trasování a výstupy modelů a agentů, aby bylo možné získat přehled o výkonu, kvalitě, bezpečnosti a provozním stavu.

Co jsou vyhodnocovače?

Vyhodnocovače jsou specializované nástroje, které měří kvalitu, bezpečnost a spolehlivost odpovědí umělé inteligence. Díky implementaci systematických hodnocení v průběhu životního cyklu vývoje umělé inteligence můžou týmy identifikovat a řešit potenciální problémy předtím, než ovlivní uživatele. Následující podporované vyhodnocovače poskytují komplexní možnosti posouzení napříč různými typy aplikací AI a obavami:

Obecné účely

Hodnotitel Účel Vstupy
Koherence Měří logickou konzistenci a tok odpovědí. Dotaz, odpověď
Plynulost Měří kvalitu přirozeného jazyka a čitelnost. Odezva
kontrola kvality Měří komplexně různé aspekty kvality v rámci odpovídání na otázky. Dotaz, kontext, odpověď, základní pravda

Další informace najdete v tématu Hodnocení pro obecné účely.

Textová podobnost

Hodnotitel Účel Vstupy
Podobnost Měření textové podobnosti s asistencí umělé inteligence Dotaz, kontext, základní pravda
F1 skóre Harmonický průměr přesnosti a úplnosti v tokenech se překrývají mezi odezvou a základní pravdou. Odpověď, základní pravda
BLEU Dvojjazyčné hodnocení skóre podkladů pro měření kvality překladu porovnává překrytí n-gramů mezi odezvou a základní pravdou. Odpověď, základní pravda
GLEU Google-BLEU varianta pro míry hodnocení na úrovni věty zkoumá překrývání v n-gramech mezi odpovědí a referenční pravdou. Odpověď, základní pravda
RŮŽ Recall-Oriented Alternativa pro hodnotící přehledová opatření měří překryvy v n-gramech mezi odezvou a základní referencí. Odpověď, základní pravda
METEOR Metrika pro vyhodnocení překladu s explicitním pořadím měří překrývání n-gramů mezi odpovědí a referenčním textem. Odpověď, základní pravda

Další informace najdete v tématu Vyhodnocovače textových podobností.

RAG (načítání rozšířené generace)

Hodnotitel Účel Vstupy
Vyhledání Měří, jak efektivně systém načítá relevantní informace. Dotaz, kontext
Načítání dokumentů (Preview) Měří přesnost ve výsledcích načítání podle skutečných dat. Základní pravda, načtené dokumenty
Ukotvenost Měří, jak je odpověď konzistentní vzhledem k načtenému kontextu. Dotaz (volitelný), kontext, odpověď
Groundedness Pro (Preview) Určuje, zda je odpověď konzistentní s ohledem na načtený kontext. Dotaz, kontext, odpověď
Význam Měří, jak je odpověď relevantní vzhledem k dotazu. Dotaz, odpověď
Úplnost odpovědi (Preview) Měří, do jaké míry je odpověď úplná, aby nechyběly důležité informace, s ohledem na referenční skutečnosti. Odpověď, základní pravda

Další informace najdete v vyhodnocovacích modulech RAG (Retrieval-augmented Generation).

Zabezpečení a zabezpečení (Preview)

Hodnotitel Účel Vstupy
Nenávist a nespravedlivost Identifikuje zkreslený, nediskriminační nebo nenávistný obsah. Dotaz, odpověď
Sexuální Identifikuje nevhodný sexuální obsah. Dotaz, odpověď
Násilí Detekuje násilné obsah nebo incitace. Dotaz, odpověď
Sebepoškozování Detekuje obsah podporující nebo popisující sebepoškozování. Dotaz, odpověď
Bezpečnost obsahu Komplexní posouzení různých bezpečnostních otázek. Dotaz, odpověď
Chráněné materiály Detekuje neoprávněné použití obsahu chráněného autorskými právy nebo jiného chráněného obsahu. Dotaz, odpověď
Zranitelnost kódu Identifikuje problémy se zabezpečením vygenerovaného kódu. Dotaz, odpověď
Neuzemněné atributy Detekuje vymyšlené nebo halucinované informace odvozené z interakcí uživatelů. Dotaz, kontext, odpověď

Další informace najdete v tématu Vyhodnocení rizik a bezpečnosti.

Agenti (Preview)

Hodnotitel Účel Vstupy
Řešení záměru Měří, jak přesně agent identifikuje a řeší záměry uživatelů. Dotaz, odpověď
Dodržování úkolů Měří, jak dobře agent postupuje podle identifikovaných úloh. Dotaz, odpověď, definice nástrojů (volitelné)
Přesnost volání nástroje Měří, jak dobře agent vybere a zavolá správné nástroje. Dotazování, volání odpovědí nebo nástrojů, definice nástrojů
Hodnotitel Účel Vstupy
Dodržování úkolů Měří, zda agent postupuje podle identifikovaných úloh podle systémových pokynů. Dotaz, odpověď, definice nástrojů (volitelné)
Dokončení úkolu Určuje, zda agent úspěšně dokončil požadovanou úlohu od začátku do konce. Dotaz, odpověď, definice nástrojů (volitelné)
Řešení záměru Měří, jak přesně agent identifikuje a řeší záměry uživatelů. Dotaz, odpověď, definice nástrojů (volitelné)
Efektivita navigace úkolů Určuje, jestli posloupnost kroků agenta odpovídá optimální nebo očekávané cestě k měření efektivity. Odpověď, základní pravda
Přesnost volání nástroje Měří celkovou kvalitu volání nástrojů, včetně výběru, správnosti parametrů a efektivity. Dotaz, definice nástrojů, volání nástrojů (volitelné), odpověď
Výběr nástrojů Měří, zda agent vybral nejvhodnější a nejúčinnější nástroje pro úlohu. Dotaz, definice nástrojů, volání nástrojů (volitelné), odpověď
Přesnost vstupu nástroje Ověřuje správnost všech parametrů volání nástroje podle přísných kritérií včetně uzemnění, typu, formátu, úplnosti a vhodnosti. Definice dotazů, odpovědí, nástrojů
Využití výstupu nástroje Měří, jestli agent správně interpretuje a používá výstupy nástrojů v odpovědích a následných voláních. Dotaz, odpověď, definice nástrojů (volitelné)
Úspěšné spuštění nástroje Vyhodnotí, jestli se všechna volání nástrojů úspěšně spustila bez technických selhání. Odpovědi, definice nástrojů (volitelné)

Další informace najdete v tématu Vyhodnocovače agentů.

Gradery Azure OpenAI (Preview)

Hodnotitel Účel Vstupy
Popisovač modelu Klasifikuje obsah pomocí vlastních pokynů a popisků. Dotaz, odpověď, základní pravda
Kontrola řetězců Provádí flexibilní ověřování textu a porovnávání vzorů. Odezva
Podobnost textu Vyhodnotí kvalitu textu nebo určí sémantickou blízkost. Odpověď, základní pravda
Hodnotitel modelů Generuje číselné skóre (přizpůsobený rozsah) pro obsah na základě vlastních pokynů. Dotaz, odpověď, základní pravda

Další informace najdete v tématu Azure OpenAI Graders.

Vyhodnocovače v životním cyklu vývoje

Díky strategickému využití těchto vyhodnocovačů v průběhu životního cyklu vývoje můžou týmy vytvářet spolehlivější, bezpečné a efektivní aplikace AI, které splňují potřeby uživatelů a současně minimalizují potenciální rizika.

Diagram životního cyklu Enterprise GenAIOps znázorňující výběr modelu, vytvoření aplikace AI a zprovoznění

Tři fáze vyhodnocení GenAIOps

GenAIOps používá následující tři fáze.

Výběr základního modelu

Před sestavením aplikace je potřeba vybrat správné základy. Toto počáteční vyhodnocení vám pomůže porovnat různé modely na základě:

  • Kvalita a přesnost: Jak relevantní a koherentní jsou odpovědi modelu?
  • Výkon úloh: Zpracovává model vaše konkrétní případy použití efektivně?
  • Etické aspekty: Je model bez škodlivých předsudků?
  • Bezpečnostní profil: Jaké je riziko generování nebezpečného obsahu?

Dostupné nástroje: Srovnávací test Microsoft Foundry pro porovnávání modelů ve veřejných datových sadách nebo vlastních datech a sadu SDK pro vyhodnocení Azure AI pro testování konkrétních koncových bodů modelu.

Předprodukční vyhodnocení

Po výběru základního modelu je dalším krokem vývoj agenta nebo aplikace AI. Před nasazením do produkčního prostředí je důkladné testování nezbytné, aby se zajistilo, že agent nebo aplikace AI jsou připravené k použití v reálném světě.

Předprodukční vyhodnocení zahrnuje:

  • Testování pomocí zkušebních datových sad: Tyto datové sady simulují realistickou interakci uživatelů, aby se zajistilo, že agent AI funguje podle očekávání.
  • Identifikace hraničních případů: Vyhledání scénářů, ve kterých může kvalita odezvy agenta AI snížit nebo způsobit nežádoucí výstupy.
  • Posouzení robustnosti: Zajištění, aby agent umělé inteligence mohl zpracovávat řadu vstupních variací bez významného poklesu kvality nebo bezpečnosti.
  • Měření klíčových metrik: Metriky, jako je dodržování úkolů, podloženost odezvy, relevance a bezpečnost, se vyhodnocují za účelem potvrzení připravenosti na produkční prostředí.

Diagram předprodukčního vyhodnocení modelů a aplikací se šesti kroky

Předprodukční fáze funguje jako konečná kontrola kvality, což snižuje riziko nasazení agenta nebo aplikace AI, která nesplňuje požadované standardy výkonu nebo bezpečnosti.

Nástroje a přístupy pro vyhodnocení:

  • Přineste si vlastní data: Agenty a aplikace AI můžete vyhodnotit v předprodukci pomocí vlastních vyhodnocovacích dat s podporovanými vyhodnocovači, včetně kvality, bezpečnosti nebo vlastních vyhodnocovačů, a zobrazit výsledky prostřednictvím portálu Foundry. Použijte průvodce vyhodnocením od Foundry nebo vyhodnocovače podporované sadou Azure AI Evaluation SDK, včetně kvality generování, bezpečnosti nebo vlastních vyhodnocovačů. Zobrazte výsledky pomocí portálu Foundry.

  • Simulátory a agent seskupování AI: Pokud nemáte data vyhodnocení (testovací data), můžou simulátory sady SDK pro vyhodnocení Azure AI pomoct generováním dotazů souvisejících s tématy nebo nežádoucími dotazy. Tyto simulátory testují odpověď modelu na odpovídající situace nebo dotazy podobné útoku (hraniční případy).

    • AI red teaming agent simuluje složité záměrné útoky na váš AI systém pomocí široké škály útoků zaměřených na bezpečnost a zabezpečení s využitím otevřené platformy Microsoftu pro Nástroj pro identifikaci rizik v Pythonu, zvaného PyRIT.
    • Adversariální simulátory vkládají statické dotazy, které napodobují potenciální bezpečnostní rizika nebo bezpečnostní útoky, jako je pokus o jailbreak, pomáhají identifikovat omezení a připravit model na neočekávané podmínky.
    • Kontextové simulátory generují typické relevantní konverzace, které byste od uživatelů očekávali, aby otestovaly kvalitu odpovědí. Pomocí kontextových simulátorů můžete vyhodnotit metriky, jako je uzemnění, relevance, soudržnost a plynulost vygenerovaných odpovědí.

    Automatizované kontroly využívající agenta pro AI red teaming vylepšují posouzení předprodukčních rizik systematickým testováním aplikací umělé inteligence na rizika. Tento proces zahrnuje simulované scénáře útoku, které identifikují slabá místa v odpovědích modelu před skutečným nasazením. Provedením red teaming kontrol AI můžete detekovat a zmírnit potenciální bezpečnostní problémy před nasazením. Tento nástroj se doporučuje používat s procesy se zapojením člověka, jako je konvenční testování červených týmů AI, aby se urychlila identifikace rizik a pomohlo se při posuzování lidským odborníkem.

Alternativně můžete také použít portál Foundry k testování aplikací generující umělé inteligence.

  • Přineste si vlastní data: Aplikace AI můžete vyhodnotit v předprodukčním prostředí pomocí vlastních vyhodnocovacích dat s podporovanými vyhodnocovači, včetně kvality generování, bezpečnosti nebo vlastních vyhodnocovačů, a zobrazit výsledky prostřednictvím portálu Foundry. Použijte průvodce vyhodnocením Foundry nebo podporované vyhodnocovače sady Azure AI SDK , včetně kvality generování, bezpečnosti nebo vlastních vyhodnocovačů a zobrazte výsledky prostřednictvím portálu Foundry.

  • Simulátory a agent pro AI red teaming: V případě, že nemáte hodnoticí data (testovací data), můžou simulátory pomoct generováním dotazů souvisejících s tématy nebo adversariální dotazy. Tyto simulátory testují odpověď modelu na odpovídající situace nebo dotazy podobné útoku (hraniční případy).

    AI red teaming agent simuluje složité záměrné útoky na váš AI systém pomocí široké škály útoků zaměřených na bezpečnost a zabezpečení s využitím otevřené platformy Microsoftu pro Nástroj pro identifikaci rizik v Pythonu, zvaného PyRIT.

    Automatizované kontroly pomocí agenta seskupování červené umělé inteligence vylepšují posouzení předprodukčních rizik tím, že systematicky testují aplikace umělé inteligence na rizika. Tento proces zahrnuje simulované scénáře útoku, které identifikují slabá místa v odpovědích modelu před skutečným nasazením. Provedením red teaming kontrol AI můžete detekovat a zmírnit potenciální bezpečnostní problémy před nasazením. Tento nástroj se doporučuje používat s procesy se zapojením člověka, jako je konvenční testování červených týmů AI, aby se urychlila identifikace rizik a pomohlo se při posuzování lidským odborníkem.

Alternativně můžete také použít portál Foundry k testování aplikací generující umělé inteligence.

Jakmile získáte uspokojivé výsledky, můžete aplikaci AI nasadit do produkčního prostředí.

Monitorování po produkci

Po nasazení nepřetržité monitorování zajišťuje, aby vaše aplikace AI udržovala kvalitu v reálných podmínkách.

Po nasazení nepřetržité monitorování zajišťuje, aby vaše aplikace AI udržovala kvalitu v reálných podmínkách.

  • Provozní metriky: Pravidelné měření klíčových provozních metrik agenta AI.
  • Průběžné hodnocení: Umožňuje hodnocení kvality a bezpečnosti produkčního provozu vzorkovanou rychlostí.
  • Plánované vyhodnocení: Umožňuje plánované vyhodnocení kvality a bezpečnosti pomocí testovací datové sady zjišťovat odchylky v podkladových systémech.
  • Naplánované červené seskupování: Poskytuje plánované možnosti nežádoucího testování pro testování zabezpečení a ohrožení zabezpečení.
  • Upozornění služby Azure Monitor: Akce Swiftu, když dojde k škodlivým nebo nevhodným výstupům Nastavte upozornění pro průběžné vyhodnocování, abyste byli informováni, když výsledky hodnocení klesnou pod prahovou hodnotu úspěšnosti v produkci.

Efektivní monitorování pomáhá udržovat důvěru uživatelů a umožňuje rychlé řešení problémů.

Pozorovatelnost poskytuje komplexní možnosti monitorování nezbytné pro dnešní komplexní a rychle se vyvíjející prostředí AI. Bezproblémově integrovaná se službou Azure Monitor Application Insights umožňuje průběžné monitorování nasazených aplikací AI, aby se zajistil optimální výkon, bezpečnost a kvalita v produkčních prostředích.

Řídicí panel Foundry Observability poskytuje přehledy o důležitých metrikách v reálném čase. Umožňuje týmům rychle identifikovat a řešit problémy s výkonem, bezpečnostní obavy nebo snížení kvality.

Pro aplikace založené na agentech nabízí Foundry vylepšené možnosti průběžného hodnocení. Tyto funkce můžou poskytovat hlubší přehled o metrikách kvality a bezpečnosti. Můžou vytvořit robustní ekosystém monitorování, který se přizpůsobuje dynamické povaze aplikací umělé inteligence a současně zachovává vysoké standardy výkonu a spolehlivosti.

Nepřetržitým monitorováním chování aplikace AI v produkčním prostředí můžete udržovat vysoce kvalitní uživatelské prostředí a rychle řešit případné problémy, které se týkají.

Budování důvěry prostřednictvím systematického hodnocení

GenAIOps vytváří spolehlivý proces pro správu aplikací AI v průběhu jejich životního cyklu. Díky implementaci důkladného vyhodnocení v jednotlivých fázích – od výběru modelu přes nasazení a další – můžou týmy vytvářet řešení AI, která nejsou jen výkonná, ale důvěryhodná a bezpečná.

Stručná nápověda k vyhodnocení

Účel Proces Parametry, pokyny a ukázky
Co vyhodnocujete? Identifikace nebo sestavení relevantních vyhodnocovačů - Ukázkový poznámkový blok kvality a výkonu

- Kvalita odezvy agentů

- Bezpečnost a zabezpečení (ukázkový poznámkový blok bezpečnosti a zabezpečení)

- Vlastní (vlastní ukázkový poznámkový blok)
Jaká data byste měli použít? Nahrání nebo vygenerování relevantní datové sady - Obecný simulátor pro měření kvality a výkonu (obecný ukázkový poznámkový blok simulátoru)

- Adversariální simulátor pro měření bezpečnosti a ochrany (Ukázkový poznámkový blok adversariálního simulátoru)

– Agent pro red teamování AI pro spouštění automatizovaných kontrol za účelem posouzení zranitelností v oblasti bezpečnosti a zabezpečení (ukázkový poznámkový blok agenta red teamování AI)
Jak spustit vyhodnocení u datové sady? Spustit vyhodnocení - Běhy vyhodnocení agenta

- Vzdálené provozování cloudu

- Místní spuštění
Jak můj model nebo aplikace fungovaly? Analýza výsledků - Zobrazit agregovaná skóre, zobrazit podrobnosti, zobrazit podrobnosti skóre, porovnat běhy vyhodnocení
Jak můžu zlepšit? Provádění změn modelu, aplikace nebo vyhodnocovačů - Pokud výsledky vyhodnocení neodpočídaly lidské zpětné vazby, upravte vyhodnocovače.

– Pokud výsledky hodnocení odpovídají lidské zpětné vazbě, ale nesplňují prahové hodnoty kvality a bezpečnosti, použijte cílené zmírnění rizik. Příklad omezení rizik, která se mají použít: Zabezpečení obsahu Azure AI
Účel Proces Parametry, pokyny a ukázky
Co vyhodnocujete? Identifikace nebo sestavení relevantních vyhodnocovačů - Kvalita RAG

- Kvalita agentů

- Bezpečnost a zabezpečení (ukázkový poznámkový blok bezpečnosti a zabezpečení)

- Vlastní (vlastní ukázkový poznámkový blok)
Jaká data byste měli použít? Nahrání nebo vygenerování relevantní datové sady - Generování syntetických datových sad

– Agent pro red teamování AI pro spouštění automatizovaných kontrol za účelem posouzení zranitelností v oblasti bezpečnosti a zabezpečení (ukázkový poznámkový blok agenta red teamování AI)
Jak spustit vyhodnocení u datové sady? Spustit vyhodnocení - Běhy vyhodnocení agenta

- Vzdálené provozování cloudu
Jak můj model nebo aplikace fungovaly? Analýza výsledků - Zobrazit agregovaná skóre, zobrazit podrobnosti, zobrazit podrobnosti skóre, porovnat běhy vyhodnocení
Jak můžu zlepšit? Provádění změn modelu, aplikace nebo vyhodnocovačů - Pokud výsledky vyhodnocení neodpočídaly lidské zpětné vazby, upravte vyhodnocovače.

– Pokud výsledky hodnocení odpovídají lidské zpětné vazbě, ale nesplňují prahové hodnoty kvality a bezpečnosti, použijte cílené zmírnění rizik. Příklad omezení rizik, která se mají použít: Zabezpečení obsahu Azure AI

Používání vlastní virtuální sítě pro vyhodnocení

Pro účely izolace sítě můžete k vyhodnocení použít vlastní virtuální síť. Další informace najdete v tématu Konfigurace privátního propojení.

Poznámka:

Data vyhodnocení se posílají do Application Insights, pokud je Application Insights připojená. Podpora virtuální sítě pro Application Insights a trasování není dostupná.

Důležité

Pokud chcete zabránit selháním při vyhodnocování a red teamingu, přiřaďte spravované identitě projektu roli uživatele Azure AI během počátečního nastavení projektu.

Podpora oblasti virtuální sítě

Funkce Přineste si vlastní virtuální síť pro vyhodnocení se podporuje ve všech oblastech s výjimkou Střední Indie, Východní Asie, Severní Evropy a Kataru – střed.

Podpora oblastí

V současné době jsou některé vyhodnocovače asistované umělé inteligence k dispozici pouze v následujících oblastech:

Región Nenávist a nespravedlivost, Sexuální, Násilné, Sebepoškozování, Nepřímý útok, Ohrožení zabezpečení kódu, Neuzemněné atributy Groundedness Pro Chráněný materiál
USA – východ 2 Podporováno Podporováno Podporováno
Švédsko – střed Podporováno Podporováno není k dispozici
USA (střed) – sever Podporováno není k dispozici není k dispozici
Francie – střed Podporováno není k dispozici není k dispozici
Švýcarsko – západ Podporováno není k dispozici není k dispozici

Podpora testovacího prostředí agenta

Región Stav
USA – východ​ Podporováno
USA – východ 2 Podporováno
USA – západ Podporováno
USA – západ 2​ Podporováno
USA – západ 3 Podporováno
Francie – střed Podporováno
Norsko – východ Podporováno
Švédsko – střed Podporováno

Cenotvorba

Funkce pozorovatelnosti, jako jsou vyhodnocení rizik a bezpečnosti a průběžné vyhodnocování, se účtují na základě spotřeby, jak je uvedeno na stránce s cenami Azure.