Pozorovatelnost v generativní umělé inteligenci

2025-05-19

Důležité

Položky označené (Preview) v tomto článku jsou aktuálně ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce nemusí být podporované nebo můžou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.

V dnešním světě založeném na umělé inteligenci (Generative AI Operations) (GenAIOps) mění způsob sestavování a nasazování inteligentních systémů organizací. Vzhledem k tomu, že společnosti stále častěji využívají AI k transformaci rozhodování, vylepšení zákaznických zážitků a podporu inovací, jedním z nejdůležitějších prvků je robustní hodnoticí rámce. Vyhodnocení není jen kontrolní bod. Je základem důvěryhodnosti v aplikacích AI. Bez důkladného posouzení můžou systémy AI vytvářet obsah, který je:

Vymyšlené nebo bez opory v realitě
Irelevantní nebo nesouvislé vzhledem k potřebám uživatelů
Škodlivé při zachování rizik a stereotypů v obsahu
Nebezpečné při šíření dezinformací
Ohrožená zneužitím zabezpečení

To je místo, kde se vyhodnocovače stanou zásadními. Tyto specializované nástroje měří četnost i závažnost rizik ve výstupech umělé inteligence, což týmům umožňuje systematicky řešit otázky kvality, bezpečnosti a zabezpečení během celé cesty vývoje umělé inteligence – od výběru správného modelu až po monitorování výkonu, kvality a bezpečnosti výroby.

Co jsou vyhodnocovače?

Vyhodnocovače jsou specializované nástroje, které měří kvalitu, bezpečnost a spolehlivost odpovědí umělé inteligence. Díky implementaci systematických hodnocení v průběhu životního cyklu vývoje umělé inteligence můžou týmy identifikovat a řešit potenciální problémy předtím, než ovlivní uživatele. Následující podporované vyhodnocovače poskytují komplexní možnosti posouzení napříč různými typy aplikací AI a obavami:

RAG (načítání rozšířené generace):

Hodnotitel	Účel
Vyhledání	Měří, jak efektivně systém načítá relevantní informace.
Získání dokumentu	Měří přesnost ve výsledcích načítání podle skutečných dat.
Ukotvenost	Měří, jak je odpověď konzistentní vzhledem k načtenému kontextu.
Groundedness Pro	Určuje, zda je odpověď konzistentní s ohledem na načtený kontext.
Význam	Měří, jak je odpověď relevantní vzhledem k dotazu.
Úplnost odpovědi	Měří, do jaké míry je odpověď úplná, aby nechyběly důležité informace, s ohledem na referenční skutečnosti.

Agenti (Preview):

Hodnotitel	Účel
Řešení záměru	Měří, jak přesně agent identifikuje a řeší záměry uživatelů.
Dodržování úkolů	Měří, jak dobře agent postupuje podle identifikovaných úloh.
Přesnost volání nástroje	Měří, jak dobře agent vybere a zavolá správné nástroje.

Obecné účely:

Hodnotitel	Účel
Plynulost	Měří kvalitu přirozeného jazyka a čitelnost.
Koherence	Měří logickou konzistenci a tok odpovědí.
Zajištění kvality	Měří komplexně různé aspekty kvality v rámci odpovídání na otázky.

Bezpečnost a zabezpečení (Preview):

Hodnotitel	Účel
Násilí	Detekuje násilné obsah nebo incitace.
Sexuální	Identifikuje nevhodný sexuální obsah.
Sebepoškozování	Detekuje obsah podporující nebo popisující sebepoškozování.
Nenávist a nespravedlivost	Identifikuje zkreslený, nediskriminační nebo nenávistný obsah.
Neuzemněné atributy	Detekuje vymyšlené nebo halucinované informace odvozené z interakcí uživatelů.
Zranitelnost kódu	Identifikuje problémy se zabezpečením vygenerovaného kódu.
Chráněné materiály	Detekuje neoprávněné použití obsahu chráněného autorskými právy nebo jiného chráněného obsahu.
Bezpečnost obsahu	Komplexní posouzení různých bezpečnostních otázek.

Textová podobnost:

Hodnotitel	Účel
Podobnost	Měření textové podobnosti s asistencí umělé inteligence
F1 skóre	Harmonický průměr přesnosti a úplnosti v tokenech se překrývají mezi odezvou a základní pravdou.
BLEU	Dvojjazyčné hodnocení skóre podkladů pro měření kvality překladu porovnává překrytí n-gramů mezi odezvou a základní pravdou.
GLEU	Google-BLEU varianta pro míry hodnocení na úrovni věty zkoumá překrývání v n-gramech mezi odpovědí a referenční pravdou.
RŮŽ	Recall-Oriented Alternativa pro hodnotící přehledová opatření měří překryvy v n-gramech mezi odezvou a základní referencí.
METEOR	Metrika pro vyhodnocení překladu s explicitním pořadím měří překrývání n-gramů mezi odpovědí a referenčním textem.

Azure OpenAI Graders (Preview):

Hodnotitel	Účel
Popisovač modelu	Klasifikuje obsah pomocí vlastních pokynů a popisků.
Hodnotitel modelů	Generuje číselné skóre (přizpůsobený rozsah) pro obsah na základě vlastních pokynů.
Kontrola řetězců	Provádí flexibilní ověřování textu a porovnávání vzorů.
Textová podobnost	Vyhodnotí kvalitu textu nebo určí sémantickou blízkost.

Díky strategickému využití těchto vyhodnocovačů v průběhu životního cyklu vývoje můžou týmy vytvářet spolehlivější, bezpečné a efektivní aplikace AI, které splňují potřeby uživatelů a současně minimalizují potenciální rizika.

Tři fáze vyhodnocení GenAIOps

Výběr základního modelu

Před sestavením aplikace je potřeba vybrat správné základy. Toto počáteční vyhodnocení vám pomůže porovnat různé modely na základě:

Kvalita a přesnost: Jak relevantní a koherentní jsou odpovědi modelu?
Výkon úloh: Zpracovává model vaše konkrétní případy použití efektivně?
Etické aspekty: Je model bez škodlivých předsudků?
Bezpečnostní profil: Jaké je riziko generování nebezpečného obsahu?

Dostupné nástroje: Srovnávací test Azure AI Foundry pro porovnávání modelů ve veřejných datových sadách nebo vlastních datech a sadu SDK pro vyhodnocení Azure AI pro testování konkrétních koncových bodů modelu.

Předprodukční vyhodnocení

Po výběru základního modelu je dalším krokem vývoj aplikace AI, jako je chatovací robot využívající AI, aplikace rag (retrieval-augmented generation), agentská aplikace AI nebo jakýkoli jiný nástroj generující AI. Po dokončení vývoje začne předběžné vyhodnocení. Před nasazením do produkčního prostředí je důkladné testování nezbytné k zajištění připravenosti modelu na skutečné použití.

Předprodukční vyhodnocení zahrnuje:

Testování pomocí zkušebních datových sad: Tyto datové sady simulují realistickou interakci uživatelů, aby aplikace AI fungovala podle očekávání.
Identifikace hraničních případů: Vyhledání scénářů, ve kterých může kvalita odezvy aplikace AI snížit nebo způsobit nežádoucí výstupy.
Posouzení robustnosti: Zajištění, aby model mohl zpracovávat řadu vstupních variací bez významných poklesů kvality nebo bezpečnosti.
Měření klíčových metrik: Metriky, jako je podloženost odezvy, relevance a bezpečnost, se vyhodnocují, aby se potvrdila připravenost pro nasazení do produkce.

Předprodukční fáze funguje jako konečná kontrola kvality a snižuje riziko nasazení aplikace AI, která nesplňuje požadované standardy výkonu nebo bezpečnosti.

Nástroje a přístupy pro vyhodnocení:

Přineste si vlastní data: Aplikace AI můžete vyhodnotit v předprodukčním prostředí pomocí vlastních vyhodnocovacích dat s podporovanými vyhodnocovači, včetně kvality generování, bezpečnosti nebo vlastních vyhodnocovačů, a zobrazit výsledky prostřednictvím portálu Azure AI Foundry. Použijte průvodce vyhodnocením Azure AI Foundry nebo podporované vyhodnocovače sady Azure AI Evaluation SDK , včetně kvality generování, bezpečnosti nebo vlastních vyhodnocovačů a zobrazte výsledky prostřednictvím portálu Azure AI Foundry.
Simulátory a agent pro seskupování AI (Preview): Pokud nemáte data vyhodnocení (testovací data), můžou simulátory sady SDK pro vyhodnocení Azure AI pomoct generováním dotazů souvisejících s tématy nebo nežádoucími dotazy. Tyto simulátory testují odpověď modelu na odpovídající situace nebo dotazy podobné útoku (hraniční případy).
- Adversární simulátory zavádějí statické dotazy, které napodobují potenciální bezpečnostní rizika nebo útoky na zabezpečení, jako jsou jailbreaky nebo pokusy o ně, pomáhají identifikovat omezení a připravit model na neočekávané podmínky.
- Kontextové simulátory generují typické relevantní konverzace, které byste od uživatelů očekávali, aby otestovaly kvalitu odpovědí. Pomocí kontextových simulátorů můžete vyhodnotit metriky, jako je uzemnění, relevance, soudržnost a plynulost vygenerovaných odpovědí.
- AI red teaming agent (Preview) simuluje složité adversární útoky na váš systém AI pomocí široké škály útoků zaměřených na bezpečnost a ochranu při využití otevřené architektury Microsoftu pro nástroj PyRIT (Python Risk Identification Tool). Automatizované kontroly pomocí červeného agenta seskupování umělé inteligence vylepšují posouzení předprodukčního rizika tím, že systematicky testují aplikace umělé inteligence na rizika. Tento proces zahrnuje simulované scénáře útoku, které identifikují slabá místa v odpovědích modelu před skutečným nasazením. Provedením red teaming kontrol AI můžete detekovat a zmírnit potenciální bezpečnostní problémy před nasazením. Tento nástroj se doporučuje používat s procesy zapojení člověka, jako je konvenční testování AI pomocí červeného teamingování, aby bylo možné urychlit identifikaci rizik a pomoc při posuzování odborníkem.

Alternativně můžete k testování generovaných aplikací AI použít také widget pro vyhodnocení portálu Azure AI Foundry .

Po dosažení uspokojivých výsledků je možné aplikaci AI nasadit do produkčního prostředí.

Monitorování po produkci

Nepřetržité monitorování po nasazení zajišťuje, že vaše aplikace AI udržuje kvalitu v reálných podmínkách:

Sledování výkonu: Pravidelné měření klíčových metrik.
Reakce na incidenty: Akce Swiftu, když dojde k škodlivým nebo nevhodným výstupům.

Efektivní monitorování pomáhá udržovat důvěru uživatelů a umožňuje rychlé řešení problémů.

Azure AI Foundry Observability poskytuje komplexní možnosti monitorování nezbytné pro dnešní komplexní a rychle se vyvíjející prostředí AI. Bezproblémově integrovaná se službou Azure Monitor Application Insights umožňuje průběžné monitorování nasazených aplikací AI, aby se zajistil optimální výkon, bezpečnost a kvalita v produkčních prostředích. Řídicí panel Foundry Observability poskytuje přehledy o kritických metrikách v reálném čase, což týmům umožňuje rychle identifikovat a řešit problémy s výkonem, bezpečnostní obavy nebo snížení kvality. Pro aplikace založené na agentech nabízí Foundry vylepšené možnosti průběžného hodnocení, které můžou být povoleny, aby poskytovaly hlubší přehled o metrikách kvality a bezpečnosti a vytvořily robustní monitorovací ekosystém, který se přizpůsobuje dynamické povaze aplikací AI a současně zachovává vysoké standardy výkonu a spolehlivosti.

Nepřetržitým monitorováním chování aplikace AI v produkčním prostředí můžete udržovat vysoce kvalitní uživatelské prostředí a rychle řešit případné problémy, které se týkají.

Budování důvěry prostřednictvím systematického hodnocení

GenAIOps vytváří spolehlivý proces pro správu aplikací AI v průběhu jejich životního cyklu. Díky implementaci důkladného vyhodnocení v jednotlivých fázích – od výběru modelu přes nasazení a další – můžou týmy vytvářet řešení AI, která nejsou jen výkonná, ale důvěryhodná a bezpečná.

Stručná nápověda k vyhodnocení

Účel	Proces	Parametry
Co vyhodnocujete?	Identifikace nebo sestavení relevantních vyhodnocovačů	- Ukázkový poznámkový blok kvality a výkonu - Kvalita odezvy agentů - Bezpečnost a zabezpečení (ukázkový poznámkový blok bezpečnosti a zabezpečení) - Vlastní (vlastní ukázkový poznámkový blok)
Jaká data byste měli použít?	Nahrání nebo vygenerování relevantní datové sady	Obecný simulátor pro měření kvality a výkonu (obecný ukázkový poznámkový blok simulátoru) - Adversariální simulátor pro měření bezpečnosti a ochrany (Ukázkový poznámkový blok adversariálního simulátoru) Nástroj pro testování AI red teaming pro provádění automatizovaných kontrol k posouzení zranitelností v oblasti bezpečnosti (ukázkový poznámkový blok agenta AI red teaming)
Jaké zdroje by měly provést vyhodnocení?	Spustit vyhodnocení	- Místní spuštění - Vzdálené provozování cloudu
Jak můj model nebo aplikace fungovaly?	Analýza výsledků	Zobrazit souhrnná skóre, zobrazit podrobnosti, podrobnosti k hodnocení, porovnat vyhodnocovací běhy
Jak můžu zlepšit?	Provádění změn modelu, aplikace nebo vyhodnocovačů	- Pokud výsledky vyhodnocení neodpočídaly lidské zpětné vazby, upravte vyhodnocovače. – Pokud výsledky hodnocení odpovídají lidské zpětné vazbě, ale nesplňují prahové hodnoty kvality a bezpečnosti, použijte cílené zmírnění rizik. Příklad omezení rizik, která se mají použít: Zabezpečení obsahu Azure AI

Podpora oblastí

V současné době jsou některé vyhodnocovače asistované umělé inteligence k dispozici pouze v následujících oblastech:

Región	Nenávist a nespravedlivost, Sexuální, Násilné, Sebepoškozování, Nepřímý útok, Ohrožení zabezpečení kódu, Neuzemněné atributy	Groundedness Pro	Chráněný materiál
Východní USA 2	Podporováno	Podporováno	Podporováno
Švédsko – střed	Podporováno	Podporováno	není k dispozici
Severní střed USA	Podporováno	není k dispozici	není k dispozici
Francie – střed	Podporováno	není k dispozici	není k dispozici
Švýcarsko – západ	Podporováno	není k dispozici	není k dispozici

Cenotvorba

Funkce pozorovatelnosti, jako jsou vyhodnocení rizik a bezpečnosti a průběžné vyhodnocování, se účtují na základě spotřeby, jak je uvedeno na stránce s cenami Azure. Zvolte kartu označenou Complete AI Toolchain, abyste zobrazili podrobnosti o cenách pro vyhodnocení.