Pozorovatelnost v generativní umělé inteligenci

Životní cyklus aplikace AI vyžaduje robustní vyhodnocovací architektury, které zajišťují, aby systémy AI poskytovaly přesné, relevantní a spolehlivé výstupy. Bez důkladného posouzení systémy AI riskují generování odpovědí, které jsou nepřesné, nekonzistentní, špatně uzemněné nebo potenciálně škodlivé. Pozorovatelnost umožňuje týmům měřit a zlepšit kvalitu a bezpečnost výstupů umělé inteligence v průběhu životního cyklu vývoje – od výběru modelu prostřednictvím monitorování produkce.

Co je pozorovatelnost?

Pozorovatelnost umělé inteligence označuje schopnost monitorovat, pochopit a řešit potíže se systémy AI v průběhu jejich životního cyklu. Týmy můžou trasovat, vyhodnocovat, integrovat automatizované brány kvality do kanálů CI/CD a shromažďovat signály, jako jsou metriky hodnocení, protokoly, trasování a výstupy modelu, abyste získali přehled o výkonu, kvalitě, bezpečnosti a provozním stavu.

Základní možnosti pozorovatelnosti

Microsoft Foundry poskytuje tři základní funkce, které společně zajišťují komplexní pozorovatelnost v rámci životního cyklu aplikace AI:

Evaluation

Vyhodnocovače měří kvalitu, bezpečnost a spolehlivost odpovědí umělé inteligence v průběhu vývoje. Microsoft Foundry poskytuje integrované vyhodnocovače pro metriky kvality pro obecné účely (soudržnost, plynulost), metriky specifické pro RAG (uzemnění, relevance), bezpečnost a zabezpečení (nenávist/nespravedlivost, násilí, chráněné materiály) a metriky specifické pro agenty (přesnost volání nástroje, dokončení úkolu). Týmy můžou také vytvářet vlastní vyhodnocovače přizpůsobené požadavkům na konkrétní doménu.

Úplný seznam předdefinovaných vyhodnocovačů naleznete v referenci s názvem Předdefinovaní vyhodnocovači.

Monitoring

Provozní monitorování zajišťuje, že nasazené aplikace umělé inteligence udržují kvalitu a výkon v reálných podmínkách. Microsoft Foundry je integrovaný s Azure Monitor Application Insights a poskytuje řídicí panely v reálném čase, které sledují provozní metriky, spotřebu tokenů, latenci, chybovost a skóre kvality. Týmy můžou nastavit upozornění, když výstupy selžou prahové hodnoty kvality nebo vytvoří škodlivý obsah, což umožňuje rychlé řešení problémů.

Podrobnosti o nastavení provozního monitorování najdete na řídicím panelu Monitorování agentů.

Trasování

Distribuované sledování zachycuje průběh vykonávání AI aplikací a poskytuje přehled o voláních LLM, volání nástrojů, agentním rozhodování a závislostech mezi službami. Trasování založené na standardech OpenTelemetry a integrované s Application Insights umožňuje ladění složitých chování agentů, identifikaci kritických bodů výkonu a pochopení řetězců s vícero kroky. Microsoft Foundry podporuje trasování oblíbených architektur, včetně jazyka LangChain, Semantic Kernel a sady OpenAI Agents SDK.

Pokyny k implementaci trasování najdete v tématu Přehled agenta trasování.

Co jsou vyhodnocovače?

Vyhodnocovače jsou specializované nástroje, které měří kvalitu, bezpečnost a spolehlivost odpovědí umělé inteligence v průběhu životního cyklu vývoje.

Úplný seznam předdefinovaných vyhodnocovačů naleznete v referenci s názvem Předdefinovaní vyhodnocovači.

Vyhodnocovače se integrují do každé fáze životního cyklu AI, aby se zajistila spolehlivost, bezpečnost a efektivita.

Tři fáze vyhodnocení životního cyklu aplikace AI

Výběr základního modelu

Výběr správného základního modelu porovnáním kvality, výkonu úloh, etických aspektů a bezpečnostních profilů napříč různými modely

Nástroje dostupné: Srovnávací test Microsoft Foundry pro porovnávání modelů s veřejnými datovými sadami nebo vlastními daty, a sadu AZURE Sdk pro vyhodnocení AI pro testování konkrétních koncových bodů modelu.

Předprodukční vyhodnocení

Před nasazením důkladné testování zajišťuje, že je agent s umělou inteligencí nebo aplikace připravený pro produkční prostředí. Tato fáze ověřuje výkon prostřednictvím vyhodnocovacích datových sad, identifikuje hraniční případy, posuzuje robustnost a měří klíčové metriky, včetně dodržování úkolů, uzemnění, relevance a bezpečnosti. Informace o vytváření agentů připravených pro produkční prostředí s vícekolovými konverzacemi, voláním nástrojů a správou stavu najdete v části Služba agenta Foundry.

Nástroje a přístupy pro vyhodnocení:

Používání vlastních dat: Vyhodnocení aplikací umělé inteligence pomocí vlastních dat s využitím kvality, bezpečnosti nebo vlastních vyhodnocovačů Použijte průvodce vyhodnocením portálu Foundry nebo sadu Foundry SDK a zobrazte výsledky na portálu Foundry.
AI red teaming agent: AI red teaming agent simuluje složité útoky pomocí PyRIT frameworku od Microsoftu k identifikaci zranitelností před nasazením. Nejlépe se používá s procesy, ve kterých je člověk zapojen do smyčky.

Monitorování po produkci

Nepřetržité monitorování po nasazení zajišťuje, že vaše aplikace AI udržuje kvalitu v reálných podmínkách:

Provozní metriky: Pravidelné měření klíčových provozních metrik agenta AI
Průběžné hodnocení: Hodnocení kvality a bezpečnosti produktivního provozu při vzorkovací frekvenci
Plánované vyhodnocení: Plánované vyhodnocení kvality a bezpečnosti s využitím testovacích datových sad k detekci odchylek systému
Naplánované red teaming: Naplánované adversariální testování pro hledání zranitelností v bezpečnosti a zabezpečení
upozornění Azure Monitor: Oznámení v případech, kdy výstupy selžou prahové hodnoty kvality nebo produkují škodlivý obsah

Integrovaný s Azure Monitor Application Insights, řídicí panel Foundry Observability poskytuje přehledy o výkonu, bezpečnosti a kvalitě v reálném čase, což umožňuje rychlé řešení problémů a udržování důvěry uživatelů.

Stručná nápověda k vyhodnocení

Účel	Proces	Parametry, pokyny a ukázky
Jak nastavit sledování?	Konfigurace distribuovaného trasování	Přehled trasování Trasování pomocí sady Agents SDK
Co vyhodnocujete?	Identifikace nebo sestavení relevantních vyhodnocovačů	Předdefinované vyhodnocovače Vlastní vyhodnocovače ukázky sady SDK Python ukázky sady SDK C#
Jaká data byste měli použít?	Nahrání nebo vygenerování relevantní datové sady	Výběr nebo vytvoření datové sady
Jak spustit vyhodnocení?	Spustit vyhodnocení	Vyhodnocení agentů Vzdálený přístup ke cloudu
Jak moje aplikace modelu/AI fungovala?	Analýza výsledků	Zobrazení výsledků vyhodnocení Analýza clusteru
Jak můžu zlepšit?	Analýza výsledků a optimalizace agentů	Analýza selhání vyhodnocení pomocí analýzy clusteru Optimalizujte agenty a znovu vyhodnoťte. Zkontrolujte výsledky vyhodnocení.

Podpora oblastí, omezení rychlosti a podpora virtuálních sítí

Pokud chcete zjistit, které oblasti podporují vyhodnocovače s asistencí umělé inteligence, omezení rychlosti, která se vztahují na testovací běhy, a jak nakonfigurovat podporu virtuální sítě pro izolaci sítě, podívejte se na podporu oblastí, omezení rychlosti a podporu virtuálních sítí pro vyhodnocení.

Pricing

Funkce pozorovatelnosti, jako jsou vyhodnocení rizik a bezpečnosti a hodnocení v herním prostředí agentů, se účtují na základě spotřeby, jak je uvedeno v na stránce s cenami Azure.

Důležité

Hodnocení v testovacím prostředí agentů jsou ve výchozím nastavení povolená pro všechny projekty Foundry a jsou zahrnutá ve fakturaci na základě spotřeby. Chcete-li vypnout hodnocení v simulaci agentů, vyberte metriky v pravém horním rohu prostředí agentů a zrušte výběr všech hodnotitelů.

Váš názor

Byla tato stránka užitečná?

Last updated on 2026-03-28