Sdílet prostřednictvím


Pozorovatelnost v generativní umělé inteligenci

Životní cyklus aplikace AI vyžaduje robustní vyhodnocovací architektury, které zajišťují, aby systémy AI poskytovaly přesné, relevantní a spolehlivé výstupy. Bez důkladného posouzení systémy AI riskují generování odpovědí, které jsou nepřesné, nekonzistentní, špatně uzemněné nebo potenciálně škodlivé. Pozorovatelnost umožňuje týmům měřit a zlepšit kvalitu a bezpečnost výstupů umělé inteligence v průběhu životního cyklu vývoje – od výběru modelu prostřednictvím monitorování produkce.

Co je pozorovatelnost?

Pozorovatelnost umělé inteligence označuje schopnost monitorovat, pochopit a řešit potíže se systémy AI v průběhu jejich životního cyklu. Týmy můžou trasovat, vyhodnocovat, integrovat automatizované brány kvality do kanálů CI/CD a shromažďovat signály, jako jsou metriky hodnocení, protokoly, trasování a výstupy modelu, abyste získali přehled o výkonu, kvalitě, bezpečnosti a provozním stavu.

Základní možnosti pozorovatelnosti

Microsoft Foundry poskytuje tři základní funkce, které společně zajišťují komplexní pozorovatelnost v rámci životního cyklu aplikace AI:

Evaluation

Vyhodnocovače měří kvalitu, bezpečnost a spolehlivost odpovědí umělé inteligence v průběhu vývoje. Microsoft Foundry poskytuje integrované vyhodnocovače pro metriky kvality pro obecné účely (soudržnost, plynulost), metriky specifické pro RAG (uzemnění, relevance), bezpečnost a zabezpečení (nenávist/nespravedlivost, násilí, chráněné materiály) a metriky specifické pro agenty (přesnost volání nástroje, dokončení úkolu). Týmy můžou také vytvářet vlastní vyhodnocovače přizpůsobené požadavkům na konkrétní doménu.

Úplný seznam předdefinovaných vyhodnocovačů naleznete v referenci s názvem Předdefinovaní vyhodnocovači.

Monitoring

Provozní monitorování zajišťuje, že nasazené aplikace umělé inteligence udržují kvalitu a výkon v reálných podmínkách. Microsoft Foundry je integrovaný s Azure Monitor Application Insights a poskytuje řídicí panely v reálném čase, které sledují provozní metriky, spotřebu tokenů, latenci, chybovost a skóre kvality. Týmy můžou nastavit upozornění, když výstupy selžou prahové hodnoty kvality nebo vytvoří škodlivý obsah, což umožňuje rychlé řešení problémů.

Podrobnosti o nastavení provozního monitorování najdete na řídicím panelu Monitorování agentů.

Trasování

Distribuované sledování zachycuje průběh vykonávání AI aplikací a poskytuje přehled o voláních LLM, volání nástrojů, agentním rozhodování a závislostech mezi službami. Trasování založené na standardech OpenTelemetry a integrované s Application Insights umožňuje ladění složitých chování agentů, identifikaci kritických bodů výkonu a pochopení řetězců s vícero kroky. Microsoft Foundry podporuje trasování oblíbených architektur, včetně jazyka LangChain, Semantic Kernel a sady OpenAI Agents SDK.

Pokyny k implementaci trasování najdete v tématu Přehled agenta trasování.

Co jsou vyhodnocovače?

Vyhodnocovače jsou specializované nástroje, které měří kvalitu, bezpečnost a spolehlivost odpovědí umělé inteligence v průběhu životního cyklu vývoje.

Úplný seznam předdefinovaných vyhodnocovačů naleznete v referenci s názvem Předdefinovaní vyhodnocovači.

Vyhodnocovače se integrují do každé fáze životního cyklu AI, aby se zajistila spolehlivost, bezpečnost a efektivita.

Diagram životního cyklu aplikace AI znázorňující výběr modelu, vytvoření aplikace AI a zprovoznění

Tři fáze vyhodnocení životního cyklu aplikace AI

Výběr základního modelu

Výběr správného základního modelu porovnáním kvality, výkonu úloh, etických aspektů a bezpečnostních profilů napříč různými modely

Nástroje dostupné: Srovnávací test Microsoft Foundry pro porovnávání modelů s veřejnými datovými sadami nebo vlastními daty, a sadu AZURE Sdk pro vyhodnocení AI pro testování konkrétních koncových bodů modelu.

Předprodukční vyhodnocení

Před nasazením důkladné testování zajišťuje, že je agent s umělou inteligencí nebo aplikace připravený pro produkční prostředí. Tato fáze ověřuje výkon prostřednictvím vyhodnocovacích datových sad, identifikuje hraniční případy, posuzuje robustnost a měří klíčové metriky, včetně dodržování úkolů, uzemnění, relevance a bezpečnosti. Informace o vytváření agentů připravených pro produkční prostředí s vícekolovými konverzacemi, voláním nástrojů a správou stavu najdete v části Služba agenta Foundry.

Diagram předprodukčního vyhodnocení pro modely a aplikace se šesti kroky

Nástroje a přístupy pro vyhodnocení:

Monitorování po produkci

Nepřetržité monitorování po nasazení zajišťuje, že vaše aplikace AI udržuje kvalitu v reálných podmínkách:

  • Provozní metriky: Pravidelné měření klíčových provozních metrik agenta AI
  • Průběžné hodnocení: Hodnocení kvality a bezpečnosti produktivního provozu při vzorkovací frekvenci
  • Plánované vyhodnocení: Plánované vyhodnocení kvality a bezpečnosti s využitím testovacích datových sad k detekci odchylek systému
  • Naplánované red teaming: Naplánované adversariální testování pro hledání zranitelností v bezpečnosti a zabezpečení
  • upozornění Azure Monitor: Oznámení v případech, kdy výstupy selžou prahové hodnoty kvality nebo produkují škodlivý obsah

Integrovaný s Azure Monitor Application Insights, řídicí panel Foundry Observability poskytuje přehledy o výkonu, bezpečnosti a kvalitě v reálném čase, což umožňuje rychlé řešení problémů a udržování důvěry uživatelů.

Stručná nápověda k vyhodnocení

Účel Proces Parametry, pokyny a ukázky
Jak nastavit sledování? Konfigurace distribuovaného trasování Přehled trasování

Trasování pomocí sady Agents SDK
Co vyhodnocujete? Identifikace nebo sestavení relevantních vyhodnocovačů Předdefinované vyhodnocovače

Vlastní vyhodnocovače
ukázky sady SDK
Python
ukázky sady SDK
C#
Jaká data byste měli použít? Nahrání nebo vygenerování relevantní datové sady Výběr nebo vytvoření datové sady
Jak spustit vyhodnocení? Spustit vyhodnocení Vyhodnocení agentů

Vzdálený přístup ke cloudu
Jak moje aplikace modelu/AI fungovala? Analýza výsledků Zobrazení výsledků vyhodnocení

Analýza clusteru
Jak můžu zlepšit? Analýza výsledků a optimalizace agentů Analýza selhání vyhodnocení pomocí analýzy clusteru

Optimalizujte agenty a znovu vyhodnoťte.

Zkontrolujte výsledky vyhodnocení.

Podpora oblastí, omezení rychlosti a podpora virtuálních sítí

Pokud chcete zjistit, které oblasti podporují vyhodnocovače s asistencí umělé inteligence, omezení rychlosti, která se vztahují na testovací běhy, a jak nakonfigurovat podporu virtuální sítě pro izolaci sítě, podívejte se na podporu oblastí, omezení rychlosti a podporu virtuálních sítí pro vyhodnocení.

Pricing

Funkce pozorovatelnosti, jako jsou vyhodnocení rizik a bezpečnosti a hodnocení v herním prostředí agentů, se účtují na základě spotřeby, jak je uvedeno v na stránce s cenami Azure.

Důležité

Hodnocení v testovacím prostředí agentů jsou ve výchozím nastavení povolená pro všechny projekty Foundry a jsou zahrnutá ve fakturaci na základě spotřeby. Chcete-li vypnout hodnocení v simulaci agentů, vyberte metriky v pravém horním rohu prostředí agentů a zrušte výběr všech hodnotitelů.

Snímek obrazovky portálu Foundry zobrazující dětské hřiště agentů s vybranými metrikami