Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Životní cyklus aplikace AI vyžaduje robustní vyhodnocovací architektury, které zajišťují, aby systémy AI poskytovaly přesné, relevantní a spolehlivé výstupy. Bez důkladného posouzení systémy AI riskují generování odpovědí, které jsou nepřesné, nekonzistentní, špatně uzemněné nebo potenciálně škodlivé. Pozorovatelnost umožňuje týmům měřit a zlepšit kvalitu a bezpečnost výstupů umělé inteligence v průběhu životního cyklu vývoje – od výběru modelu prostřednictvím monitorování produkce.
Co je pozorovatelnost?
Pozorovatelnost umělé inteligence označuje schopnost monitorovat, pochopit a řešit potíže se systémy AI v průběhu jejich životního cyklu. Týmy můžou trasovat, vyhodnocovat, integrovat automatizované brány kvality do kanálů CI/CD a shromažďovat signály, jako jsou metriky hodnocení, protokoly, trasování a výstupy modelu, abyste získali přehled o výkonu, kvalitě, bezpečnosti a provozním stavu.
Základní možnosti pozorovatelnosti
Microsoft Foundry poskytuje tři základní funkce, které společně zajišťují komplexní pozorovatelnost v rámci životního cyklu aplikace AI:
Evaluation
Vyhodnocovače měří kvalitu, bezpečnost a spolehlivost odpovědí umělé inteligence v průběhu vývoje. Microsoft Foundry poskytuje integrované vyhodnocovače pro metriky kvality pro obecné účely (soudržnost, plynulost), metriky specifické pro RAG (uzemnění, relevance), bezpečnost a zabezpečení (nenávist/nespravedlivost, násilí, chráněné materiály) a metriky specifické pro agenty (přesnost volání nástroje, dokončení úkolu). Týmy můžou také vytvářet vlastní vyhodnocovače přizpůsobené požadavkům na konkrétní doménu.
Úplný seznam předdefinovaných vyhodnocovačů naleznete v referenci s názvem Předdefinovaní vyhodnocovači.
Monitoring
Provozní monitorování zajišťuje, že nasazené aplikace umělé inteligence udržují kvalitu a výkon v reálných podmínkách. Microsoft Foundry je integrovaný s Azure Monitor Application Insights a poskytuje řídicí panely v reálném čase, které sledují provozní metriky, spotřebu tokenů, latenci, chybovost a skóre kvality. Týmy můžou nastavit upozornění, když výstupy selžou prahové hodnoty kvality nebo vytvoří škodlivý obsah, což umožňuje rychlé řešení problémů.
Podrobnosti o nastavení provozního monitorování najdete na řídicím panelu Monitorování agentů.
Trasování
Distribuované sledování zachycuje průběh vykonávání AI aplikací a poskytuje přehled o voláních LLM, volání nástrojů, agentním rozhodování a závislostech mezi službami. Trasování založené na standardech OpenTelemetry a integrované s Application Insights umožňuje ladění složitých chování agentů, identifikaci kritických bodů výkonu a pochopení řetězců s vícero kroky. Microsoft Foundry podporuje trasování oblíbených architektur, včetně jazyka LangChain, Semantic Kernel a sady OpenAI Agents SDK.
Pokyny k implementaci trasování najdete v tématu Přehled agenta trasování.
Co jsou vyhodnocovače?
Vyhodnocovače jsou specializované nástroje, které měří kvalitu, bezpečnost a spolehlivost odpovědí umělé inteligence v průběhu životního cyklu vývoje.
Úplný seznam předdefinovaných vyhodnocovačů naleznete v referenci s názvem Předdefinovaní vyhodnocovači.
Vyhodnocovače se integrují do každé fáze životního cyklu AI, aby se zajistila spolehlivost, bezpečnost a efektivita.
Tři fáze vyhodnocení životního cyklu aplikace AI
Výběr základního modelu
Výběr správného základního modelu porovnáním kvality, výkonu úloh, etických aspektů a bezpečnostních profilů napříč různými modely
Nástroje dostupné: Srovnávací test Microsoft Foundry pro porovnávání modelů s veřejnými datovými sadami nebo vlastními daty, a sadu AZURE Sdk pro vyhodnocení AI pro testování konkrétních koncových bodů modelu.
Předprodukční vyhodnocení
Před nasazením důkladné testování zajišťuje, že je agent s umělou inteligencí nebo aplikace připravený pro produkční prostředí. Tato fáze ověřuje výkon prostřednictvím vyhodnocovacích datových sad, identifikuje hraniční případy, posuzuje robustnost a měří klíčové metriky, včetně dodržování úkolů, uzemnění, relevance a bezpečnosti. Informace o vytváření agentů připravených pro produkční prostředí s vícekolovými konverzacemi, voláním nástrojů a správou stavu najdete v části Služba agenta Foundry.
Nástroje a přístupy pro vyhodnocení:
Používání vlastních dat: Vyhodnocení aplikací umělé inteligence pomocí vlastních dat s využitím kvality, bezpečnosti nebo vlastních vyhodnocovačů Použijte průvodce vyhodnocením portálu Foundry nebo sadu Foundry SDK a zobrazte výsledky na portálu Foundry.
AI red teaming agent: AI red teaming agent simuluje složité útoky pomocí PyRIT frameworku od Microsoftu k identifikaci zranitelností před nasazením. Nejlépe se používá s procesy, ve kterých je člověk zapojen do smyčky.
Monitorování po produkci
Nepřetržité monitorování po nasazení zajišťuje, že vaše aplikace AI udržuje kvalitu v reálných podmínkách:
- Provozní metriky: Pravidelné měření klíčových provozních metrik agenta AI
- Průběžné hodnocení: Hodnocení kvality a bezpečnosti produktivního provozu při vzorkovací frekvenci
- Plánované vyhodnocení: Plánované vyhodnocení kvality a bezpečnosti s využitím testovacích datových sad k detekci odchylek systému
- Naplánované red teaming: Naplánované adversariální testování pro hledání zranitelností v bezpečnosti a zabezpečení
- upozornění Azure Monitor: Oznámení v případech, kdy výstupy selžou prahové hodnoty kvality nebo produkují škodlivý obsah
Integrovaný s Azure Monitor Application Insights, řídicí panel Foundry Observability poskytuje přehledy o výkonu, bezpečnosti a kvalitě v reálném čase, což umožňuje rychlé řešení problémů a udržování důvěry uživatelů.
Stručná nápověda k vyhodnocení
| Účel | Proces | Parametry, pokyny a ukázky |
|---|---|---|
| Jak nastavit sledování? | Konfigurace distribuovaného trasování |
Přehled trasování Trasování pomocí sady Agents SDK |
| Co vyhodnocujete? | Identifikace nebo sestavení relevantních vyhodnocovačů |
Předdefinované vyhodnocovače Vlastní vyhodnocovače ukázky sady SDK Python ukázky sady SDK C# |
| Jaká data byste měli použít? | Nahrání nebo vygenerování relevantní datové sady | Výběr nebo vytvoření datové sady |
| Jak spustit vyhodnocení? | Spustit vyhodnocení |
Vyhodnocení agentů Vzdálený přístup ke cloudu |
| Jak moje aplikace modelu/AI fungovala? | Analýza výsledků |
Zobrazení výsledků vyhodnocení Analýza clusteru |
| Jak můžu zlepšit? | Analýza výsledků a optimalizace agentů | Analýza selhání vyhodnocení pomocí analýzy clusteru Optimalizujte agenty a znovu vyhodnoťte. Zkontrolujte výsledky vyhodnocení. |
Podpora oblastí, omezení rychlosti a podpora virtuálních sítí
Pokud chcete zjistit, které oblasti podporují vyhodnocovače s asistencí umělé inteligence, omezení rychlosti, která se vztahují na testovací běhy, a jak nakonfigurovat podporu virtuální sítě pro izolaci sítě, podívejte se na podporu oblastí, omezení rychlosti a podporu virtuálních sítí pro vyhodnocení.
Pricing
Funkce pozorovatelnosti, jako jsou vyhodnocení rizik a bezpečnosti a hodnocení v herním prostředí agentů, se účtují na základě spotřeby, jak je uvedeno v na stránce s cenami Azure.
Důležité
Hodnocení v testovacím prostředí agentů jsou ve výchozím nastavení povolená pro všechny projekty Foundry a jsou zahrnutá ve fakturaci na základě spotřeby. Chcete-li vypnout hodnocení v simulaci agentů, vyberte metriky v pravém horním rohu prostředí agentů a zrušte výběr všech hodnotitelů.