Poznámka
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Důležité
Položky označené (Preview) v tomto článku jsou aktuálně ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce nemusí být podporované nebo můžou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.
V dnešním světě založeném na umělé inteligenci (Generative AI Operations) (GenAIOps) mění způsob sestavování a nasazování inteligentních systémů organizací. Vzhledem k tomu, že společnosti stále častěji využívají AI k transformaci rozhodování, vylepšení zákaznických zážitků a podporu inovací, jedním z nejdůležitějších prvků je robustní hodnoticí rámce. Vyhodnocení není jen kontrolní bod. Je základem důvěryhodnosti v aplikacích AI. Bez důkladného posouzení můžou systémy AI vytvářet obsah, který je:
- Vymyšlené nebo bez opory v realitě
- Irelevantní nebo nesouvislé vzhledem k potřebám uživatelů
- Škodlivé při zachování rizik a stereotypů v obsahu
- Nebezpečné při šíření dezinformací
- Ohrožená zneužitím zabezpečení
To je místo, kde se vyhodnocovače stanou zásadními. Tyto specializované nástroje měří četnost i závažnost rizik ve výstupech umělé inteligence, což týmům umožňuje systematicky řešit otázky kvality, bezpečnosti a zabezpečení během celé cesty vývoje umělé inteligence – od výběru správného modelu až po monitorování výkonu, kvality a bezpečnosti výroby.
Co jsou vyhodnocovače?
Vyhodnocovače jsou specializované nástroje, které měří kvalitu, bezpečnost a spolehlivost odpovědí umělé inteligence. Díky implementaci systematických hodnocení v průběhu životního cyklu vývoje umělé inteligence můžou týmy identifikovat a řešit potenciální problémy předtím, než ovlivní uživatele. Následující podporované vyhodnocovače poskytují komplexní možnosti posouzení napříč různými typy aplikací AI a obavami:
RAG (načítání rozšířené generace):
Hodnotitel | Účel |
---|---|
Vyhledání | Měří, jak efektivně systém načítá relevantní informace. |
Získání dokumentu | Měří přesnost ve výsledcích načítání podle skutečných dat. |
Ukotvenost | Měří, jak je odpověď konzistentní vzhledem k načtenému kontextu. |
Groundedness Pro | Určuje, zda je odpověď konzistentní s ohledem na načtený kontext. |
Význam | Měří, jak je odpověď relevantní vzhledem k dotazu. |
Úplnost odpovědi | Měří, do jaké míry je odpověď úplná, aby nechyběly důležité informace, s ohledem na referenční skutečnosti. |
Hodnotitel | Účel |
---|---|
Řešení záměru | Měří, jak přesně agent identifikuje a řeší záměry uživatelů. |
Dodržování úkolů | Měří, jak dobře agent postupuje podle identifikovaných úloh. |
Přesnost volání nástroje | Měří, jak dobře agent vybere a zavolá správné nástroje. |
Hodnotitel | Účel |
---|---|
Plynulost | Měří kvalitu přirozeného jazyka a čitelnost. |
Koherence | Měří logickou konzistenci a tok odpovědí. |
Zajištění kvality | Měří komplexně různé aspekty kvality v rámci odpovídání na otázky. |
Bezpečnost a zabezpečení (Preview):
Hodnotitel | Účel |
---|---|
Násilí | Detekuje násilné obsah nebo incitace. |
Sexuální | Identifikuje nevhodný sexuální obsah. |
Sebepoškozování | Detekuje obsah podporující nebo popisující sebepoškozování. |
Nenávist a nespravedlivost | Identifikuje zkreslený, nediskriminační nebo nenávistný obsah. |
Neuzemněné atributy | Detekuje vymyšlené nebo halucinované informace odvozené z interakcí uživatelů. |
Zranitelnost kódu | Identifikuje problémy se zabezpečením vygenerovaného kódu. |
Chráněné materiály | Detekuje neoprávněné použití obsahu chráněného autorskými právy nebo jiného chráněného obsahu. |
Bezpečnost obsahu | Komplexní posouzení různých bezpečnostních otázek. |
Hodnotitel | Účel |
---|---|
Podobnost | Měření textové podobnosti s asistencí umělé inteligence |
F1 skóre | Harmonický průměr přesnosti a úplnosti v tokenech se překrývají mezi odezvou a základní pravdou. |
BLEU | Dvojjazyčné hodnocení skóre podkladů pro měření kvality překladu porovnává překrytí n-gramů mezi odezvou a základní pravdou. |
GLEU | Google-BLEU varianta pro míry hodnocení na úrovni věty zkoumá překrývání v n-gramech mezi odpovědí a referenční pravdou. |
RŮŽ | Recall-Oriented Alternativa pro hodnotící přehledová opatření měří překryvy v n-gramech mezi odezvou a základní referencí. |
METEOR | Metrika pro vyhodnocení překladu s explicitním pořadím měří překrývání n-gramů mezi odpovědí a referenčním textem. |
Azure OpenAI Graders (Preview):
Hodnotitel | Účel |
---|---|
Popisovač modelu | Klasifikuje obsah pomocí vlastních pokynů a popisků. |
Hodnotitel modelů | Generuje číselné skóre (přizpůsobený rozsah) pro obsah na základě vlastních pokynů. |
Kontrola řetězců | Provádí flexibilní ověřování textu a porovnávání vzorů. |
Textová podobnost | Vyhodnotí kvalitu textu nebo určí sémantickou blízkost. |
Díky strategickému využití těchto vyhodnocovačů v průběhu životního cyklu vývoje můžou týmy vytvářet spolehlivější, bezpečné a efektivní aplikace AI, které splňují potřeby uživatelů a současně minimalizují potenciální rizika.
Tři fáze vyhodnocení GenAIOps
Výběr základního modelu
Před sestavením aplikace je potřeba vybrat správné základy. Toto počáteční vyhodnocení vám pomůže porovnat různé modely na základě:
- Kvalita a přesnost: Jak relevantní a koherentní jsou odpovědi modelu?
- Výkon úloh: Zpracovává model vaše konkrétní případy použití efektivně?
- Etické aspekty: Je model bez škodlivých předsudků?
- Bezpečnostní profil: Jaké je riziko generování nebezpečného obsahu?
Dostupné nástroje: Srovnávací test Azure AI Foundry pro porovnávání modelů ve veřejných datových sadách nebo vlastních datech a sadu SDK pro vyhodnocení Azure AI pro testování konkrétních koncových bodů modelu.
Předprodukční vyhodnocení
Po výběru základního modelu je dalším krokem vývoj aplikace AI, jako je chatovací robot využívající AI, aplikace rag (retrieval-augmented generation), agentská aplikace AI nebo jakýkoli jiný nástroj generující AI. Po dokončení vývoje začne předběžné vyhodnocení. Před nasazením do produkčního prostředí je důkladné testování nezbytné k zajištění připravenosti modelu na skutečné použití.
Předprodukční vyhodnocení zahrnuje:
- Testování pomocí zkušebních datových sad: Tyto datové sady simulují realistickou interakci uživatelů, aby aplikace AI fungovala podle očekávání.
- Identifikace hraničních případů: Vyhledání scénářů, ve kterých může kvalita odezvy aplikace AI snížit nebo způsobit nežádoucí výstupy.
- Posouzení robustnosti: Zajištění, aby model mohl zpracovávat řadu vstupních variací bez významných poklesů kvality nebo bezpečnosti.
- Měření klíčových metrik: Metriky, jako je podloženost odezvy, relevance a bezpečnost, se vyhodnocují, aby se potvrdila připravenost pro nasazení do produkce.
Předprodukční fáze funguje jako konečná kontrola kvality a snižuje riziko nasazení aplikace AI, která nesplňuje požadované standardy výkonu nebo bezpečnosti.
Nástroje a přístupy pro vyhodnocení:
- Přineste si vlastní data: Aplikace AI můžete vyhodnotit v předprodukčním prostředí pomocí vlastních vyhodnocovacích dat s podporovanými vyhodnocovači, včetně kvality generování, bezpečnosti nebo vlastních vyhodnocovačů, a zobrazit výsledky prostřednictvím portálu Azure AI Foundry. Použijte průvodce vyhodnocením Azure AI Foundry nebo podporované vyhodnocovače sady Azure AI Evaluation SDK , včetně kvality generování, bezpečnosti nebo vlastních vyhodnocovačů a zobrazte výsledky prostřednictvím portálu Azure AI Foundry.
- Simulátory a agent pro seskupování AI (Preview): Pokud nemáte data vyhodnocení (testovací data), můžou simulátory sady SDK pro vyhodnocení Azure AI pomoct generováním dotazů souvisejících s tématy nebo nežádoucími dotazy. Tyto simulátory testují odpověď modelu na odpovídající situace nebo dotazy podobné útoku (hraniční případy).
- Adversární simulátory zavádějí statické dotazy, které napodobují potenciální bezpečnostní rizika nebo útoky na zabezpečení, jako jsou jailbreaky nebo pokusy o ně, pomáhají identifikovat omezení a připravit model na neočekávané podmínky.
- Kontextové simulátory generují typické relevantní konverzace, které byste od uživatelů očekávali, aby otestovaly kvalitu odpovědí. Pomocí kontextových simulátorů můžete vyhodnotit metriky, jako je uzemnění, relevance, soudržnost a plynulost vygenerovaných odpovědí.
- AI red teaming agent (Preview) simuluje složité adversární útoky na váš systém AI pomocí široké škály útoků zaměřených na bezpečnost a ochranu při využití otevřené architektury Microsoftu pro nástroj PyRIT (Python Risk Identification Tool). Automatizované kontroly pomocí červeného agenta seskupování umělé inteligence vylepšují posouzení předprodukčního rizika tím, že systematicky testují aplikace umělé inteligence na rizika. Tento proces zahrnuje simulované scénáře útoku, které identifikují slabá místa v odpovědích modelu před skutečným nasazením. Provedením red teaming kontrol AI můžete detekovat a zmírnit potenciální bezpečnostní problémy před nasazením. Tento nástroj se doporučuje používat s procesy zapojení člověka, jako je konvenční testování AI pomocí červeného teamingování, aby bylo možné urychlit identifikaci rizik a pomoc při posuzování odborníkem.
Alternativně můžete k testování generovaných aplikací AI použít také widget pro vyhodnocení portálu Azure AI Foundry .
Po dosažení uspokojivých výsledků je možné aplikaci AI nasadit do produkčního prostředí.
Monitorování po produkci
Nepřetržité monitorování po nasazení zajišťuje, že vaše aplikace AI udržuje kvalitu v reálných podmínkách:
- Sledování výkonu: Pravidelné měření klíčových metrik.
- Reakce na incidenty: Akce Swiftu, když dojde k škodlivým nebo nevhodným výstupům.
Efektivní monitorování pomáhá udržovat důvěru uživatelů a umožňuje rychlé řešení problémů.
Azure AI Foundry Observability poskytuje komplexní možnosti monitorování nezbytné pro dnešní komplexní a rychle se vyvíjející prostředí AI. Bezproblémově integrovaná se službou Azure Monitor Application Insights umožňuje průběžné monitorování nasazených aplikací AI, aby se zajistil optimální výkon, bezpečnost a kvalita v produkčních prostředích. Řídicí panel Foundry Observability poskytuje přehledy o kritických metrikách v reálném čase, což týmům umožňuje rychle identifikovat a řešit problémy s výkonem, bezpečnostní obavy nebo snížení kvality. Pro aplikace založené na agentech nabízí Foundry vylepšené možnosti průběžného hodnocení, které můžou být povoleny, aby poskytovaly hlubší přehled o metrikách kvality a bezpečnosti a vytvořily robustní monitorovací ekosystém, který se přizpůsobuje dynamické povaze aplikací AI a současně zachovává vysoké standardy výkonu a spolehlivosti.
Nepřetržitým monitorováním chování aplikace AI v produkčním prostředí můžete udržovat vysoce kvalitní uživatelské prostředí a rychle řešit případné problémy, které se týkají.
Budování důvěry prostřednictvím systematického hodnocení
GenAIOps vytváří spolehlivý proces pro správu aplikací AI v průběhu jejich životního cyklu. Díky implementaci důkladného vyhodnocení v jednotlivých fázích – od výběru modelu přes nasazení a další – můžou týmy vytvářet řešení AI, která nejsou jen výkonná, ale důvěryhodná a bezpečná.
Stručná nápověda k vyhodnocení
Účel | Proces | Parametry |
---|---|---|
Co vyhodnocujete? | Identifikace nebo sestavení relevantních vyhodnocovačů |
-
Ukázkový poznámkový blok kvality a výkonu - Kvalita odezvy agentů - Bezpečnost a zabezpečení (ukázkový poznámkový blok bezpečnosti a zabezpečení) - Vlastní (vlastní ukázkový poznámkový blok) |
Jaká data byste měli použít? | Nahrání nebo vygenerování relevantní datové sady |
Obecný simulátor pro měření kvality a výkonu (obecný ukázkový poznámkový blok simulátoru) - Adversariální simulátor pro měření bezpečnosti a ochrany (Ukázkový poznámkový blok adversariálního simulátoru) Nástroj pro testování AI red teaming pro provádění automatizovaných kontrol k posouzení zranitelností v oblasti bezpečnosti (ukázkový poznámkový blok agenta AI red teaming) |
Jaké zdroje by měly provést vyhodnocení? | Spustit vyhodnocení |
-
Místní spuštění - Vzdálené provozování cloudu |
Jak můj model nebo aplikace fungovaly? | Analýza výsledků | Zobrazit souhrnná skóre, zobrazit podrobnosti, podrobnosti k hodnocení, porovnat vyhodnocovací běhy |
Jak můžu zlepšit? | Provádění změn modelu, aplikace nebo vyhodnocovačů | - Pokud výsledky vyhodnocení neodpočídaly lidské zpětné vazby, upravte vyhodnocovače. – Pokud výsledky hodnocení odpovídají lidské zpětné vazbě, ale nesplňují prahové hodnoty kvality a bezpečnosti, použijte cílené zmírnění rizik. Příklad omezení rizik, která se mají použít: Zabezpečení obsahu Azure AI |
Podpora oblastí
V současné době jsou některé vyhodnocovače asistované umělé inteligence k dispozici pouze v následujících oblastech:
Región | Nenávist a nespravedlivost, Sexuální, Násilné, Sebepoškozování, Nepřímý útok, Ohrožení zabezpečení kódu, Neuzemněné atributy | Groundedness Pro | Chráněný materiál |
---|---|---|---|
Východní USA 2 | Podporováno | Podporováno | Podporováno |
Švédsko – střed | Podporováno | Podporováno | není k dispozici |
Severní střed USA | Podporováno | není k dispozici | není k dispozici |
Francie – střed | Podporováno | není k dispozici | není k dispozici |
Švýcarsko – západ | Podporováno | není k dispozici | není k dispozici |
Cenotvorba
Funkce pozorovatelnosti, jako jsou vyhodnocení rizik a bezpečnosti a průběžné vyhodnocování, se účtují na základě spotřeby, jak je uvedeno na stránce s cenami Azure. Zvolte kartu označenou Complete AI Toolchain, abyste zobrazili podrobnosti o cenách pro vyhodnocení.
Související obsah
- Vyhodnocení aplikací generující umělé inteligence prostřednictvím dětského hřiště
- Vyhodnocení pomocí sady AZURE AI Evaluate SDK
- Vyhodnocení generativních aplikací AI pomocí portálu Azure AI Foundry
- Zobrazení výsledků vyhodnocení
- Poznámka k transparentnosti pro vyhodnocení bezpečnosti Azure AI Foundry