Observerbarhet i generativ AI

2025-05-19

Viktigt!

Objekt markerade (förhandsversion) i den här artikeln är för närvarande i offentlig förhandsversion. Den här förhandsversionen tillhandahålls utan ett serviceavtal och vi rekommenderar det inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller kan vara begränsade. Mer information finns i Kompletterande villkor för användning av Microsoft Azure-förhandsversioner.

I dagens AI-drivna värld revolutionerar Generative AI Operations (GenAIOps) hur organisationer skapar och distribuerar intelligenta system. I takt med att företag i allt högre grad använder AI för att omvandla beslutsfattande, förbättra kundupplevelser och driva innovation är ett element av största vikt: robusta utvärderingsramverk. Utvärdering är inte bara en kontrollpunkt. Det är grunden för förtroende för AI-program. Utan rigorös utvärdering kan AI-system producera innehåll som är:

Fabricerat eller ogrundat i verkligheten
Irrelevant eller osammanhängande för användarbehov
Skadligt för att vidmakthålla innehållsrisker och stereotyper
Farligt att sprida felaktig information
Sårbar för säkerhetsexploateringar

Det är här utvärderarna blir viktiga. Dessa specialiserade verktyg mäter både frekvensen och allvarlighetsgraden för risker i AI-utdata, vilket gör det möjligt för team att systematiskt hantera kvalitets-, säkerhets- och säkerhetsproblem under hela AI-utvecklingsresan – från att välja rätt modell till att övervaka produktionsprestanda, kvalitet och säkerhet.

Vad är utvärderare?

Utvärderare är specialiserade verktyg som mäter kvaliteten, säkerheten och tillförlitligheten hos AI-svar. Genom att implementera systematiska utvärderingar under ai-utvecklingslivscykeln kan team identifiera och åtgärda potentiella problem innan de påverkar användarna. Följande utvärderare som stöds tillhandahåller omfattande utvärderingsfunktioner för olika typer och problem med AI-program:

RAG (Retrieval Augmented Generation):

Utvärderare	Avsikt
Räddning	Mäter hur effektivt systemet hämtar relevant information.
Dokumenthämtning	Mäter noggrannheten i hämtningsresultaten givet grundsanning.
Jordnära	Mäter hur konsekvent svaret är med avseende på den hämtade kontexten.
Groundedness Pro	Mäter om svaret är konsekvent med avseende på den hämtade kontexten.
Relevans	Mäter hur relevant svaret är för frågan.
Svars fullständighet	Mäter i vilken utsträckning svaret är fullständigt (saknar inte kritisk information) med avseende på grundsanningen.

Agenter (förhandsversion):

Utvärderare	Avsikt
Avsiktslösning	Mäter hur korrekt agenten identifierar och hanterar användarens avsikter.
Uppgiftsefterlevnad	Mäter hur väl agenten följer igenom identifierade uppgifter.
Noggrannhet för verktygsanrop	Mäter hur väl agenten väljer och anropar rätt verktyg.

Generell användning:

Utvärderare	Avsikt
Flyt	Mäter kvalitet och läsbarhet för naturligt språk.
Koherens	Mäter logisk konsekvens och flöde av svar.
Kvalitetssäkring	Mäter omfattande olika kvalitetsaspekter vid frågesvar.

Säkerhet och säkerhet (förhandsversion):

Utvärderare	Avsikt
Våld	Identifierar våldsamt innehåll eller uppvigling.
Sexuell	Identifierar olämpligt sexuellt innehåll.
Självskadebeteende	Identifierar innehåll som främjar eller beskriver självskadebeteende.
Hat och orättvisa	Identifierar partiskt, diskriminerande eller hatiskt innehåll.
Ogrundade attribut	Identifierar fabricerad eller hallucinerad information som härleds från användarinteraktioner.
Säkerhetsrisk för kod	Identifierar säkerhetsproblem i genererad kod.
Skyddade material	Identifierar obehörig användning av upphovsrättsskyddat eller skyddat innehåll.
Innehållssäkerhet	Omfattande bedömning av olika säkerhetsproblem.

Textlikhet:

Utvärderare	Avsikt
Likhet	AI-assisterad textlikhetsmätning.
F1-poäng	Harmoniskt medelvärde av precision och återkallande i token överlappar mellan svar och grund sanning.
BLEU	Tvåspråkig utvärderingspoäng för översättningskvalitetsmått överlappar i n-gram mellan svars- och grundsanning.
GLEU	Google-BLEU variant för bedömning på meningsnivå mäter överlapp mellan n-gram i svar och grundsanning.
ROUGE	Recall-Oriented Understudy för Gisting-utvärdering mäter överlappningar i n-grammen mellan svar och grundsanning.
METEOR	Metrik för utvärdering av översättning med explicit ordning mäter överlappning i n-gram mellan svar och referenssanning.

Azure OpenAI Graders (förhandsversion):

Utvärderare	Avsikt
Modelletikett	Klassificerar innehåll med hjälp av anpassade riktlinjer och etiketter.
Modellskytt	Genererar numeriska poäng (anpassat intervall) för innehåll baserat på anpassade riktlinjer.
Strängkontroll	Utför flexibel textvalidering och mönstermatchning.
Textlikhet	Utvärderar textens kvalitet eller fastställer semantisk närhet.

Genom att använda dessa utvärderare strategiskt under hela utvecklingslivscykeln kan teamen skapa mer tillförlitliga, säkra och effektiva AI-program som uppfyller användarnas behov samtidigt som potentiella risker minimeras.

De tre stegen i GenAIOps-utvärderingen

Val av basmodell

Innan du bygger din applikation måste du välja rätt grund. Den här inledande utvärderingen hjälper dig att jämföra olika modeller baserat på:

Kvalitet och noggrannhet: Hur relevanta och sammanhängande är modellens svar?
Uppgiftsprestanda: Hanterar modellen dina specifika användningsfall effektivt?
Etiska överväganden: Är modellen fri från skadliga fördomar?
Säkerhetsprofil: Vad är risken för att generera osäkert innehåll?

Tillgängliga verktyg: Azure AI Foundry-benchmark för att jämföra modeller på offentliga datamängder eller dina egna data och Azure AI Evaluation SDK för testning av specifika modellslutpunkter.

Utvärdering före produktion

När du har valt en basmodell är nästa steg att utveckla ett AI-program, till exempel en AI-baserad chattrobot, ett RAG-program (retrieval augmented generation), ett agentiskt AI-program eller något annat generativt AI-verktyg. När utvecklingen är klar börjar förproduktionsutvärderingen. Innan du distribuerar till en produktionsmiljö är det viktigt med noggrann testning för att säkerställa att modellen är redo för verklig användning.

Förproduktionsutvärdering omfattar:

Testning med utvärderingsdatauppsättningar: Dessa datauppsättningar simulerar realistiska användarinteraktioner för att säkerställa att AI-programmet fungerar som förväntat.
Identifiera gränsfall: Hitta scenarier där AI-programmets svarskvalitet kan försämras eller generera oönskade utdata.
Bedömning av robusthet: Se till att modellen kan hantera en mängd olika indatavariationer utan betydande kvalitets- eller säkerhetsminskningar.
Mäta viktiga mått: Mått som svarsgrund, relevans och säkerhet utvärderas för att bekräfta beredskapen för produktion.

Förproduktionsfasen fungerar som en slutlig kvalitetskontroll, vilket minskar risken för att distribuera ett AI-program som inte uppfyller önskade prestanda- eller säkerhetsstandarder.

Utvärderingsverktyg och metoder:

Ta med dina egna data: Du kan utvärdera dina AI-program i förproduktion med hjälp av dina egna utvärderingsdata med utvärderare som stöds, inklusive kvalitet, säkerhet eller anpassade utvärderare, och visa resultat via Azure AI Foundry-portalen. Använd Utvärderingsguiden för Azure AI Foundry eller Azure AI Evaluation SDK:s utvärderare som stöds, inklusive kvalitets-, säkerhets- eller anpassade utvärderare för generering och visa resultat via Azure AI Foundry-portalen.
Simulatorer och AI red teaming agent (förhandsversion): Om du inte har utvärderingsdata (testdata) kan Azure AI Evaluation SDK:s simulatorer hjälpa dig genom att generera ämnesrelaterade eller kontradiktoriska frågor. Dessa simulatorer testar modellens svar på situationsanpassade eller attackliknande frågor (gränsfall).
- Adversariella simulatorer injicerar statiska frågor som efterliknar potentiella säkerhetsrisker eller säkerhetsattacker, såsom försök att genomföra jailbreak, vilket hjälper till att identifiera begränsningar och förbereda modellen för oväntade förhållanden.
- Sammanhangsanpassade simulatorer genererar typiska, relevanta konversationer som du förväntar dig av användarna för att testa svarskvaliteten. Med sammanhangsanpassade simulatorer kan du utvärdera mått som grund, relevans, konsekvens och flyt för genererade svar.
- AI red teaming agent (förhandsversion) simulerar komplexa attacker mot ditt AI-system med hjälp av ett brett spektrum av säkerhets- och skyddsattacker med Microsofts öppna ramverk för Python Risk Identification Tool eller PyRIT. Automatiserade genomsökningar med AI-red team-agenten förbättrar riskbedömningen före produktionsfasen genom att systematiskt testa AI-applikationer för att identifiera risker. Den här processen omfattar simulerade attackscenarier för att identifiera svagheter i modellsvar före verklig distribution. Genom att köra AI-röda teamsökningar kan du identifiera och åtgärda potentiella säkerhetsproblem före distributionen. Det här verktyget rekommenderas att användas med processer med mänsklig medverkan, till exempel konventionell AI-red team-sondering, för att snabba på riskidentifiering och hjälpa en mänsklig expert med bedömningen.

Du kan också använda Azure AI Foundry-portalens utvärderingswidget för att testa dina generativa AI-program.

När tillfredsställande resultat har uppnåtts kan AI-programmet distribueras till produktion.

Övervakning efter produktion

Efter distributionen säkerställer kontinuerlig övervakning att AI-programmet upprätthåller kvalitet under verkliga förhållanden:

Prestandaspårning: Regelbunden mätning av nyckelmått.
Incidenthantering: Snabb åtgärd när skadliga eller olämpliga utdata inträffar.

Effektiv övervakning hjälper till att upprätthålla användarnas förtroende och möjliggör snabb problemlösning.

Azure AI Foundry Observability tillhandahåller omfattande övervakningsfunktioner som är viktiga för dagens komplexa och snabbt föränderliga AI-landskap. Den här lösningen är sömlöst integrerad med Azure Monitor Application Insights och möjliggör kontinuerlig övervakning av distribuerade AI-program för att säkerställa optimal prestanda, säkerhet och kvalitet i produktionsmiljöer. Instrumentpanelen Foundry Observability ger insikter i realtid om kritiska mått, vilket gör det möjligt för team att snabbt identifiera och åtgärda prestandaproblem, säkerhetsproblem eller kvalitetsförsämring. För agentbaserade program erbjuder Foundry förbättrade funktioner för kontinuerlig utvärdering som kan aktiveras för att ge djupare insyn i kvalitets- och säkerhetsmått, vilket skapar ett robust övervakningsekosystem som anpassar sig till ai-programmens dynamiska karaktär samtidigt som höga prestanda- och tillförlitlighetsstandarder upprätthålls.

Genom att kontinuerligt övervaka AI-programmets beteende i produktion kan du upprätthålla högkvalitativa användarupplevelser och snabbt åtgärda eventuella problem som uppstår.

Skapa förtroende genom systematisk utvärdering

GenAIOps etablerar en tillförlitlig process för att hantera AI-program under hela livscykeln. Genom att implementera noggrann utvärdering i varje steg – från modellval till distribution och senare – kan team skapa AI-lösningar som inte bara är kraftfulla utan tillförlitliga och säkra.

Utvärderingsblad

Avsikt	Processen	Parameterar
Vad utvärderar du för?	Identifiera eller skapa relevanta utvärderare	- Exempel på kvalitets- och prestandaanteckningsbok - Svarskvalitet för agenter - Säkerhet och trygghet (exempel på anteckningsbok om säkerhet och trygghet) - Anpassad (anpassad exempelanteckningsbok)
Vilka data ska du använda?	Ladda upp eller generera relevant datauppsättning	Allmän simulator för att mäta kvalitet och prestanda (allmän simulator exempelanteckningsbok) - Adversarial simulator för mätning av säkerhet och trygghet (Exempeldokument för Adversarial simulator) AI-red-teamingagent för att genomföra automatiserade skanningar för att bedöma säkerhets- och trygghetsbrister (Exempeldokument för AI-red-teamingagent)
Vilka resurser ska utföra utvärderingen?	Kör utvärdering	- Lokal körning - Fjärrkörning i molnet
Hur presterade min modell/app?	Analysera resultat	Visa sammanställda poäng, visa detaljer, poängdetaljer, jämföra olika utvärderingsomgångar
Hur kan jag förbättra mig?	Göra ändringar i modell, app eller utvärderare	– Justera utvärderaren om utvärderingsresultaten inte stämmer överens med den mänskliga feedbacken. – Om utvärderingsresultaten överensstämmer med mänsklig feedback, men inte uppfyller kvalitets-/säkerhetströsklarna, tillämpar du riktade åtgärder. Exempel på åtgärder att tillämpa: Azure AI Content Safety

Stöd för regioner

För närvarande är vissa AI-assisterade utvärderare endast tillgängliga i följande regioner:

Region	Hat och orättvisa, Sexuell, Våldsam, Självskadebeteende, Indirekt attack, Kodsårbarheter, Ogrundade attribut	Groundedness Pro	Skyddat material
Östra USA 2	Understödd	Understödd	Understödd
Centrala Sverige	Understödd	Understödd	Inte tillgänglig
USA, norra centrala	Understödd	Inte tillgänglig	Inte tillgänglig
Frankrike Centrala	Understödd	Inte tillgänglig	Inte tillgänglig
Schweiz Väst	Understödd	Inte tillgänglig	Inte tillgänglig

Prissättning

Observerbarhetsfunktioner som risk- och säkerhetsutvärderingar och kontinuerliga utvärderingar faktureras baserat på förbrukning som anges på vår azure-prissida. Välj fliken Complete AI Toolchain för att se prisinformation för utvärderingar.