Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Viktigt!
Objekt markerade (förhandsversion) i den här artikeln är för närvarande i offentlig förhandsversion. Den här förhandsversionen tillhandahålls utan ett serviceavtal och vi rekommenderar det inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller kan vara begränsade. Mer information finns i Kompletterande villkor för användning av Microsoft Azure-förhandsversioner.
I dagens AI-drivna värld revolutionerar Generative AI Operations (GenAIOps) hur organisationer skapar och distribuerar intelligenta system. I takt med att företag i allt högre grad använder AI för att omvandla beslutsfattande, förbättra kundupplevelser och driva innovation är ett element av största vikt: robusta utvärderingsramverk. Utvärdering är inte bara en kontrollpunkt. Det är grunden för förtroende för AI-program. Utan rigorös utvärdering kan AI-system producera innehåll som är:
- Fabricerat eller ogrundat i verkligheten
- Irrelevant eller osammanhängande för användarbehov
- Skadligt för att vidmakthålla innehållsrisker och stereotyper
- Farligt att sprida felaktig information
- Sårbar för säkerhetsexploateringar
Det är här utvärderarna blir viktiga. Dessa specialiserade verktyg mäter både frekvensen och allvarlighetsgraden för risker i AI-utdata, vilket gör det möjligt för team att systematiskt hantera kvalitets-, säkerhets- och säkerhetsproblem under hela AI-utvecklingsresan – från att välja rätt modell till att övervaka produktionsprestanda, kvalitet och säkerhet.
Vad är utvärderare?
Utvärderare är specialiserade verktyg som mäter kvaliteten, säkerheten och tillförlitligheten hos AI-svar. Genom att implementera systematiska utvärderingar under ai-utvecklingslivscykeln kan team identifiera och åtgärda potentiella problem innan de påverkar användarna. Följande utvärderare som stöds tillhandahåller omfattande utvärderingsfunktioner för olika typer och problem med AI-program:
RAG (Retrieval Augmented Generation):
Utvärderare | Avsikt |
---|---|
Räddning | Mäter hur effektivt systemet hämtar relevant information. |
Dokumenthämtning | Mäter noggrannheten i hämtningsresultaten givet grundsanning. |
Jordnära | Mäter hur konsekvent svaret är med avseende på den hämtade kontexten. |
Groundedness Pro | Mäter om svaret är konsekvent med avseende på den hämtade kontexten. |
Relevans | Mäter hur relevant svaret är för frågan. |
Svars fullständighet | Mäter i vilken utsträckning svaret är fullständigt (saknar inte kritisk information) med avseende på grundsanningen. |
Utvärderare | Avsikt |
---|---|
Avsiktslösning | Mäter hur korrekt agenten identifierar och hanterar användarens avsikter. |
Uppgiftsefterlevnad | Mäter hur väl agenten följer igenom identifierade uppgifter. |
Noggrannhet för verktygsanrop | Mäter hur väl agenten väljer och anropar rätt verktyg. |
Utvärderare | Avsikt |
---|---|
Flyt | Mäter kvalitet och läsbarhet för naturligt språk. |
Koherens | Mäter logisk konsekvens och flöde av svar. |
Kvalitetssäkring | Mäter omfattande olika kvalitetsaspekter vid frågesvar. |
Säkerhet och säkerhet (förhandsversion):
Utvärderare | Avsikt |
---|---|
Våld | Identifierar våldsamt innehåll eller uppvigling. |
Sexuell | Identifierar olämpligt sexuellt innehåll. |
Självskadebeteende | Identifierar innehåll som främjar eller beskriver självskadebeteende. |
Hat och orättvisa | Identifierar partiskt, diskriminerande eller hatiskt innehåll. |
Ogrundade attribut | Identifierar fabricerad eller hallucinerad information som härleds från användarinteraktioner. |
Säkerhetsrisk för kod | Identifierar säkerhetsproblem i genererad kod. |
Skyddade material | Identifierar obehörig användning av upphovsrättsskyddat eller skyddat innehåll. |
Innehållssäkerhet | Omfattande bedömning av olika säkerhetsproblem. |
Utvärderare | Avsikt |
---|---|
Likhet | AI-assisterad textlikhetsmätning. |
F1-poäng | Harmoniskt medelvärde av precision och återkallande i token överlappar mellan svar och grund sanning. |
BLEU | Tvåspråkig utvärderingspoäng för översättningskvalitetsmått överlappar i n-gram mellan svars- och grundsanning. |
GLEU | Google-BLEU variant för bedömning på meningsnivå mäter överlapp mellan n-gram i svar och grundsanning. |
ROUGE | Recall-Oriented Understudy för Gisting-utvärdering mäter överlappningar i n-grammen mellan svar och grundsanning. |
METEOR | Metrik för utvärdering av översättning med explicit ordning mäter överlappning i n-gram mellan svar och referenssanning. |
Azure OpenAI Graders (förhandsversion):
Utvärderare | Avsikt |
---|---|
Modelletikett | Klassificerar innehåll med hjälp av anpassade riktlinjer och etiketter. |
Modellskytt | Genererar numeriska poäng (anpassat intervall) för innehåll baserat på anpassade riktlinjer. |
Strängkontroll | Utför flexibel textvalidering och mönstermatchning. |
Textlikhet | Utvärderar textens kvalitet eller fastställer semantisk närhet. |
Genom att använda dessa utvärderare strategiskt under hela utvecklingslivscykeln kan teamen skapa mer tillförlitliga, säkra och effektiva AI-program som uppfyller användarnas behov samtidigt som potentiella risker minimeras.
De tre stegen i GenAIOps-utvärderingen
Val av basmodell
Innan du bygger din applikation måste du välja rätt grund. Den här inledande utvärderingen hjälper dig att jämföra olika modeller baserat på:
- Kvalitet och noggrannhet: Hur relevanta och sammanhängande är modellens svar?
- Uppgiftsprestanda: Hanterar modellen dina specifika användningsfall effektivt?
- Etiska överväganden: Är modellen fri från skadliga fördomar?
- Säkerhetsprofil: Vad är risken för att generera osäkert innehåll?
Tillgängliga verktyg: Azure AI Foundry-benchmark för att jämföra modeller på offentliga datamängder eller dina egna data och Azure AI Evaluation SDK för testning av specifika modellslutpunkter.
Utvärdering före produktion
När du har valt en basmodell är nästa steg att utveckla ett AI-program, till exempel en AI-baserad chattrobot, ett RAG-program (retrieval augmented generation), ett agentiskt AI-program eller något annat generativt AI-verktyg. När utvecklingen är klar börjar förproduktionsutvärderingen. Innan du distribuerar till en produktionsmiljö är det viktigt med noggrann testning för att säkerställa att modellen är redo för verklig användning.
Förproduktionsutvärdering omfattar:
- Testning med utvärderingsdatauppsättningar: Dessa datauppsättningar simulerar realistiska användarinteraktioner för att säkerställa att AI-programmet fungerar som förväntat.
- Identifiera gränsfall: Hitta scenarier där AI-programmets svarskvalitet kan försämras eller generera oönskade utdata.
- Bedömning av robusthet: Se till att modellen kan hantera en mängd olika indatavariationer utan betydande kvalitets- eller säkerhetsminskningar.
- Mäta viktiga mått: Mått som svarsgrund, relevans och säkerhet utvärderas för att bekräfta beredskapen för produktion.
Förproduktionsfasen fungerar som en slutlig kvalitetskontroll, vilket minskar risken för att distribuera ett AI-program som inte uppfyller önskade prestanda- eller säkerhetsstandarder.
Utvärderingsverktyg och metoder:
- Ta med dina egna data: Du kan utvärdera dina AI-program i förproduktion med hjälp av dina egna utvärderingsdata med utvärderare som stöds, inklusive kvalitet, säkerhet eller anpassade utvärderare, och visa resultat via Azure AI Foundry-portalen. Använd Utvärderingsguiden för Azure AI Foundry eller Azure AI Evaluation SDK:s utvärderare som stöds, inklusive kvalitets-, säkerhets- eller anpassade utvärderare för generering och visa resultat via Azure AI Foundry-portalen.
- Simulatorer och AI red teaming agent (förhandsversion): Om du inte har utvärderingsdata (testdata) kan Azure AI Evaluation SDK:s simulatorer hjälpa dig genom att generera ämnesrelaterade eller kontradiktoriska frågor. Dessa simulatorer testar modellens svar på situationsanpassade eller attackliknande frågor (gränsfall).
- Adversariella simulatorer injicerar statiska frågor som efterliknar potentiella säkerhetsrisker eller säkerhetsattacker, såsom försök att genomföra jailbreak, vilket hjälper till att identifiera begränsningar och förbereda modellen för oväntade förhållanden.
- Sammanhangsanpassade simulatorer genererar typiska, relevanta konversationer som du förväntar dig av användarna för att testa svarskvaliteten. Med sammanhangsanpassade simulatorer kan du utvärdera mått som grund, relevans, konsekvens och flyt för genererade svar.
- AI red teaming agent (förhandsversion) simulerar komplexa attacker mot ditt AI-system med hjälp av ett brett spektrum av säkerhets- och skyddsattacker med Microsofts öppna ramverk för Python Risk Identification Tool eller PyRIT. Automatiserade genomsökningar med AI-red team-agenten förbättrar riskbedömningen före produktionsfasen genom att systematiskt testa AI-applikationer för att identifiera risker. Den här processen omfattar simulerade attackscenarier för att identifiera svagheter i modellsvar före verklig distribution. Genom att köra AI-röda teamsökningar kan du identifiera och åtgärda potentiella säkerhetsproblem före distributionen. Det här verktyget rekommenderas att användas med processer med mänsklig medverkan, till exempel konventionell AI-red team-sondering, för att snabba på riskidentifiering och hjälpa en mänsklig expert med bedömningen.
Du kan också använda Azure AI Foundry-portalens utvärderingswidget för att testa dina generativa AI-program.
När tillfredsställande resultat har uppnåtts kan AI-programmet distribueras till produktion.
Övervakning efter produktion
Efter distributionen säkerställer kontinuerlig övervakning att AI-programmet upprätthåller kvalitet under verkliga förhållanden:
- Prestandaspårning: Regelbunden mätning av nyckelmått.
- Incidenthantering: Snabb åtgärd när skadliga eller olämpliga utdata inträffar.
Effektiv övervakning hjälper till att upprätthålla användarnas förtroende och möjliggör snabb problemlösning.
Azure AI Foundry Observability tillhandahåller omfattande övervakningsfunktioner som är viktiga för dagens komplexa och snabbt föränderliga AI-landskap. Den här lösningen är sömlöst integrerad med Azure Monitor Application Insights och möjliggör kontinuerlig övervakning av distribuerade AI-program för att säkerställa optimal prestanda, säkerhet och kvalitet i produktionsmiljöer. Instrumentpanelen Foundry Observability ger insikter i realtid om kritiska mått, vilket gör det möjligt för team att snabbt identifiera och åtgärda prestandaproblem, säkerhetsproblem eller kvalitetsförsämring. För agentbaserade program erbjuder Foundry förbättrade funktioner för kontinuerlig utvärdering som kan aktiveras för att ge djupare insyn i kvalitets- och säkerhetsmått, vilket skapar ett robust övervakningsekosystem som anpassar sig till ai-programmens dynamiska karaktär samtidigt som höga prestanda- och tillförlitlighetsstandarder upprätthålls.
Genom att kontinuerligt övervaka AI-programmets beteende i produktion kan du upprätthålla högkvalitativa användarupplevelser och snabbt åtgärda eventuella problem som uppstår.
Skapa förtroende genom systematisk utvärdering
GenAIOps etablerar en tillförlitlig process för att hantera AI-program under hela livscykeln. Genom att implementera noggrann utvärdering i varje steg – från modellval till distribution och senare – kan team skapa AI-lösningar som inte bara är kraftfulla utan tillförlitliga och säkra.
Utvärderingsblad
Avsikt | Processen | Parameterar |
---|---|---|
Vad utvärderar du för? | Identifiera eller skapa relevanta utvärderare |
-
Exempel på kvalitets- och prestandaanteckningsbok - Svarskvalitet för agenter - Säkerhet och trygghet (exempel på anteckningsbok om säkerhet och trygghet) - Anpassad (anpassad exempelanteckningsbok) |
Vilka data ska du använda? | Ladda upp eller generera relevant datauppsättning |
Allmän simulator för att mäta kvalitet och prestanda (allmän simulator exempelanteckningsbok) - Adversarial simulator för mätning av säkerhet och trygghet (Exempeldokument för Adversarial simulator) AI-red-teamingagent för att genomföra automatiserade skanningar för att bedöma säkerhets- och trygghetsbrister (Exempeldokument för AI-red-teamingagent) |
Vilka resurser ska utföra utvärderingen? | Kör utvärdering |
-
Lokal körning - Fjärrkörning i molnet |
Hur presterade min modell/app? | Analysera resultat | Visa sammanställda poäng, visa detaljer, poängdetaljer, jämföra olika utvärderingsomgångar |
Hur kan jag förbättra mig? | Göra ändringar i modell, app eller utvärderare | – Justera utvärderaren om utvärderingsresultaten inte stämmer överens med den mänskliga feedbacken. – Om utvärderingsresultaten överensstämmer med mänsklig feedback, men inte uppfyller kvalitets-/säkerhetströsklarna, tillämpar du riktade åtgärder. Exempel på åtgärder att tillämpa: Azure AI Content Safety |
Stöd för regioner
För närvarande är vissa AI-assisterade utvärderare endast tillgängliga i följande regioner:
Region | Hat och orättvisa, Sexuell, Våldsam, Självskadebeteende, Indirekt attack, Kodsårbarheter, Ogrundade attribut | Groundedness Pro | Skyddat material |
---|---|---|---|
Östra USA 2 | Understödd | Understödd | Understödd |
Centrala Sverige | Understödd | Understödd | Inte tillgänglig |
USA, norra centrala | Understödd | Inte tillgänglig | Inte tillgänglig |
Frankrike Centrala | Understödd | Inte tillgänglig | Inte tillgänglig |
Schweiz Väst | Understödd | Inte tillgänglig | Inte tillgänglig |
Prissättning
Observerbarhetsfunktioner som risk- och säkerhetsutvärderingar och kontinuerliga utvärderingar faktureras baserat på förbrukning som anges på vår azure-prissida. Välj fliken Complete AI Toolchain för att se prisinformation för utvärderingar.