Waarneembaarheid in generatieve AI

2025-05-19

Belangrijk

Items die in dit artikel zijn gemarkeerd (preview) zijn momenteel beschikbaar als openbare preview. Deze preview wordt aangeboden zonder een service level agreement en we raden deze niet aan voor productieworkloads. Bepaalde functies worden mogelijk niet ondersteund of hebben mogelijk beperkte mogelijkheden. Voor meer informatie, zie Aanvullende Gebruiksvoorwaarden voor Microsoft Azure Previews.

In de huidige AI-gestuurde wereld is Ative AI Operations (GenAIOps) een revolutie in de wijze waarop organisaties intelligente systemen bouwen en implementeren. Naarmate bedrijven steeds vaker ai gebruiken om besluitvorming te transformeren, klantervaringen te verbeteren en innovatie te stimuleren, staat één element voorop: robuuste evaluatieframeworks. Evaluatie is niet alleen een controlepunt. Het is de basis van vertrouwen in AI-toepassingen. Zonder strenge evaluatie kunnen AI-systemen inhoud produceren die:

Verzonnen of ongefundeerd in de werkelijkheid
Irrelevant ofwel incoherent voor gebruikersbehoeften
Schadelijk bij het bestendigen van inhoudsrisico's en stereotypen
Gevaarlijk bij het verspreiden van onjuiste informatie
Kwetsbaar voor beveiligingsexplots

Hier worden evaluatoren essentieel. Deze gespecialiseerde hulpprogramma's meten zowel de frequentie als de ernst van risico's in AI-uitvoer, waardoor teams systematisch de problemen over kwaliteit, veiligheid en beveiliging kunnen aanpakken gedurende het hele AI-ontwikkelingstraject, van het selecteren van het juiste model tot het bewaken van productieprestaties, kwaliteit en veiligheid.

Wat zijn evaluators?

Evaluators zijn gespecialiseerde hulpprogramma's die de kwaliteit, veiligheid en betrouwbaarheid van AI-antwoorden meten. Door systematische evaluaties te implementeren gedurende de levenscyclus van AI-ontwikkeling, kunnen teams potentiële problemen identificeren en oplossen voordat ze van invloed zijn op gebruikers. De volgende ondersteunde evaluators bieden uitgebreide evaluatiemogelijkheden voor verschillende TYPEN AI-toepassingen en problemen:

RAG (Augmented Generation ophalen):

Beoordelaar	Doel
Ophalen	Meet hoe effectief het systeem relevante informatie ophaalt.
Document ophalen	Meet nauwkeurigheid bij het ophalen van resultaten op basis van grondwaar.
Gegrondheid	Meet hoe consistent het antwoord is met betrekking tot de opgehaalde context.
Groundedness Pro	Meet of het antwoord consistent is met betrekking tot de opgehaalde context.
Relevantie	Meet hoe relevant het antwoord is met betrekking tot de query.
Volledigheid van antwoord	Metingen in hoeverre het antwoord is voltooid (geen kritieke informatie ontbreekt) met betrekking tot de grondwaar.

Agents (preview):

Beoordelaar	Doel
Besluitvorming	Meet hoe nauwkeurig de agent gebruikersintenties identificeert en aanpakt.
Taaknaleving	Meet hoe goed de agent de geïdentificeerde taken uitvoert.
Nauwkeurigheid van tooloproep	Meet hoe goed de agent de juiste hulpprogramma's selecteert en aanroept.

Algemeen gebruik:

Beoordelaar	Doel
Vlotheid	Meet de kwaliteit en leesbaarheid van natuurlijke taal.
Samenhang	Meet logische consistentie en stroom van reacties.
Kwaliteitsborging	Meet verschillende kwaliteitsaspecten bij het beantwoorden van vragen.

Veiligheid en beveiliging (preview):

Beoordelaar	Doel
Geweld	Detecteert gewelddadige inhoud of aansporing.
Seksueel	Identificeert ongepaste seksuele inhoud.
Zelfschade	Detecteert inhoud die zelfbeschadiging promoot of beschrijft.
Haat en oneerlijkheid	Identificeert vooroordelen, discriminerende of haatvolle inhoud.
Niet-geaarde kenmerken	Detecteert fabriceerde of hallucineerde informatie die is afgeleid van gebruikersinteracties.
Codekwetsbaarheid	Identificeert beveiligingsproblemen in gegenereerde code.
Beveiligde materialen	Detecteert onbevoegd gebruik van auteursrechtelijk beschermde of beschermde inhoud.
Inhoudsveiligheid	Uitgebreide beoordeling van verschillende veiligheidsproblemen.

Tekstuele gelijkenis:

Beoordelaar	Doel
Gelijkenis	Ai-ondersteunde tekstuele overeenkomsten meten.
F1-score	Harmonisch gemiddelde van precisie en terugroep in tokenoverlappingen tussen antwoord en grondwaarheid.
BLEU	Tweetalige Evaluatie Understudy-score voor de kwaliteit van de vertaling meet overlappingen in n-grammen tussen de respons en de grondwaarheid.
GLEU	De Google-BLEU-variant is voor het evalueren van maatregelen op zinsniveau en meet de overlap in n-grammen tussen het antwoord en de grondwaarheid.
ROUGE	Recall-Oriented Onderzoek voor Samenvattende Evaluatie meet overlapping in n-grams tussen respons en grondwaarheid.
METEOOR	Metriek voor de evaluatie van vertaling met expliciete volgorde meet overlapping in n-grammen tussen respons en grondwaarheid.

Azure OpenAI Graders (preview):

Beoordelaar	Doel
Modellabeler	Classificeert inhoud met behulp van aangepaste richtlijnen en labels.
Modelscorer	Hiermee worden numerieke scores (aangepast bereik) gegenereerd voor inhoud op basis van aangepaste richtlijnen.
Tekenreeksverificatie	Hiermee worden flexibele tekstvalidaties en patroonkoppelingen uitgevoerd.
Tekstuele gelijkenis	Evalueert de kwaliteit van tekst of bepaalt de semantische nabijheid.

Door deze evaluators strategisch te gebruiken gedurende de ontwikkelingslevenscyclus, kunnen teams betrouwbaardere, veilige en effectieve AI-toepassingen bouwen die voldoen aan de behoeften van gebruikers en tegelijkertijd potentiële risico's minimaliseren.

De drie fasen van de GenAIOps-evaluatie

Selectie van basismodel

Voordat u uw toepassing bouwt, moet u de juiste basis selecteren. Met deze eerste evaluatie kunt u verschillende modellen vergelijken op basis van:

Kwaliteit en nauwkeurigheid: Hoe relevant en coherent zijn de reacties van het model?
Taakprestaties: Verwerkt het model uw specifieke use cases efficiënt?
Ethische overwegingen: Is het model vrij van schadelijke vooroordelen?
Veiligheidsprofiel: Wat is het risico dat onveilige inhoud wordt gegenereerd?

Beschikbare hulpprogramma's: Azure AI Foundry-benchmark voor het vergelijken van modellen op openbare gegevenssets of uw eigen gegevens, en de Azure AI Evaluation SDK voor het testen van specifieke modeleindpunten.

Evaluatie van preproductie

Nadat u een basismodel hebt geselecteerd, is de volgende stap het ontwikkelen van een AI-toepassing, zoals een AI-chatbot, een RAG-toepassing (retrieval-augmented generation), een agentische AI-toepassing of een ander generatief AI-hulpprogramma. Zodra de ontwikkeling is voltooid, begint de evaluatie van de preproductie. Voordat u in een productieomgeving implementeert, is grondige tests essentieel om ervoor te zorgen dat het model klaar is voor gebruik in de echte wereld.

Evaluatie van preproductie omvat:

Testen met evaluatiegegevenssets: deze gegevenssets simuleren realistische gebruikersinteracties om ervoor te zorgen dat de AI-toepassing naar verwachting presteert.
Edge-gevallen identificeren: scenario's zoeken waarbij de responskwaliteit van de AI-toepassing kan afnemen of ongewenste uitvoer kan produceren.
Robuustheid beoordelen: Ervoor zorgen dat het model een reeks invoervariaties kan verwerken zonder dat er aanzienlijke dalingen in kwaliteit of veiligheid zijn.
Belangrijke metrische gegevens meten: metrische gegevens, zoals geaardheid van reacties, relevantie en veiligheid, worden geëvalueerd om de gereedheid voor productie te bevestigen.

De preproductiefase fungeert als een definitieve kwaliteitscontrole, waardoor het risico wordt beperkt dat een AI-toepassing wordt geïmplementeerd die niet voldoet aan de gewenste prestatie- of veiligheidsnormen.

Evaluatiehulpprogramma's en -benaderingen:

Bring Your Own Data: U kunt uw AI-toepassingen evalueren in preproductie met behulp van uw eigen evaluatiegegevens met ondersteunde evaluators, waaronder generatiekwaliteit, veiligheid of aangepaste evaluators, en resultaten bekijken via de Azure AI Foundry-portal. Gebruik de evaluatiewizard van Azure AI Foundry of de ondersteunde evaluators van azure AI Evaluation SDK , waaronder generatiekwaliteit, veiligheid of aangepaste evaluators, en bekijk resultaten via de Azure AI Foundry-portal.
Simulators en AI red teaming agent (preview): Als u geen evaluatiegegevens (testgegevens) hebt, kunnen de simulators van Azure AI Evaluation SDK u helpen door onderwerpgerelateerde of adversariële query's te genereren. Deze simulatoren testen de reactie van het model op situatiespecifieke of aanvalsachtige query's (edge-cases).
- Adversarial simulators injecteren statische query's die potentiële veiligheidsrisico's of beveiligingsaanvallen nabootsen, zoals of pogingen om jailbreaks uit te voeren, wat helpt om beperkingen te identificeren en het model voor te bereiden op onverwachte omstandigheden.
- Context geschikte simulators genereren typische, relevante gesprekken die u van gebruikers verwacht om de kwaliteit van reacties te testen. Met context geschikte simulators kunt u metrische gegevens beoordelen, zoals aarding, relevantie, coherentie en vaardigheid van gegenereerde antwoorden.
- Ai red teaming agent (preview) simuleert complexe adversarial aanvallen tegen uw AI-systeem met behulp van een breed scala aan veiligheids- en beveiligingsaanvallen met behulp van het open framework van Microsoft voor Python Risk Identification Tool of PyRIT. Geautomatiseerde scans met behulp van de AI red-teaming-agent verbetert de preproductierisicobeoordeling door AI-toepassingen systematisch te testen op risico's. Dit proces omvat gesimuleerde aanvalsscenario's om zwakke punten in modelreacties te identificeren vóór de implementatie in de praktijk. Door AI rode teamscans uit te voeren, kunt u potentiële veiligheidsproblemen detecteren en beperken vóór de implementatie. Dit hulpprogramma wordt aanbevolen om te worden gebruikt met human-in-the-loop processen zoals conventionele AI red teaming probing om risicoidentificatie en hulp bij de beoordeling door een menselijke expert te versnellen.

U kunt ook de evaluatiewidget van de Azure AI Foundry-portal gebruiken om uw generatieve AI-toepassingen te testen.

Zodra bevredigende resultaten zijn bereikt, kan de AI-toepassing worden geïmplementeerd in productie.

Bewaking na productie

Na de implementatie zorgt continue bewaking ervoor dat uw AI-toepassing de kwaliteit in de praktijk behoudt:

Prestatietracering: Regelmatige meting van belangrijke metrische gegevens.
Reactie op incidenten: Swift-actie wanneer schadelijke of ongepaste uitvoer plaatsvindt.

Effectieve bewaking helpt gebruikersvertrouwen te behouden en maakt snelle oplossing van problemen mogelijk.

Azure AI Foundry Observability biedt uitgebreide bewakingsmogelijkheden die essentieel zijn voor het complexe en snel veranderende AI-landschap van vandaag. Naadloos geïntegreerd met Azure Monitor Application Insights biedt deze oplossing continue bewaking van geïmplementeerde AI-toepassingen om optimale prestaties, veiligheid en kwaliteit in productieomgevingen te garanderen. Het dashboard Foundry Observability biedt realtime inzicht in kritieke metrische gegevens, zodat teams snel prestatieproblemen, veiligheidsproblemen of kwaliteitsvermindering kunnen identificeren en oplossen. Voor op agents gebaseerde toepassingen biedt Foundry verbeterde mogelijkheden voor continue evaluatie die kunnen worden ingeschakeld om dieper inzicht te krijgen in metrische gegevens over kwaliteit en veiligheid, waardoor een robuust bewakingsecosysteem wordt gemaakt dat zich aanpast aan de dynamische aard van AI-toepassingen, terwijl hoge normen voor prestaties en betrouwbaarheid worden gehandhaafd.

Door continu het gedrag van de AI-toepassing in productie te bewaken, kunt u gebruikerservaringen van hoge kwaliteit onderhouden en snel eventuele problemen oplossen die zich voordoen.

Vertrouwen opbouwen via systematische evaluatie

GenAIOps brengt een betrouwbaar proces tot stand voor het beheren van AI-toepassingen gedurende hun levenscyclus. Door in elke fase een grondige evaluatie uit te voeren, van modelselectie tot implementatie en verder, kunnen teams AI-oplossingen maken die niet alleen krachtig maar betrouwbaar en veilig zijn.

Cheatsheet voor evaluatie

Doel	Proces	Parameterwaarden
Waarvoor evalueert u?	Relevante beoordelaars identificeren of bouwen	- Voorbeeldnotitieblok voor kwaliteit en prestaties - Reactiekwaliteit van agents - Veiligheid en beveiliging (Veiligheid en beveiliging voorbeeldnotitieblok) - Aangepast (aangepast voorbeeldnotitieboek)
Welke gegevens moet u gebruiken?	Relevante gegevensset uploaden of genereren	Generieke simulator voor het meten van kwaliteit en prestaties (Generieke simulator voorbeeldnotitieboek) - Adversarial simulator voor het meten van veiligheid en beveiliging (voorbeelddocument voor adversarial simulator) AI red teaming agent voor het uitvoeren van geautomatiseerde scans om veiligheid- en beveiligingsproblemen te beoordelen (AI red teaming agent sample notebook)
Welke resources moeten de evaluatie uitvoeren?	Evaluatie uitvoeren	- Lokale uitvoering - Externe clouduitvoering
Hoe heeft mijn model/app uitgevoerd?	Resultaten analyseren	Geaggregeerde scores weergeven, details weergeven, scoredetails, evaluatieuitvoeringen vergelijken
Hoe kan ik verbeteren?	Wijzigingen aanbrengen in model, app of beoordelaars	- Als de evaluatieresultaten niet zijn afgestemd op menselijke feedback, past u uw evaluator aan. - Als de evaluatieresultaten zijn afgestemd op menselijke feedback, maar niet voldoen aan de drempelwaarden voor kwaliteit/veiligheid, past u gerichte oplossingen toe. Voorbeeld van mitigaties die moeten worden toegepast: Azure AI Content Safety

Ondersteuning voor regio

Momenteel zijn bepaalde ai-ondersteunde evaluators alleen beschikbaar in de volgende regio's:

Regio	Haat en onrechtvaardigheid, Seksueel, Gewelddadig, Zelfbeschadiging, Indirecte aanval, Codekwetsbaarheden, Ongronde attributen	Groundedness Pro	Beschermd materiaal
Oostelijke Verenigde Staten 2	Ondersteund	Ondersteund	Ondersteund
Zweden - centraal	Ondersteund	Ondersteund	Niet van toepassing.
VS - noord-centraal	Ondersteund	Niet van toepassing.	Niet van toepassing.
Centraal Frankrijk	Ondersteund	Niet van toepassing.	Niet van toepassing.
West-Zwitserland	Ondersteund	Niet van toepassing.	Niet van toepassing.

Prijsstelling

Functies voor waarneembaarheid, zoals risico- en veiligheidsevaluaties en doorlopende evaluaties, worden gefactureerd op basis van verbruik, zoals vermeld op onze Azure-pagina met prijzen. Selecteer het tabblad met het label Complete AI Toolchain om de prijsgegevens voor evaluaties weer te geven.