Waarneembaarheid in generatieve AI

Belangrijk

Items die in dit artikel zijn gemarkeerd (preview) zijn momenteel beschikbaar als openbare preview. Deze preview wordt aangeboden zonder een service level agreement en we raden deze niet aan voor productieworkloads. Bepaalde functies worden mogelijk niet ondersteund of hebben mogelijk beperkte mogelijkheden. Voor meer informatie, zie Aanvullende Gebruiksvoorwaarden voor Microsoft Azure Previews.

De levenscyclus van de AI-toepassing vereist robuuste evaluatieframeworks om ervoor te zorgen dat AI-systemen nauwkeurige, relevante en betrouwbare uitvoer leveren. Zonder strenge evaluatie lopen AI-systemen risico's om reacties te genereren die onjuist, inconsistent, slecht geaard of mogelijk schadelijk zijn. Met waarneembaarheid kunnen teams zowel de kwaliteit als de veiligheid van AI-uitvoer in de hele ontwikkelingslevenscyclus meten en verbeteren, van modelselectie tot productiebewaking.

Opmerking

De Microsoft Foundry SDK voor evaluatie en Foundry-portal is in openbare preview, maar de API's zijn algemeen beschikbaar voor model- en gegevenssetevaluatie (agentevaluatie blijft in openbare preview). Evaluators die in dit artikel als (preview) zijn gemarkeerd, zijn momenteel overal als openbare preview beschikbaar.

Wat is waarneembaarheid?

AI-waarneembaarheid verwijst naar de mogelijkheid om AI-systemen gedurende hun levenscyclus te bewaken, te begrijpen en problemen op te lossen. Teams kunnen geautomatiseerde kwaliteitspoorten traceren, evalueren, integreren in CI/CD-pijplijnen en signalen verzamelen, zoals metrische evaluatiegegevens, logboeken, traceringen en modeluitvoer om inzicht te krijgen in prestaties, kwaliteit, veiligheid en operationele status.

Belangrijkste waarneembaarheidsmogelijkheden

Microsoft Foundry biedt drie kernmogelijkheden die samenwerken om uitgebreide waarneembaarheid te bieden in de levenscyclus van de AI-toepassing:

Evaluatie

Evaluators meten de kwaliteit, veiligheid en betrouwbaarheid van AI-antwoorden tijdens de ontwikkeling. Microsoft Foundry biedt ingebouwde evaluators voor algemene kwaliteitsstatistieken (coherentie, fluency), RAG-specifieke metrische gegevens (aarding, relevantie), veiligheid en beveiliging (haat/oneerlijkheid, geweld, beveiligde materialen) en agentspecifieke metrische gegevens (nauwkeurigheid van hulpprogramma-aanroep, voltooiing van taken). Teams kan ook aangepaste evaluators bouwen die zijn afgestemd op hun domeinspecifieke vereisten.

Zie de naslaginformatie over ingebouwde evaluators voor een volledige lijst met ingebouwde evaluators.

Controle

Productiebewaking zorgt ervoor dat uw geïmplementeerde AI-toepassingen de kwaliteit en prestaties in de praktijk handhaven. Microsoft Foundry is geïntegreerd met Azure Monitor Application Insights en biedt realtime dashboards voor het bijhouden van operationele metrische gegevens, tokenverbruik, latentie, foutpercentages en kwaliteitsscores. Teams kunnen waarschuwingen instellen voor wanneer uitvoer kwaliteitsdrempels missen of schadelijke inhoud produceren, om snelle probleemoplossing mogelijk te maken.

Zie dashboard agenten bewaken voor meer informatie over het instellen van productiecontrole.

Tracing

Gedistribueerde tracering legt de uitvoeringsstroom van AI-toepassingen vast en biedt inzicht in LLM-aanroepen, aanroepen van hulpprogramma's, beslissingen over agents en afhankelijkheden tussen services. Tracering is gebaseerd op OpenTelemetry-standaarden en geïntegreerd met Application Insights, maakt het opsporen van fouten in complexe agentgedrag mogelijk, het identificeren van knelpunten in prestaties en het begrijpen van redeneringsketens in meerdere stappen. Microsoft Foundry ondersteunt tracering voor populaire frameworks, waaronder LangChain, Semantic Kernel en de OpenAI Agents SDK.

Zie Traceer uw toepassing en Tracering met Agents SDK voor hulp bij het implementeren van tracering.

Wat zijn evaluators?

Evaluators zijn gespecialiseerde hulpprogramma's die de kwaliteit, veiligheid en betrouwbaarheid van AI-antwoorden gedurende de gehele ontwikkelingslevenscyclus meten.

Zie de naslaginformatie over ingebouwde evaluators voor een volledige lijst met ingebouwde evaluators.

Evaluators integreren in elke fase van de AI-levenscyclus om betrouwbaarheid, veiligheid en effectiviteit te garanderen.

De drie fasen van evaluatie van de levenscyclus van AI-toepassingen

Selectie van basismodel

Selecteer het juiste basismodel door kwaliteit, taakprestaties, ethische overwegingen en veiligheidsprofielen in verschillende modellen te vergelijken.

Beschikbare hulpprogramma's: Microsoft Foundry-benchmark voor het vergelijken van modellen op openbare gegevenssets of uw eigen gegevens, en de Azure AI Evaluation SDK voor het testen van specifieke modeleindpunten.

Evaluatie van preproductie

Voordat de implementatie wordt uitgevoerd, zorgt een grondige test ervoor dat uw AI-agent of -toepassing gereed is voor productie. In deze fase worden de prestaties gevalideerd via evaluatiedatasets, edge cases geïdentificeerd, robuustheid geëvalueerd en belangrijke prestatiemetrieken gemeten, waaronder naleving van taken, verankering, relevantie en veiligheid. Zie Foundry Agent Service voor het bouwen van productieklare agents met gesprekken met meerdere beurten, tool aanroepen en statusbeheer.

Evaluatiehulpmiddelen en -benaderingen:

Bring Your Own Data: Evalueer AI-toepassingen met uw eigen gegevens met kwaliteit, veiligheid of aangepaste evaluators. Gebruik de evaluatiewizard van de Foundry-portal of Foundry SDK en bekijk de resultaten in de Foundry-portal.
AI red teaming agent: de AI red teaming agent simuleert complexe aanvallen met behulp van het PyRIT-framework van Microsoft om beveiligings- en beveiligingsproblemen te identificeren vóór de implementatie. Het meest geschikt voor human-in-the-loop-processen.

Bewaking na productie

Na de implementatie zorgt continue bewaking ervoor dat uw AI-toepassing de kwaliteit in de praktijk behoudt:

Operationele metrische gegevens: Regelmatige meting van de belangrijkste operationele metrische gegevens van de AI-agent
Continue evaluatie: Evaluatie van de kwaliteit en veiligheid van productieverkeer met een steekproefpercentage
Geplande evaluatie: Geplande kwaliteits- en veiligheidsevaluatie met behulp van testgegevenssets om systeemdrift te detecteren
Geplande red teaming: geplande aanvallende testen om te testen op veiligheids- en beveiligingsproblemen
Azure Monitor-waarschuwingen: meldingen wanneer uitvoer kwaliteitsdrempels mislukt of schadelijke inhoud produceert

Het dashboard Foundry Observability is geïntegreerd met Azure Monitor Application Insights en biedt realtime inzicht in metrische gegevens over prestaties, veiligheid en kwaliteit, waardoor snel problemen kunnen worden opgelost en gebruikersvertrouwen behouden blijft.

Cheatsheet voor evaluatie

Doel	Process	Parameters, richtlijnen en voorbeelden
Hoe stelt u tracing in?	Gedistribueerde tracering configureren	Traceringsoverzicht Traceren met Agents SDK
Waarvoor evalueert u?	Relevante beoordelaars identificeren of bouwen	Ingebouwde evaluatoren Aangepaste evaluators Python SDK-voorbeelden C#SDK-voorbeelden
Welke gegevens moet u gebruiken?	Relevante gegevensset uploaden of genereren	Een gegevensset selecteren of maken
Hoe kan ik evaluaties uitvoeren?	Evaluatie uitvoeren	Uitvoeringen van agentevaluatie Externe cloudopdracht
Hoe heeft mijn model/AI-toepassing uitgevoerd?	Resultaten analyseren	Evaluatieresultaten weergeven Clusteranalyse
Hoe kan ik verbeteren?	Resultaten analyseren en agents optimaliseren	Evaluatiefouten analyseren met clusteranalyse. Optimaliseer agents en evalueer opnieuw. Evaluatieresultaten bekijken.

Ondersteuning voor regio's, frequentielimieten en ondersteuning voor virtuele netwerken

Als u wilt weten welke regio's ondersteuning bieden voor ai-ondersteunde evaluators, de frequentielimieten die van toepassing zijn op evaluatieuitvoeringen en hoe u ondersteuning voor virtuele netwerken configureert voor netwerkisolatie, raadpleegt u regioondersteuning, frequentielimieten en ondersteuning voor virtuele netwerken voor evaluatie.

Pricing

Waarneembaarheidsfuncties, zoals risico- en veiligheidsevaluaties en evaluaties in de agentspeelplaats, worden gefactureerd op basis van verbruik, zoals vermeld op onze Azure-pagina met prijzen.