Delen via


Waarneembaarheid in generatieve AI

Belangrijk

Items die in dit artikel zijn gemarkeerd (preview) zijn momenteel beschikbaar als openbare preview. Deze preview wordt aangeboden zonder een service level agreement en we raden deze niet aan voor productieworkloads. Bepaalde functies worden mogelijk niet ondersteund of hebben mogelijk beperkte mogelijkheden. Voor meer informatie, zie Aanvullende Gebruiksvoorwaarden voor Microsoft Azure Previews.

De levenscyclus van de AI-toepassing vereist robuuste evaluatieframeworks om ervoor te zorgen dat AI-systemen nauwkeurige, relevante en betrouwbare uitvoer leveren. Zonder strenge evaluatie lopen AI-systemen risico's om reacties te genereren die onjuist, inconsistent, slecht geaard of mogelijk schadelijk zijn. Met waarneembaarheid kunnen teams zowel de kwaliteit als de veiligheid van AI-uitvoer in de hele ontwikkelingslevenscyclus meten en verbeteren, van modelselectie tot productiebewaking.

Opmerking

De Microsoft Foundry SDK voor evaluatie en Foundry-portal is in openbare preview, maar de API's zijn algemeen beschikbaar voor model- en gegevenssetevaluatie (agentevaluatie blijft in openbare preview). Evaluators die in dit artikel als (preview) zijn gemarkeerd, zijn momenteel overal als openbare preview beschikbaar.

Wat is waarneembaarheid?

AI-waarneembaarheid verwijst naar de mogelijkheid om AI-systemen gedurende hun levenscyclus te bewaken, te begrijpen en problemen op te lossen. Teams kunnen geautomatiseerde kwaliteitspoorten traceren, evalueren, integreren in CI/CD-pijplijnen en signalen verzamelen, zoals metrische evaluatiegegevens, logboeken, traceringen en modeluitvoer om inzicht te krijgen in prestaties, kwaliteit, veiligheid en operationele status.

Belangrijkste waarneembaarheidsmogelijkheden

Microsoft Foundry biedt drie kernmogelijkheden die samenwerken om uitgebreide waarneembaarheid te bieden in de levenscyclus van de AI-toepassing:

Evaluatie

Evaluators meten de kwaliteit, veiligheid en betrouwbaarheid van AI-antwoorden tijdens de ontwikkeling. Microsoft Foundry biedt ingebouwde evaluators voor algemene kwaliteitsstatistieken (coherentie, fluency), RAG-specifieke metrische gegevens (aarding, relevantie), veiligheid en beveiliging (haat/oneerlijkheid, geweld, beveiligde materialen) en agentspecifieke metrische gegevens (nauwkeurigheid van hulpprogramma-aanroep, voltooiing van taken). Teams kan ook aangepaste evaluators bouwen die zijn afgestemd op hun domeinspecifieke vereisten.

Zie de naslaginformatie over ingebouwde evaluators voor een volledige lijst met ingebouwde evaluators.

Controle

Productiebewaking zorgt ervoor dat uw geïmplementeerde AI-toepassingen de kwaliteit en prestaties in de praktijk handhaven. Microsoft Foundry is geïntegreerd met Azure Monitor Application Insights en biedt realtime dashboards voor het bijhouden van operationele metrische gegevens, tokenverbruik, latentie, foutpercentages en kwaliteitsscores. Teams kunnen waarschuwingen instellen voor wanneer uitvoer kwaliteitsdrempels missen of schadelijke inhoud produceren, om snelle probleemoplossing mogelijk te maken.

Zie dashboard agenten bewaken voor meer informatie over het instellen van productiecontrole.

Tracing

Gedistribueerde tracering legt de uitvoeringsstroom van AI-toepassingen vast en biedt inzicht in LLM-aanroepen, aanroepen van hulpprogramma's, beslissingen over agents en afhankelijkheden tussen services. Tracering is gebaseerd op OpenTelemetry-standaarden en geïntegreerd met Application Insights, maakt het opsporen van fouten in complexe agentgedrag mogelijk, het identificeren van knelpunten in prestaties en het begrijpen van redeneringsketens in meerdere stappen. Microsoft Foundry ondersteunt tracering voor populaire frameworks, waaronder LangChain, Semantic Kernel en de OpenAI Agents SDK.

Zie Traceer uw toepassing en Tracering met Agents SDK voor hulp bij het implementeren van tracering.

Wat zijn evaluators?

Evaluators zijn gespecialiseerde hulpprogramma's die de kwaliteit, veiligheid en betrouwbaarheid van AI-antwoorden gedurende de gehele ontwikkelingslevenscyclus meten.

Zie de naslaginformatie over ingebouwde evaluators voor een volledige lijst met ingebouwde evaluators.

Evaluators integreren in elke fase van de AI-levenscyclus om betrouwbaarheid, veiligheid en effectiviteit te garanderen.

Diagram van de levenscyclus van AI-toepassingen, met modelselectie, het bouwen van een AI-toepassing en het operationeel maken van een AI-toepassing.

De drie fasen van evaluatie van de levenscyclus van AI-toepassingen

Selectie van basismodel

Selecteer het juiste basismodel door kwaliteit, taakprestaties, ethische overwegingen en veiligheidsprofielen in verschillende modellen te vergelijken.

Beschikbare hulpprogramma's: Microsoft Foundry-benchmark voor het vergelijken van modellen op openbare gegevenssets of uw eigen gegevens, en de Azure AI Evaluation SDK voor het testen van specifieke modeleindpunten.

Evaluatie van preproductie

Voordat de implementatie wordt uitgevoerd, zorgt een grondige test ervoor dat uw AI-agent of -toepassing gereed is voor productie. In deze fase worden de prestaties gevalideerd via evaluatiedatasets, edge cases geïdentificeerd, robuustheid geëvalueerd en belangrijke prestatiemetrieken gemeten, waaronder naleving van taken, verankering, relevantie en veiligheid. Zie Foundry Agent Service voor het bouwen van productieklare agents met gesprekken met meerdere beurten, tool aanroepen en statusbeheer.

Diagram van evaluatie van preproductie voor modellen en toepassingen met de zes stappen.

Evaluatiehulpmiddelen en -benaderingen:

  • Bring Your Own Data: Evalueer AI-toepassingen met uw eigen gegevens met kwaliteit, veiligheid of aangepaste evaluators. Gebruik de evaluatiewizard van de Foundry-portal of Foundry SDK en bekijk de resultaten in de Foundry-portal.

  • AI red teaming agent: de AI red teaming agent simuleert complexe aanvallen met behulp van het PyRIT-framework van Microsoft om beveiligings- en beveiligingsproblemen te identificeren vóór de implementatie. Het meest geschikt voor human-in-the-loop-processen.

Bewaking na productie

Na de implementatie zorgt continue bewaking ervoor dat uw AI-toepassing de kwaliteit in de praktijk behoudt:

  • Operationele metrische gegevens: Regelmatige meting van de belangrijkste operationele metrische gegevens van de AI-agent
  • Continue evaluatie: Evaluatie van de kwaliteit en veiligheid van productieverkeer met een steekproefpercentage
  • Geplande evaluatie: Geplande kwaliteits- en veiligheidsevaluatie met behulp van testgegevenssets om systeemdrift te detecteren
  • Geplande red teaming: geplande aanvallende testen om te testen op veiligheids- en beveiligingsproblemen
  • Azure Monitor-waarschuwingen: meldingen wanneer uitvoer kwaliteitsdrempels mislukt of schadelijke inhoud produceert

Het dashboard Foundry Observability is geïntegreerd met Azure Monitor Application Insights en biedt realtime inzicht in metrische gegevens over prestaties, veiligheid en kwaliteit, waardoor snel problemen kunnen worden opgelost en gebruikersvertrouwen behouden blijft.

Cheatsheet voor evaluatie

Doel Process Parameters, richtlijnen en voorbeelden
Hoe stelt u tracing in? Gedistribueerde tracering configureren Traceringsoverzicht

Traceren met Agents SDK
Waarvoor evalueert u? Relevante beoordelaars identificeren of bouwen Ingebouwde evaluatoren

Aangepaste evaluators

Python SDK-voorbeelden

C#SDK-voorbeelden
Welke gegevens moet u gebruiken? Relevante gegevensset uploaden of genereren Een gegevensset selecteren of maken
Hoe kan ik evaluaties uitvoeren? Evaluatie uitvoeren Uitvoeringen van agentevaluatie

Externe cloudopdracht
Hoe heeft mijn model/AI-toepassing uitgevoerd? Resultaten analyseren Evaluatieresultaten weergeven

Clusteranalyse
Hoe kan ik verbeteren? Resultaten analyseren en agents optimaliseren Evaluatiefouten analyseren met clusteranalyse.

Optimaliseer agents en evalueer opnieuw.

Evaluatieresultaten bekijken.

Ondersteuning voor regio's, frequentielimieten en ondersteuning voor virtuele netwerken

Als u wilt weten welke regio's ondersteuning bieden voor ai-ondersteunde evaluators, de frequentielimieten die van toepassing zijn op evaluatieuitvoeringen en hoe u ondersteuning voor virtuele netwerken configureert voor netwerkisolatie, raadpleegt u regioondersteuning, frequentielimieten en ondersteuning voor virtuele netwerken voor evaluatie.

Pricing

Waarneembaarheidsfuncties, zoals risico- en veiligheidsevaluaties en evaluaties in de agentspeelplaats, worden gefactureerd op basis van verbruik, zoals vermeld op onze Azure-pagina met prijzen.

Belangrijk

Evaluaties in de agentspeelplaats zijn standaard ingeschakeld voor alle Foundry-projecten en zijn opgenomen in facturering op basis van verbruik. Als u evaluatie van speeltuinen wilt uitschakelen, selecteert u de metrische gegevens in de rechterbovenhoek van de agentspeelplaats en schakelt u alle evaluators uit.

Schermopname van de Foundry-portal met agents playground met de metrische gegevens geselecteerd.