Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Belangrijk
Items die in dit artikel zijn gemarkeerd (preview) zijn momenteel beschikbaar als openbare preview. Deze preview wordt aangeboden zonder een service level agreement en we raden deze niet aan voor productieworkloads. Bepaalde functies worden mogelijk niet ondersteund of hebben mogelijk beperkte mogelijkheden. Voor meer informatie, zie Aanvullende Gebruiksvoorwaarden voor Microsoft Azure Previews.
De levenscyclus van de AI-toepassing vereist robuuste evaluatieframeworks om ervoor te zorgen dat AI-systemen nauwkeurige, relevante en betrouwbare uitvoer leveren. Zonder strenge evaluatie lopen AI-systemen risico's om reacties te genereren die onjuist, inconsistent, slecht geaard of mogelijk schadelijk zijn. Met waarneembaarheid kunnen teams zowel de kwaliteit als de veiligheid van AI-uitvoer in de hele ontwikkelingslevenscyclus meten en verbeteren, van modelselectie tot productiebewaking.
Opmerking
De Microsoft Foundry SDK voor evaluatie en Foundry-portal is in openbare preview, maar de API's zijn algemeen beschikbaar voor model- en gegevenssetevaluatie (agentevaluatie blijft in openbare preview). Evaluators die in dit artikel als (preview) zijn gemarkeerd, zijn momenteel overal als openbare preview beschikbaar.
Wat is waarneembaarheid?
AI-waarneembaarheid verwijst naar de mogelijkheid om AI-systemen gedurende hun levenscyclus te bewaken, te begrijpen en problemen op te lossen. Teams kunnen geautomatiseerde kwaliteitspoorten traceren, evalueren, integreren in CI/CD-pijplijnen en signalen verzamelen, zoals metrische evaluatiegegevens, logboeken, traceringen en modeluitvoer om inzicht te krijgen in prestaties, kwaliteit, veiligheid en operationele status.
Belangrijkste waarneembaarheidsmogelijkheden
Microsoft Foundry biedt drie kernmogelijkheden die samenwerken om uitgebreide waarneembaarheid te bieden in de levenscyclus van de AI-toepassing:
Evaluatie
Evaluators meten de kwaliteit, veiligheid en betrouwbaarheid van AI-antwoorden tijdens de ontwikkeling. Microsoft Foundry biedt ingebouwde evaluators voor algemene kwaliteitsstatistieken (coherentie, fluency), RAG-specifieke metrische gegevens (aarding, relevantie), veiligheid en beveiliging (haat/oneerlijkheid, geweld, beveiligde materialen) en agentspecifieke metrische gegevens (nauwkeurigheid van hulpprogramma-aanroep, voltooiing van taken). Teams kan ook aangepaste evaluators bouwen die zijn afgestemd op hun domeinspecifieke vereisten.
Zie de naslaginformatie over ingebouwde evaluators voor een volledige lijst met ingebouwde evaluators.
Controle
Productiebewaking zorgt ervoor dat uw geïmplementeerde AI-toepassingen de kwaliteit en prestaties in de praktijk handhaven. Microsoft Foundry is geïntegreerd met Azure Monitor Application Insights en biedt realtime dashboards voor het bijhouden van operationele metrische gegevens, tokenverbruik, latentie, foutpercentages en kwaliteitsscores. Teams kunnen waarschuwingen instellen voor wanneer uitvoer kwaliteitsdrempels missen of schadelijke inhoud produceren, om snelle probleemoplossing mogelijk te maken.
Zie dashboard agenten bewaken voor meer informatie over het instellen van productiecontrole.
Tracing
Gedistribueerde tracering legt de uitvoeringsstroom van AI-toepassingen vast en biedt inzicht in LLM-aanroepen, aanroepen van hulpprogramma's, beslissingen over agents en afhankelijkheden tussen services. Tracering is gebaseerd op OpenTelemetry-standaarden en geïntegreerd met Application Insights, maakt het opsporen van fouten in complexe agentgedrag mogelijk, het identificeren van knelpunten in prestaties en het begrijpen van redeneringsketens in meerdere stappen. Microsoft Foundry ondersteunt tracering voor populaire frameworks, waaronder LangChain, Semantic Kernel en de OpenAI Agents SDK.
Zie Traceer uw toepassing en Tracering met Agents SDK voor hulp bij het implementeren van tracering.
Wat zijn evaluators?
Evaluators zijn gespecialiseerde hulpprogramma's die de kwaliteit, veiligheid en betrouwbaarheid van AI-antwoorden gedurende de gehele ontwikkelingslevenscyclus meten.
Zie de naslaginformatie over ingebouwde evaluators voor een volledige lijst met ingebouwde evaluators.
Evaluators integreren in elke fase van de AI-levenscyclus om betrouwbaarheid, veiligheid en effectiviteit te garanderen.
De drie fasen van evaluatie van de levenscyclus van AI-toepassingen
Selectie van basismodel
Selecteer het juiste basismodel door kwaliteit, taakprestaties, ethische overwegingen en veiligheidsprofielen in verschillende modellen te vergelijken.
Beschikbare hulpprogramma's: Microsoft Foundry-benchmark voor het vergelijken van modellen op openbare gegevenssets of uw eigen gegevens, en de Azure AI Evaluation SDK voor het testen van specifieke modeleindpunten.
Evaluatie van preproductie
Voordat de implementatie wordt uitgevoerd, zorgt een grondige test ervoor dat uw AI-agent of -toepassing gereed is voor productie. In deze fase worden de prestaties gevalideerd via evaluatiedatasets, edge cases geïdentificeerd, robuustheid geëvalueerd en belangrijke prestatiemetrieken gemeten, waaronder naleving van taken, verankering, relevantie en veiligheid. Zie Foundry Agent Service voor het bouwen van productieklare agents met gesprekken met meerdere beurten, tool aanroepen en statusbeheer.
Evaluatiehulpmiddelen en -benaderingen:
Bring Your Own Data: Evalueer AI-toepassingen met uw eigen gegevens met kwaliteit, veiligheid of aangepaste evaluators. Gebruik de evaluatiewizard van de Foundry-portal of Foundry SDK en bekijk de resultaten in de Foundry-portal.
AI red teaming agent: de AI red teaming agent simuleert complexe aanvallen met behulp van het PyRIT-framework van Microsoft om beveiligings- en beveiligingsproblemen te identificeren vóór de implementatie. Het meest geschikt voor human-in-the-loop-processen.
Bewaking na productie
Na de implementatie zorgt continue bewaking ervoor dat uw AI-toepassing de kwaliteit in de praktijk behoudt:
- Operationele metrische gegevens: Regelmatige meting van de belangrijkste operationele metrische gegevens van de AI-agent
- Continue evaluatie: Evaluatie van de kwaliteit en veiligheid van productieverkeer met een steekproefpercentage
- Geplande evaluatie: Geplande kwaliteits- en veiligheidsevaluatie met behulp van testgegevenssets om systeemdrift te detecteren
- Geplande red teaming: geplande aanvallende testen om te testen op veiligheids- en beveiligingsproblemen
- Azure Monitor-waarschuwingen: meldingen wanneer uitvoer kwaliteitsdrempels mislukt of schadelijke inhoud produceert
Het dashboard Foundry Observability is geïntegreerd met Azure Monitor Application Insights en biedt realtime inzicht in metrische gegevens over prestaties, veiligheid en kwaliteit, waardoor snel problemen kunnen worden opgelost en gebruikersvertrouwen behouden blijft.
Cheatsheet voor evaluatie
| Doel | Process | Parameters, richtlijnen en voorbeelden |
|---|---|---|
| Hoe stelt u tracing in? | Gedistribueerde tracering configureren |
Traceringsoverzicht Traceren met Agents SDK |
| Waarvoor evalueert u? | Relevante beoordelaars identificeren of bouwen |
Ingebouwde evaluatoren Aangepaste evaluators Python SDK-voorbeelden C#SDK-voorbeelden |
| Welke gegevens moet u gebruiken? | Relevante gegevensset uploaden of genereren | Een gegevensset selecteren of maken |
| Hoe kan ik evaluaties uitvoeren? | Evaluatie uitvoeren |
Uitvoeringen van agentevaluatie Externe cloudopdracht |
| Hoe heeft mijn model/AI-toepassing uitgevoerd? | Resultaten analyseren |
Evaluatieresultaten weergeven Clusteranalyse |
| Hoe kan ik verbeteren? | Resultaten analyseren en agents optimaliseren | Evaluatiefouten analyseren met clusteranalyse. Optimaliseer agents en evalueer opnieuw. Evaluatieresultaten bekijken. |
Ondersteuning voor regio's, frequentielimieten en ondersteuning voor virtuele netwerken
Als u wilt weten welke regio's ondersteuning bieden voor ai-ondersteunde evaluators, de frequentielimieten die van toepassing zijn op evaluatieuitvoeringen en hoe u ondersteuning voor virtuele netwerken configureert voor netwerkisolatie, raadpleegt u regioondersteuning, frequentielimieten en ondersteuning voor virtuele netwerken voor evaluatie.
Pricing
Waarneembaarheidsfuncties, zoals risico- en veiligheidsevaluaties en evaluaties in de agentspeelplaats, worden gefactureerd op basis van verbruik, zoals vermeld op onze Azure-pagina met prijzen.
Belangrijk
Evaluaties in de agentspeelplaats zijn standaard ingeschakeld voor alle Foundry-projecten en zijn opgenomen in facturering op basis van verbruik. Als u evaluatie van speeltuinen wilt uitschakelen, selecteert u de metrische gegevens in de rechterbovenhoek van de agentspeelplaats en schakelt u alle evaluators uit.