Megfigyelhetőség a generatív AI-ben

Az AI-alkalmazások életciklusa robusztus kiértékelési keretrendszereket igényel annak biztosítása érdekében, hogy az AI-rendszerek pontos, releváns és megbízható kimeneteket biztosítsanak. Szigorú értékelés nélkül az AI-rendszerek pontatlan, inkonzisztens, rosszul megalapozott vagy potenciálisan káros válaszokat generálnak. A megfigyelhetőség lehetővé teszi a csapatok számára az AI-kimenetek minőségének és biztonságának mérését és javítását a fejlesztési életciklus során – a modell kiválasztásától az éles monitorozásig.

Mi az a megfigyelhetőség?

Az AI megfigyelhetősége az AI-rendszerek monitorozásának, megértésének és hibaelhárításának képességét jelenti az életciklusuk során. Nyomon követheti, kiértékelheti, integrálhatja az automatizált minőségi kapukat a CI/CD-folyamatokba, és olyan jeleket gyűjthet, mint a kiértékelési metrikák, naplók, nyomkövetések és modellkimenetek, így betekintést nyerhet a teljesítménybe, a minőségbe, a biztonságba és a működési állapotba.

Alapvető megfigyelhetőségi képességek

Microsoft Foundry három alapvető képességet biztosít, amelyek együttműködve átfogó megfigyelhetőséget biztosítanak az AI-alkalmazások életciklusában:

Értékelés

Az értékelők a fejlesztés során mérik az AI-válaszok minőségét, biztonságát és megbízhatóságát. Microsoft Foundry beépített kiértékelőket biztosít, beleértve többek között az általános célú minőségi metrikákat (koherencia, fluency), a RAG-specifikus metrikákat (alaposság, relevancia), a biztonságot és a biztonságot (gyűlölet/igazságtalanság, erőszak, védett anyagok) és az ügynökspecifikus metrikákat (eszközhívás pontossága, feladatvégzés) is. A tartományspecifikus követelményeknek megfelelő egyéni kiértékelőket is létrehozhat.

A beépített kiértékelők teljes listájáért tekintse meg a beépített kiértékelőkre vonatkozó referenciát.

Megfigyelő

A termeléskövetés biztosítja, hogy az üzembe helyezett AI-alkalmazások valós körülmények között fenn tudják tartani a minőséget és a teljesítményt. A Microsoft Foundry, amely integrálva van az Azure Monitor Application Insights rendszerével, valós idejű irányítópultokat biztosít a működési metrikák, a tokenhasználat, a késés, a hibaarányok és a minőségi pontszámok nyomon követéséhez. Riasztásokat állíthat be, ha a kimenetek nem megfelelő minőségi küszöbértékeket eredményeznek, vagy káros tartalmakat hoznak létre, lehetővé téve a probléma gyors megoldását.

A gyártási felügyelet beállításával kapcsolatos részletekért tekintse meg az ügynökök felügyeleti irányítópultját.

Nyomkövetés

Az elosztott nyomkövetés rögzíti az AI-alkalmazások végrehajtási folyamatát, így betekintést nyújt az LLM-hívásokba, az eszközhívásokba, az ügynök döntéseibe és a szolgáltatásközi függőségekbe. Az OpenTelemetry-szabványokra épülő és az Azure Monitor Application Insights szolgáltatással integrált nyomkövetés lehetővé teszi az összetett ügynökök viselkedésének hibakeresését, a teljesítmény szűk keresztmetszeteinek azonosítását és a többlépéses érvelési láncok megértését. Microsoft Foundry támogatja a népszerű keretrendszerek , például a LangChain, a LangGraph, az OpenAI Agents SDK és a Microsoft Agent Framework nyomkövetését.

A nyomkövetés implementálásával kapcsolatos útmutatásért tekintse meg a Nyomkövetési ügynök áttekintését.

Mik azok az értékelők?

Az értékelők olyan speciális eszközök, amelyek a fejlesztési életciklus során mérik az AI-válaszok minőségét, biztonságát és megbízhatóságát.

A beépített kiértékelők teljes listájáért tekintse meg a beépített kiértékelőkre vonatkozó referenciát.

Az értékelők integrálhatók az AI-életciklus minden szakaszába a megbízhatóság, a biztonság és a hatékonyság biztosítása érdekében.

Az AI-alkalmazások életciklusának diagramja, amely a modell kiválasztását, egy AI-alkalmazás felépítését és az üzembe helyezést mutatja be.

Az AI-alkalmazások életciklusának kiértékelésének három szakasza

Alapmodell kiválasztása

Válassza ki a megfelelő alapmodellt a minőség, a feladatteljesítmény, az etikai szempontok és a biztonsági profilok különböző modellek közötti összehasonlításával.

Elérhető eszközök: Microsoft Foundry benchmark a nyilvános adathalmazok modelljeinek vagy saját adatainak összehasonlításához, valamint az Azure AI Evaluation SDK az adott modellvégpontok tesztelésére.

Éles üzem előtti értékelés

Az üzembe helyezés előtt alapos teszteléssel biztosíthatja, hogy az AI-ügynök vagy -alkalmazás éles üzemkész legyen. Ez a szakasz kiértékelési adatkészleteken keresztül ellenőrzi a teljesítményt, azonosítja a peremes eseteket, értékeli a robusztusságot, és méri a legfontosabb metrikákat, beleértve a feladatmegtartást, a megalapozottságot, a relevanciát és a biztonságot. Az éles üzemre kész ügynökök többfordulós beszélgetésekkel, eszközhívással és állapotkezeléssel történő kiépítéséről lásd: Foundry Agent Service.

A modellek és alkalmazások éles üzem előtti kiértékelésének diagramja a hat lépésből áll.

Értékelési eszközök és megközelítések:

Gyártás utáni monitorozás

Az üzembe helyezés után a folyamatos monitorozás biztosítja, hogy az AI-alkalmazás valós körülmények között is megőrizze a minőséget:

  • Működési metrikák: A legfontosabb AI-ügynök működési metrikáinak rendszeres mérése
  • Folyamatos értékelés: A termelési forgalom minőség- és biztonsági értékelése mintavételezett ütemben
  • Ütemezett kiértékelés: Ütemezett minőség- és biztonsági értékelés tesztadatkészletek használatával a rendszer eltérésének észlelésére
  • Ütemezett vörös összevonás: A biztonsági és biztonsági biztonsági rések vizsgálatához ütemezett támadói tesztelés
  • Azure Monitor riasztások: Értesítések, ha a kimenetek nem megfelelő minőségi küszöbértékeket eredményeznek, vagy káros tartalmakat hoznak létre

Az Azure Monitor Application Insights szolgáltatással integrált Foundry Observability irányítópult valós idejű elemzéseket biztosít a teljesítmény-, biztonsági és minőségi metrikákról, lehetővé téve a gyors problémamegoldást és a felhasználói bizalom fenntartását.

Értékelés – rövid útmutató

Célja Folyamat Paraméterek, útmutatók és minták
Hogyan állíthatja be a nyomkövetést? Elosztott nyomkövetés konfigurálása Nyomkövetés áttekintése

Nyomkövetés ügynökök SDK-jával
Mire értékel? Releváns kiértékelők azonosítása vagy összeállítása Beépített kiértékelők

Egyéni értékelők

Python SDK-minták

C# SDK-minták
Milyen adatokat érdemes használnia? Releváns adathalmaz feltöltése vagy létrehozása Adatforrás kiválasztása
Hogyan futtathatók a kiértékelések? Kiértékelés futtatása Ügynökértékelés folyamatok

Távoli felhőbeli futtatás
Hogyan teljesített a modell/AI-alkalmazás? Eredmények elemzése Kiértékelési eredmények megtekintése

Klaszteranalízis
Hogyan javíthatok? Eredmények elemzése és ügynökök optimalizálása Az értékelési hibák elemzése a fürtelemzést felhasználva.

Ügynökök optimalizálása és újraértékelése.

A kiértékelési eredmények áttekintése.

Régiótámogatás, díjkorlátok és virtuális hálózatok támogatása

Ha tudni szeretné, hogy mely régiók támogatják az AI által támogatott kiértékelőket, a kiértékelési futtatásokra vonatkozó sebességkorlátokat, valamint a virtuális hálózatok hálózati támogatásának hálózati elkülönítéshez való konfigurálását, tekintse meg a régiótámogatást, a sebességkorlátokat és a virtuális hálózatok kiértékelési támogatását.

Árképzés

Az olyan megfigyelhetőségi funkciók, mint a kockázat- és biztonsági értékelések, valamint az ügynök-játszótéri értékelések a használat alapján kerülnek számlázásra a our Azure díjszabási oldalán.

Fontos

Az ügynökök játszóterének kiértékelése alapértelmezés szerint engedélyezve van az összes Foundry-projekt esetében, és a használatalapú számlázás része. A játszótéri értékelések kikapcsolásához válassza ki a metrikákat az ügynökök játszóterének jobb felső sarkában, és törölje az összes kiértékelő kijelölését.

Képernyőkép az Foundry portálról, amelyen az ügynököket ábrázoló játszótér látható a kiválasztott metrikákkal.