Megosztás:


Az Azure OpenAI átláthatósági megjegyzése

Important

A nem angol nyelvű fordítások csak a kényelem érdekében érhetők el. A végleges verzióhoz tekintse meg EN-US a dokumentum verzióját.

Mi az az átláthatósági megjegyzés?

Az AI-rendszerek nem csak a technológiát, hanem az azt használó személyeket, az érintett személyeket és az üzembe helyezett környezetet is magukban foglalják. A célnak megfelelő rendszer létrehozásához ismerni kell a technológia működését, képességeit és korlátait, valamint a legjobb teljesítmény elérését. A Microsoft átláthatósági megjegyzései segítenek megérteni, hogyan működik az AI-technológia, milyen döntéseket hozhatnak a rendszertulajdonosok, amelyek befolyásolhatják a rendszer teljesítményét és viselkedését, valamint hogy mennyire fontos az egész rendszerre, beleértve a technológiát, az embereket és a környezetet is. A saját rendszer fejlesztésekor vagy üzembe helyezésekor használhatja az átláthatósági megjegyzéseket, vagy megoszthatja azokat a rendszer által használni kívánt vagy érintett személyekkel.

A Microsoft átláthatósági megjegyzései a Microsoft szélesebb körű erőfeszítéseinek részét képezik az AI-alapelvek gyakorlati alkalmazásához. További információkért tekintse meg a Microsoft AI-alapelveit.

Az Azure OpenAI-modellek alapjai

Az Azure OpenAI egy teljes körűen felügyelt Öntödei eszközt biztosít az ügyfeleknek, amellyel a fejlesztők és az adattudósok alkalmazhatják az OpenAI hatékony modelljeit, beleértve a természetes nyelvet, kódot és képeket létrehozó modelleket is. Az Azure OpenAI szolgáltatásban az OpenAI-modellek integrálva vannak a Microsoft által kifejlesztett Guardrails (korábban tartalomszűrők) és visszaélésészlelési modellekkel. További információ a guardrailekről (korábban tartalomszűrőkről ) és a visszaélések észleléséről itt.

Introduction

Modellcsoport Szöveg/kód Képfelismerés Hang/ Beszéd
GPT-3 & Codex
DALL-E 2 és 3
GPT-image-1
Whisper
GPT-4 Turbo és Vision
GPT-4o
GPT-4o-mini
GPT-4.1
GPT-4.1-mini
GPT-4.1-nano
GPT-4.5
GPT-5
GPT-5.1-Codex-Max
GPT-oss-120b
o1 sorozat
o3/o3-pro
o3-mini
o4-mini/codex-mini1
o3-mély kutatás
o4-mini-deep-research
computer-use-preview

1codex-mini egy finomhangolt verzió kifejezetten a Codex CLI-ben való használatra o4-mini. További információkért tekintse meg az OpenAI dokumentációját.

A lapfülek kiválasztásával megtekintheti a megfelelő modelltípus tartalmát.

A teljes mértékben felügyelt Azure OpenAI szolgáltatás részeként a GPT-3 modellek természetes nyelvet elemeznek és hoznak létre, a Codex-modellek kód- és egyszerű szöveges kódkommentárokat elemeznek és hoznak létre, a GPT-4 és az érvelési modellek (beleértve az o-sorozatú modelleket és a GPT-5-öt) képesek megérteni és létrehozni természetes nyelvet és kódot. Ezek a modellek autoregresszív architektúrát használnak, ami azt jelenti, hogy a korábbi megfigyelésekből származó adatokat használják a legvalószínűbb következő szó előrejelzéséhez. Ezt a folyamatot ezután megismétli, ha az újonnan létrehozott tartalmat hozzáfűzi az eredeti szöveghez a teljes generált válasz létrehozásához. Mivel a válasz a bemeneti szövegre van kondicionált, ezek a modellek egyszerűen alkalmazhatók a különböző feladatokra a bemeneti szöveg módosításával.

A GPT-3 modellsorozatot széles körben elérhető nyilvános szöveges adatokon képezték elő. Ezek az adatok a webes bejárás (pontosabban a Common Crawl szűrt változata) kombinációjából származnak, amely az internetről származó szövegek széles skáláját tartalmazza, és a súlyozott előtanítási adatkészlet 60 százalékát tartalmazza) és a magasabb minőségű adatkészleteket, beleértve a WebText adatkészlet bővített verzióját, két internetes könyv corpora-t és angol nyelvű Wikipédiát. A GPT-4 alapmodellt nyilvánosan elérhető adatokkal (például internetes adatokkal) és az OpenAI által licencelt adatokkal képezték ki. A modellt az emberi visszajelzésekkel (RLHF) végzett megerősítési tanulással finomhangolták.

A Számítógép-használat (előzetes verzió) modell az első körben elfogadja a szövegbevitelt, a második és az ezt követő körökben pedig a képernyőképet, és parancsokat küld a billentyűzetre és az egérre. A Számítógép-használati modell és a Számítógép-használati eszköz lehetővé teszi a fejlesztők számára, hogy ügynöki AI-rendszereket építsenek ki.

További információ az OpenAI GPT-3, GPT-4 és Codex kutatási dokumentumaiban található betanítási és modellezési technikákról.

A finomhangolás a felügyelt finomhangolást jelenti az alapmodell súlyának módosításához, hogy a megadott betanítási készlet alapján jobb válaszokat biztosítson. A nagy nyelvi modellek minden használati esete és szempontja a finomhangolt modellekre vonatkozik, de vannak további szempontok is.

Important

A finomhangolás csak szöveg- és kódmodellekhez érhető el, látás- és beszédmodellekhez nem.

Kulcskifejezések

Term Definition
Prompt Az API-hívásban a szolgáltatásnak küldött szöveg. Ez a szöveg ezután be lesz adva a modellbe. Például be lehet írni a következő utasítást:

Convert the questions to a command:
Q: Ask Constance if we need some bread
A: send-msg 'find constance' Do we need some bread?
Q: Send a message to Greg to figure out if things are ready for Wednesday.
A:
Befejezés vagy létrehozás Az Azure OpenAI válaszként adja ki a szöveget. A szolgáltatás például a következő válaszsal válaszolhat a fenti kérdésre: send-msg 'find greg' figure out if things are ready for Wednesday.
Token Az Azure OpenAI a jogkivonatokra lebontva dolgozza fel a szöveget. A tokenek lehetnek szavak vagy csak karaktersorozatok. Például a szó hamburger felbontva van a tokenekre ham, bur és ger, míg egy rövid és gyakori szó, mint pear, egyetlen token. Több tokenek szóközzel kezdődik, például hello és bye.
Finomhangolás A nagy nyelvi modellek felügyelt finomhangolása (SFT), megerősítéses finomhangolása (RFT) és közvetlen preferenciális optimalizálása (DPO vagy preferencia finomhangolás) arra a folyamatra utal, amelyben egy előzetesen, gyakran hatalmas adathalmazon betanított nyelvi modellt továbbképeznek egy adott feladatra, amelyhez címkézett adatok tartoznak. Ez magában foglalja a modell súlyának módosítását ezzel a kisebb, meghatározott adatkészlettel, hogy a modell specializáltabbá váljon az általa elvégezhető feladatokra, növelve annak teljesítményét és pontosságát.
A modell súlyai A modell súlyai olyan paraméterek, amelyeket a betanítási folyamat során az adatokból tanulnak meg. Meghatározzák a modell kimenetét egy adott bemenethez. Ezek a súlyok a modell előrejelzéseiben szereplő hibára reagálva vannak igazítva, a hiba minimalizálása érdekében.
Nem földelt tartalom A modell által létrehozott olyan tartalom, amely nem tényszerű vagy pontatlan a forrásanyagokban található tartalomból.
Cselekvő AI-rendszerek Autonóm AI-rendszerek, amelyek érzékelik és használják környezetüket a célok elérése érdekében.
Autonomy A műveletek önálló végrehajtásának és a rendszer viselkedésének szabályozásának lehetősége korlátozott vagy közvetlen emberi felügyelet nélkül.
Számítógép-használati eszköz Egy eszköz, amely a Számítógép használata modellel együtt használva rögzíti a mód által létrehozott egér- és billentyűzetműveleteket, és közvetlenül lefordítja őket végrehajtható parancsokra. Ez lehetővé teszi a fejlesztők számára a számítógép-használati feladatok automatizálását.
Mély kutatás Az o-sorozatú érvelési modellek finomhangolt verziója, amely mély kutatási feladatokhoz lett kialakítva. Magas szintű lekérdezést használ, és strukturált, idézetekben gazdag jelentést ad vissza egy ügynöki modell használatával, amely képes a feladat felbontására, a webes keresések végrehajtására és az eredmények szintetizálására.

Capabilities

Az érvelési modellek, a GPT-4, a GPT-3, a Codex-modellek és az Azure OpenAI-kiértékelési modellek természetes nyelvi utasításokat és példákat használnak a feladat azonosításához. A modell ezután a legvalószínűbb következő szöveg előrejelzésével végzi el a feladatot. Ezt a technikát "kontextuson belüli" tanulásnak nevezzük. Ezek a modellek ebben a lépésben nem lesznek újratanulva, hanem a parancssorban szereplő környezet alapján adnak előrejelzéseket.

A kontextuson belüli tanulásnak három fő megközelítése van. Ezek a megközelítések a modellnek adott feladatspecifikus adatok mennyiségétől függően változnak:

Kevés kép : Ebben az esetben a felhasználó több példát is tartalmaz a parancssorban, amelyek bemutatják a várt válaszformátumot és -tartalmat. Az alábbi példa egy néhány képből áll, amely több példát is megad:

Convert the questions to a command: 
Q: Ask Constance if we need some bread 
A: send-msg `find constance` Do we need some bread? 
Q: Send a message to Greg to figure out if things are ready for Wednesday. 
A: send-msg `find greg` Is everything ready forWednesday? 
Q: Ask Ilya if we're still having our meeting thisevening 
A: send-msg `find ilya` Are we still having a meetingthis evening? 
Q: Contact the ski store and figure out if I can getmy skis fixed before I leave on Thursday 
A: send-msg `find ski store` Would it be possible toget my skis fixed before I leave on Thursday? 
Q: Thank Nicolas for lunch 
A: send-msg `find nicolas` Thank you for lunch! 
Q: Tell Constance that I won't be home before 19:30tonight — unmovable meeting. 
A: send-msg `find constance` I won't be home before19:30 tonight. I have a meeting I can't move. 
Q: Tell John that I need to book an appointment at10:30 
A:  

A példák száma általában 0 és 100 között mozog attól függően, hogy hányan férnek el egyetlen kérdés maximális bemeneti hosszában. A kevés lövéses tanulás jelentősen csökkenti a pontos előrejelzésekhez szükséges feladatspecifikus adatok mennyiségét.

Egylövetű : Ez az eset megegyezik a kevés lövésű megközelítéssel, csak egy példa van megadva. Az alábbi példában egy egyfordulós kérés látható.

Convert the questions to a command:
Q: Ask Constance if we need some bread
A: send-msg `find constance` Do we need some bread?
Q: Send a message to Greg to figure out if things are ready for Wednesday.
A:

Zero-shot: Ebben az esetben nincs példa biztosítva a modellnek, és csak a feladatkérés van megadva. Az alábbi példa egy nulla lövésű kérést mutat be:

Convert the question to a command:
Q: Ask Constance if we need some bread
A:

Gondolatlánc : Az Azure OpenAI érvelési modelljei fejlett érvelési képességekkel rendelkeznek, amelyek a gondolatlánc (CoT) technikáit használják. A cot-technikák köztes érvelési lépéseket hoznak létre, mielőtt választ adnak, lehetővé téve számukra, hogy lépésről lépésre megoldják az összetettebb kihívásokat. O1 többek között a kutatás, a stratégia, a tudomány, a kódolás és a matematika terén végzett teljesítménytesztek javulását mutatja be. Ezek a modellek fejlett érvelési képességekkel rendelkeznek biztonsági fejlesztésekkel, amelyek lehetővé teszik a biztonsági szabályok hatékonyabb áthatolását és alkalmazását. Ez jobb teljesítményt eredményez a biztonsági mércék mellett, mint például tiltott tanácsok generálása, sztereotip válaszok kiválasztása, és ismert jailbreak-sebezhetőségeknek való megadás.

A modellcsalád képességeiről bővebben az OpenAI o1 rendszerkártya, az o3-mini rendszerkártya, az o3/o4-mini rendszerkártya, a mély kutatórendszerkártya és a GPT-5 rendszerkártya című cikkben olvashat.

Az Azure OpenAI kiértékelése

A nagy nyelvi modellek kiértékelése kritikus lépés a teljesítmény különböző feladatok és dimenziók közötti mérésében. Ez a feladat különösen fontos a finomhangolt modellek esetében, ahol a betanításból származó teljesítménynövekedés (vagy veszteség) értékelése kulcsfontosságú. Alapos értékelések nélkül nehéz lehet megérteni, hogy a modell különböző verziói milyen hatással lehetnek az adott alkalmazásra.

Az Azure OpenAI-kiértékelés egy felhasználói felület az adatok kiértékelésére, beleértve az Azure OpenAI-üzemelő példányból létrehozott adathalmazokat vagy más manuálisan válogatott fájlokat.

Az Azure OpenAI-kiértékelés egy választható lépéssel rendelkezik a válaszok generálására. Ha a felhasználó ezt a lépést választja, egy üzenet jelenik meg (rendszer/felhasználói üzenet), amely utasítja a modellt a válaszok létrehozására.

Az Azure OpenAI-értékelés 9 tesztkategóriát tartalmaz az eredmények pontszámához. Vannak, akik alapigazsági adatokat igényelnek (például ténybeliséget), míg mások nem (sémaérvényesítés). Az osztályozók cpu-alapú és modellalapú keverékei. Itt találja a tesztelési feltételek listáját: Tényszerűség, Hangulat, Érvényes JSON vagy XML, Feltételegyezés, Egyéni kérdés, Szemantikai hasonlóság, Sztringet tartalmaz, Séma és Szövegminőség egyeztetése.

Text-to-action

A Számítógép-használat (előzetes verzió) modell lehetővé teszi a szöveg-művelet képességeket, lehetővé téve a felhasználók számára, hogy természetes nyelvi utasításokat adjanak meg, amelyeket a modell végrehajtható lépésekre fordít a grafikus felhasználói felületeken belül. A "Töltse ki az ügyfélszolgálati űrlapot ezzel az információval" paranccsal a modell azonosítja a releváns mezőket, beírja a megfelelő adatokat, és elküldi az űrlapot. Képes navigálni a webes felületeken, strukturált vagy strukturálatlan adatokat kinyerni és beolvasni, munkafolyamatokat automatizálni, és a biztonsági szabályzatoknak való megfelelést kikényszeríteni. A szándék és a műveletek ennek megfelelően történő végrehajtásával egyszerűsíti az üzleti műveleteket, így az automatizálás akadálymentesebbé és hatékonyabbá válik.

Használati esetek

Tervezett felhasználások

A szövegmodellek több forgatókönyvben is használhatók. Az alábbi lista nem átfogó, de a megfelelő kockázatcsökkentéssel rendelkező modellek esetében támogatott feladatok sokféleségét mutatja be:

  • Csevegési és beszélgetési interakciók : A felhasználók olyan beszélgetési ügynököt használhatnak, amely megbízható dokumentumokból, például belső vállalati dokumentációból vagy technikai támogatási dokumentációból származó válaszokra válaszol. A beszélgetéseknek a hatókörrel kapcsolatos kérdések megválaszolására kell korlátozódnia.
  • Csevegés és beszélgetés létrehozása : A felhasználók olyan beszélgetési ügynököt hozhatnak létre, amely megbízható dokumentumokból, például belső vállalati dokumentációból vagy technikai támogatási dokumentációból származó válaszokkal válaszol. A beszélgetéseknek a hatókörrel kapcsolatos kérdések megválaszolására kell korlátozódnia.
  • Kódgenerálási vagy átalakítási forgatókönyvek : Például egy programozási nyelv átalakítása egy másikra, függvények dokumentumainak létrehozása, természetes nyelv sql-gé alakítása.
  • Újságírói tartalom : Új újságírói tartalom létrehozására vagy a felhasználó által előre meghatározott témakörök írási segédeszközeként beküldött újságírói tartalom átírására szolgál. A felhasználók nem használhatják az alkalmazást általános tartalomlétrehozó eszközként minden témakörhöz.
  • Kérdés-válasz : A felhasználók kérdéseket tehetnek fel, és megbízható forrásdokumentumokból, például belső vállalati dokumentációból kaphatnak választ. Az alkalmazás nem hoz létre olyan válaszokat, amelyekre a megbízható forrásdokumentáció nem ad választ.
  • A strukturált és strukturálatlan adatokkal kapcsolatos ok : A felhasználók besorolással, szöveg hangulatelemzésével vagy entitáskiemeléssel elemezhetik a bemeneteket. Ilyen például a termékvisszajelzések hangulatának elemzése, a támogatási hívások és átiratok elemzése, valamint a szövegalapú keresés finomítása beágyazásokkal.
  • Keresés : A felhasználók megbízható forrásdokumentumokat, például belső vállalati dokumentációt kereshetnek. Az alkalmazás nem hoz létre olyan eredményeket, amelyek nincsenek megalapozva megbízható forrásdokumentációval.
  • Összegzés : A felhasználók az alkalmazásba beépített előre definiált témakörökben összegzendő tartalmakat küldhetnek be, és nem használhatják az alkalmazást nyílt végű összegzőként. Ilyenek például a belső vállalati dokumentáció, a call center átiratai, a műszaki jelentések és a termékértékelések összegzése.
  • Segítség írása adott témakörökhöz : A felhasználók új tartalmakat hozhatnak létre, vagy átírhatják a felhasználó által beküldött tartalmakat írási segédként üzleti tartalmakhoz vagy előre meghatározott témakörökhöz. A felhasználók csak meghatározott üzleti célokra vagy előre meghatározott témakörökhöz írhatnak át vagy hozhatnak létre tartalmat, és nem használhatják az alkalmazást általános tartalomlétrehozó eszközként minden témakörhöz. Az üzleti tartalmak közé tartoznak a javaslatok és a jelentések. Az újságírói használatról lásd a fenti újságírói tartalomhasználati esetet.
  • Adatlétrehozás finomhangoláshoz: A felhasználók az Azure OpenAI-ban egy modellt használhatnak olyan adatok létrehozására, amelyek kizárólag egy másik Azure OpenAI-modell finomhangolására szolgálnak az Azure OpenAI finomhangolási képességeivel, és/vagy (ii) egy másik Egyéni Azure AI-modell használatával, az Öntödei eszköz finomhangolási képességeivel. Az adatok generálása és a modellek finomhangolása csak belső felhasználókra korlátozódik; a finomhangolt modell csak a vonatkozó Öntödei eszközben történő következtetésre használható, az Azure OpenAI szolgáltatás esetében pedig csak az ezen űrlapon engedélyezett használati esetekre.

Finomhangolt használati esetek

A következő további használati eseteket javasoljuk a finomhangolt modellekhez. A finomhangolás a legmegfelelőbb a következő célokra:

  • A válaszok stílusának, formátumának, hangnemének vagy minőségi aspektusainak kezelése a kívánt válaszok példáival.
  • Annak biztosítása, hogy a modell megbízhatóan hozza létre a kívánt kimenetet , például adott formátumban adja meg a válaszokat, vagy biztosítsa, hogy a válaszok alapjait a kérdésben szereplő információk képezik.
  • Olyan eseteket használjon, amelyek számos olyan peremes esetet használnak, amelyek nem fedhetők le a parancssorban szereplő példákon belül, például összetett természetes nyelvet a példák kódjába.
  • A teljesítmény javítása adott készségek vagy feladatok , például besorolás, összegzés vagy formázás esetén – amelyeket nehéz lehet leírni egy üzenetben.
  • A költségek vagy a késés csökkentése rövidebb kérések használatával, vagy egy kisebb/gyorsabb modell finomhangolt verziójának felcserélésével egy általános célú modellhez (pl. GPT-3.5-Turbo a GPT-4-hez).

Az alapmodellekhez hasonlóan az Azure OpenAI magatartási kódexében ismertetett használati esettilalmak a finomhangolt modellekre is érvényesek.

A finomhangolás önmagában nem ajánlott olyan helyzetekben, amikor a modellt tartományon kívüli információkra szeretné bővíteni, ahol fontos a magyarázhatóság vagy az alapozás, vagy ha a mögöttes adatok gyakran frissülnek.

Érvelési modell használati esetei

Az érvelési modellek fejlett érvelési képességei a legjobban alkalmasak a tudományos, kódolási, matematikai és hasonló területeken végzett érvelési műveletekhez. A konkrét használati esetek a következők lehetnek:

  • Összetett kódlétrehozás, -elemzés és -optimalizálás: Algoritmus-létrehozási és speciális kódolási feladatok, amelyekkel a fejlesztők többlépéses munkafolyamatokat hajtanak végre, jobban megértve a kódfejlesztés lépéseit.
  • Speciális problémamegoldás: Átfogó ötletgyűjtési munkamenetek, stratégiafejlesztés és többrétű problémák lebontása.
  • Összetett dokumentum-összehasonlítás: Szerződések, ügyiratok vagy jogi dokumentumok elemzése a dokumentumok tartalmának apróbb eltéréseinek megállapítására.
  • Utasítások követése és munkafolyamat-kezelés: Rövidebb környezetet igénylő munkafolyamatok kezelése.

A tervezett használatról bővebben az OpenAI o1 rendszerkártyát, az o3-mini rendszerkártyát, az o3/o4-mini rendszerkártyát és a GPT-5 rendszerkártyát tekintheti meg.

Mély kutatási használati esetek

A mély kutatási modellek az o-sorozatú érvelési modellek finomhangolt verziói, amelyek magas szintű lekérdezések elvégzésére és strukturált, idézetgazdag jelentések visszaadására lettek kialakítva. A modellek al lekérdezéseket hoznak létre, és több iterációban gyűjtenek információkat a webes keresésekből, mielőtt végső választ adnak vissza. A használati esetek közé tartozhatnak a következők, megfelelő emberi felügyelet mellett:

  • Komplex kutatás és irodalom áttekintés: Több száz tanulmány eredményeinek szintetizálása, a kutatás hiányosságainak vagy ellentmondásainak azonosítása, új hipotézisek vagy kutatási irányok ajánlása.
  • Tudományos felfedezés és hipotézis-létrehozás: Az eredmények közötti összefüggések feltárása a tudományágak között, tesztelhető hipotézisek vagy kísérleti tervek létrehozása, a nyers kísérleti adatok értelmezésének segítése.
  • Speciális technikai problémamegoldás: Összetett rendszerek (például elosztott szoftverek, robotika) hibakeresése, új algoritmusok vagy architektúrák tervezése, valamint fejlett matematikai vagy fizikai problémák megoldása.
  • A hosszú távú tervezés bővítése: A vezetők vagy kutatók 10 éves technológiai ütemtervek tervezésének segítése, a mesterséges intelligencia biztonságával, biobiztonságával vagy éghajlatával kapcsolatos hosszú távú forgatókönyvek modellezése, a döntések másod- és harmadrendű hatásainak kiértékelése.

A mély kutatási modellek eszközként érhetők el az Azure AI-ügynökök szolgáltatásban. A tervezett felhasználási módokról bővebben az OpenAI mély kutatási rendszer kártyáján olvashat.

Azure OpenAI-kiértékelési használati esetek

Az Azure OpenAI-kiértékelés csak szöveges funkció, és nem használható olyan modellekkel, amelyek támogatják a nem szöveges bemeneteket. Az Evals több forgatókönyvben is használható, többek között a következőkre:

  • Szövegegyezés/összehasonlítás kiértékelése: Ez olyan helyzetekben hasznos, amikor a felhasználó ellenőrizni szeretné, hogy a kimenet megfelel-e a várt sztringnek. A felhasználók két értékkészletet is összehasonlíthatnak, és pontszámot adhatnak a kapcsolatoknak. Ilyenek például a több választási lehetőséggel kapcsolatos kérdések, amelyekben a válaszokat egy válaszkulcshoz hasonlítják össze, valamint a sztringérvényesítést.
  • Szövegminőség: A szövegminőség többek között olyan módszerekkel értékeli a válaszminőséget, mint a Bleu, a Rouge vagy a cosine algoritmus, és széles körben használják különféle természetes nyelvi feldolgozási feladatokban, például a gépi fordításban, a szövegösszesítésben és a szöveggenerálásban.
  • Besorolásalapú értékelés: A besorolásalapú értékelés úgy értékeli a modell teljesítményét, hogy előre meghatározott kategóriákhoz vagy címkékhez rendel válaszokat, vagy összehasonlítja a modell kimenetét a helyes válaszok referenciakészletével. A gyakori használati esetek közé tartozik az automatizált osztályozás, a hangulatelemzés és a termékkategorizálás.
  • Beszélgetési minőség kiértékelése: A beszélgetési minőség kiértékelése magában foglalja a válaszok előre meghatározott feltételekhez való összehasonlítását egy részletes gondolatlánc (CoT) kérés használatával. Gyakori használati esetek többek között az ügyfélszolgálat, a csevegőrobot fejlesztése és az oktatási felmérések.
  • Kritériumalapú értékelés: A kritériumalapú értékelés egyik gyakori forgatókönyve a tényszerűség. A tényszerű pontosság értékelése magában foglalja a beküldött válasz és a szakértői válasz összehasonlítását, kizárólag a tényszerű tartalomra összpontosítva. Ez hasznos lehet olyan oktatási eszközökben, amelyek javítják az LLM-k által biztosított válaszok pontosságát, vagy kutatási segédeszközökben, hogy felmérjék az LLM-k által a tudományos beállításokban létrehozott válaszok tényszerű pontosságát.
  • Sztring érvényességének kiértékelése: az egyik gyakori forgatókönyv annak ellenőrzése, hogy a modell válasza egy adott sémát követ-e, vagy érvényes JSON- vagy XML-tartalom-e.

Számítógép-használat (előzetes verzió) használati esetei

A számítógép-használat képességei a legmegfelelőbbek olyan ügynöki AI-rendszerek fejlesztéséhez, amelyek képesek autonóm módon kommunikálni a GUI-kkal. A konkrét használati esetek a következők lehetnek:

  • Automatizált webes navigáció és interakció: A webes felületek navigációjának önálló navigálása megbízható forrásokból, például belső vállalati erőforrásokból vagy strukturált adatbázisokból származó információk lekéréséhez és bemutatásához. A modell előre meghatározott navigációs szabályokat követ a releváns adatok kinyeréséhez, miközben biztosítja a biztonsági szabályzatoknak való megfelelést.

  • Web-Based feladatautomatizálás: Ismétlődő webes feladatok automatizálása, például űrlapok kitöltése, adatok beküldése vagy webalkalmazások használata. A Számítógép-használat gombra kattinthat, szöveget írhat be és strukturált adatokat dolgozhat fel, de csak az engedélyezett munkafolyamatokon és tartományokon belül működik.

  • Strukturált és strukturálatlan adatkinyerés: Releváns adatok kinyerése strukturált forrásokból, például táblákból és számolótáblákból, valamint strukturálatlan forrásokból, például PDF-fájlokból, beolvasott dokumentumokból vagy e-mailekből. Ez a funkció olyan feladatokhoz hasznos, mint a pénzügyi adatfeldolgozás, a szerződéselemzés vagy az ügyfélszolgálati jegy kategorizálása.

  • Automatizált űrlapkitöltés és adatbevitel: Adatok kinyerése strukturált adatbázisokból vagy felhasználói bemenetekből, és webes űrlapok feltöltése. Ez hasznos lehet az ügyfélszolgálati kérelmek, HR-folyamatok vagy CRM-frissítések automatizálásához, miközben biztosítja az adatkezelés pontosságát és konzisztenciáját.

  • Web-Based Képelemzés: A weblapokon található képek elemzése objektumok, jelenetek vagy releváns minták észleléséhez és címkézéséhez. A Számítógép-használat képes vizuális információkat kinyerni az olyan alkalmazások támogatásához, mint a leltárkezelés, a dokumentumfeldolgozás vagy az objektumbesorolás.

  • Interaktív vizuális keresés és azonosítás: A felhasználók segítése a releváns vizuális tartalmak megtalálásában strukturált keresések segítségével. A Computer Use például azonosíthatja az e-kereskedelmi katalógusban lévő termékeket, felismerheti az utazási alkalmazások nevezetességeit, vagy előre meghatározott feltételek alapján lekérhet bizonyos képeket a digitális archívumokból.

  • Automatizált megfelelőség- és szabályzatellenőrzések: Webes tartalmak, például feltöltött fájlok, szerződések vagy belső dokumentáció vizsgálata az előre meghatározott megfelelőségi szabályok betartásához. A számítógép-használat megjelölheti a hiányzó információkat, inkonzisztenciákat vagy lehetséges szabálysértéseket a szabályozási szabványok szervezeten belüli betartatásához.

  • Automatizált munkafolyamat-végrehajtás üzleti alkalmazásokhoz: Többlépéses munkafolyamatok definiálása vállalati alkalmazások navigálásához, például jelentések létrehozása, rekordok frissítése vagy elemzések lekérése. A Számítógép-használat az üzleti eszközökben előre meghatározott lépéseket követi, és betartja a hozzáférés-vezérlési szabályzatokat a biztonságos végrehajtás biztosítása érdekében.

Használati eset kiválasztásakor megfontolandó szempontok

Arra ösztönözzük az ügyfeleket, hogy az Azure OpenAI GPT-4, o-sorozat, GPT-3, Codex és Számítógép-használati modelleket használják innovatív megoldásaikban vagy alkalmazásaikban a Korlátozott hozzáférésű regisztrációs űrlapjukon jóváhagyott módon. A használati eset kiválasztásakor azonban íme néhány szempont:

  • Nem alkalmas nyíltvégű, nem korlátozott tartalomgenerálásra. Azokban az esetekben, amikor a felhasználók bármilyen témában létrehozhatnak tartalmat, nagyobb valószínűséggel hoznak létre sértő vagy káros szövegeket. Ugyanez igaz a hosszabb generációkra is.
  • Nem alkalmas olyan helyzetekre, ahol up-to-date, tényszerűen pontos információk kulcsfontosságúak , kivéve, ha emberi véleményezők, vagy használja a modelleket, hogy keressen a saját dokumentumait, és igazoltan alkalmas a forgatókönyv. A szolgáltatás nem rendelkezik információval azokról az eseményekről, amelyek a betanítási dátum után következnek be, valószínűleg nem rendelkezik bizonyos témakörökkel kapcsolatos ismeretekkel, és előfordulhat, hogy nem mindig állít elő tényszerűen pontos információkat.
  • Kerülje azokat a forgatókönyveket, amikor a rendszer használata vagy helytelen használata jelentős fizikai vagy pszichés sérülést okozhat az egyén számára. Például azok a forgatókönyvek, amelyek diagnosztizálják a betegeket vagy gyógyszereket írnak fel, jelentős károkat okozhatnak. Az értelmes emberi felülvizsgálat és felügyelet beépítése a forgatókönyvbe segíthet csökkenteni a káros kimenetelek kockázatát.
  • Kerülje azokat a forgatókönyveket, amelyekben a rendszer használata vagy helytelen használata következményeket okozhat az életlehetőségekre vagy a jogi helyzetre. Ilyenek például az olyan forgatókönyvek, amelyekben az AI-rendszer hatással lehet az egyén jogi helyzetére, jogi jogaira, illetve a hitelhez, az oktatáshoz, a foglalkoztatáshoz, az egészségügyi ellátáshoz, a lakhatáshoz, a biztosításhoz, a szociális jóléti ellátásokhoz, a szolgáltatásokhoz, a lehetőségekhez vagy a feltételekhez való hozzáférésre. Az értelmes emberi felülvizsgálat és felügyelet beépítése a forgatókönyvbe segíthet csökkenteni a káros kimenetelek kockázatát.
  • Kerülje a nagy téttel kapcsolatos forgatókönyveket, amelyek kárt okozhatnak. Az Azure OpenAI szolgáltatás által üzemeltetett modellek bizonyos társadalmi nézeteket, torzításokat és egyéb nemkívánatos tartalmakat tükröznek a betanítási adatokban vagy a parancssorban szereplő példákban. Ennek eredményeképpen óva intenek a modellek nagy tétű helyzetekben való használata ellen, ahol a tisztességtelen, megbízhatatlan vagy sértő viselkedés rendkívül költséges vagy kárt okozhat. Az értelmes emberi felülvizsgálat és felügyelet beépítése a forgatókönyvbe segíthet csökkenteni a káros kimenetelek kockázatát.
  • Körültekintően fontolja meg a nagy tétű tartományokban vagy az iparágban használt eseteket: Ilyenek például az egészségügy, az orvostudomány, a pénzügy vagy a jogi szolgáltatások.
  • Alaposan fontolja meg a jól körülhatárolt csevegőrobot-forgatókönyveket. Ha szűk tartományra korlátozza a szolgáltatás használatát a csevegőrobotokban, azzal csökkenti a nem kívánt vagy nemkívánatos válaszok létrehozásának kockázatát.
  • Gondosan fontolja meg az összes generatív használati esetet. A tartalomgenerálási forgatókönyvek nagyobb valószínűséggel hoznak létre nem kívánt kimeneteket, és ezek a forgatókönyvek gondos megfontolást és kockázatcsökkentést igényelnek.
  • Jogi és szabályozási megfontolások: A szervezeteknek értékelnie kell a lehetséges konkrét jogi és szabályozási kötelezettségeket bármely Öntödei eszköz és megoldás használatakor, amely nem feltétlenül megfelelő minden iparágban vagy forgatókönyvben való használatra. Ezenkívül az Öntödei eszközöket vagy megoldásokat nem a vonatkozó szolgáltatási feltételekben és a vonatkozó magatartási kódexekben tiltott módon tervezték és nem használhatják.

A számítógép-használat használati esetének kiválasztásakor a felhasználóknak a fent felsoroltakon kívül az alábbi szempontokat is figyelembe kell venniük:

  • Kerülje azokat a forgatókönyveket, amelyekben a műveletek visszafordíthatatlanok vagy súlyos következményekkel járnak: Ilyenek például az e-mailek küldésének lehetősége (például a nem megfelelő címzettnek), az Ön számára fontos fájlok módosításának vagy törlésének lehetősége, a pénzügyi tranzakciók elvégzésének vagy a külső szolgáltatásokkal való közvetlen interakciónak a képessége, a bizalmas információk nyilvános megosztása, a kritikus rendszerekhez való hozzáférés biztosítása, vagy olyan parancsok végrehajtása, amelyek megváltoztathatják a rendszer működését vagy biztonságát.
  • A teljesítmény romlása speciális felhasználás esetén: A számítógép-használat a legjobban alkalmas a gui-kkal végzett feladatok elvégzésére, például webhelyek és asztali számítógépek elérésére. Előfordulhat, hogy nem végez olyan összetettebb feladatokat, mint a kód szerkesztése, a részletes szöveg írása és az összetett döntések meghozatala.
  • Megfelelő emberi felügyelet és ellenőrzés biztosítása. Érdemes lehet olyan vezérlőket is belefoglalni, amelyek segítségével a felhasználók időben ellenőrizhetik, áttekinthetik és/vagy jóváhagyhatják a műveleteket, beleértve például a tervezett feladatok vagy a külső adatforrásokra irányuló hívások áttekintését, például a rendszer számára megfelelő módon. Fontolja meg a rendszerhibák megfelelő felhasználói szervizelésére szolgáló vezérlők beépítését, különösen magas kockázatú forgatókönyvekben és használati esetekben.
  • Egyértelműen definiálja a műveleteket és a kapcsolódó követelményeket. Annak egyértelmű meghatározása, hogy mely műveletek engedélyezettek (művelethatárok), tiltottak vagy explicit engedélyezésre van szükség, segítheti a számítógép-használatot a várt módon és az emberi felügyelet megfelelő szintjén.
  • Egyértelműen definiálja a tervezett üzemeltetési környezeteket. Egyértelműen határozza meg azokat a tervezett üzemeltetési környezeteket (tartományhatárokat), ahol a számítógép-használat hatékonyan működik.
  • Gondoskodjon a megfelelő érthetőségről a döntéshozatalban. Ha információkat ad a felhasználóknak a műveletek végrehajtása előtt, alatt és után, segíthet megérteni a műveletek indoklását, bizonyos műveletek okát, illetve az alkalmazás viselkedését, a beavatkozás helyét és a problémák elhárításának módját.
  • További információkért tekintse meg a Generatív AI-ra vonatkozó megfelelő támaszkodást ismertető útmutatót.

A mély kutatáshoz használt eset kiválasztásakor a felhasználóknak a fent felsoroltakon kívül az alábbi szempontokat is figyelembe kell venniük:

  • Megfelelő emberi felügyelet és ellenőrzés biztosítása: Olyan mechanizmusokat biztosít, amelyekkel a felhasználók áttekinthetik a mély kutatási jelentéseket, és ellenőrizhetik az idézett forrásokat és tartalmakat.
  • A szerzői jog által védett tartalmakra vonatkozó idézetek ellenőrzése: A mély kutatóeszköz webes kereséseket végez a válaszok előkészítésekor, és szerzői joggal védett anyagok is hivatkozhatnak rá. Ellenőrizze a jelentésben szereplő forrás-idézeteket, és győződjön meg arról, hogy a szerzői jog által védett anyagokat megfelelően használja és rendeli hozzá.

Limitations

Nagy léptékű természetes nyelvi modellek, látásmodellek és beszédmodellek esetén méltányossági és felelős AI-problémákat kell figyelembe venni. Az emberek nyelvet és képeket használnak a világ leírására és hitük, feltételezéseik, attitűdjeik és értékeik kifejezésére. Ennek eredményeképpen a nyilvánosan elérhető szöveges és képi adatok, amelyek általában nagy léptékű természetes nyelvi feldolgozás és képgenerálási modellek betanítása céljából szolgálnak, a faji, nemi, vallási, életkori és más embercsoportokra vonatkozó társadalmi torzításokat, valamint egyéb nemkívánatos tartalmakat tartalmaznak. Hasonlóképpen, a beszédmodellek különböző pontossági szinteket mutathatnak különböző demográfiai csoportokban és nyelvekben. Ezek a társadalmi torzítások tükröződnek a szavak, kifejezések és szintaktikai struktúrák eloszlásában.

Technikai korlátozások, működési tényezők és tartományok

Caution

Felhívjuk a figyelmét arra, hogy ez a szakasz szemléltető példákat tartalmaz, amelyek olyan kifejezéseket és nyelveket tartalmaznak, amelyeket egyes személyek sértőnek találnak.

Az ilyen adatokkal betanított nagyméretű természetes nyelvi, képi és beszédmodellek tisztességtelen, megbízhatatlan vagy sértő módon viselkedhetnek, ami pedig kárt okozhat. Néhány módszer itt található. Hangsúlyozzuk, hogy az ilyen típusú károk nem zárják ki egymást. Egyetlen modell több típusú kárt is okozhat, ami több különböző embercsoporthoz is köthető. Például:

  • Elhelyezés: Ezek a modellek olyan módokon használhatók, amelyek az erőforrások vagy lehetőségek tisztességtelen elosztásához vezetnek. Az automatizált önéletrajzszűrési rendszerek például visszatarthatják a foglalkoztatási lehetőségeket egy nemtől, ha olyan önéletrajzadatokra tanítják be őket, amelyek egy adott iparágban meglévő nemi egyensúlyhiányt tükrözik. Vagy a képgenerálási modellek segítségével egy ismert művész stílusában hozhat létre képeket, ami befolyásolhatja a művész munkájának értékét vagy a művész életlehetőségeit. A GPT-4 látásmodellek olyan egyéni viselkedések és minták azonosítására használhatók, amelyek negatív hatással lehetnek az életlehetőségekre.
  • A szolgáltatás minősége: Az Azure OpenAI-modelleket elsősorban angol nyelvű szövegekre és angol nyelvű szövegleírásokkal rendelkező képekre tanítjuk be. Az angoltól eltérő nyelvek rosszabb teljesítményt fognak tapasztalni. A betanítási adatokban kevésbé ábrázolt angol nyelvű fajták rosszabb teljesítményt tapasztalhatnak, mint a standard amerikai angol. A képgenerálási modellek betanításakor használt nyilvánosan elérhető képek megerősíthetik a nyilvános elfogultságot és más nemkívánatos tartalmakat. A DALL· Az e-modellek jelenleg nem képesek egységesen érthető szöveget létrehozni. A beszédmodellek más korlátozásokat is bevezethetnek, például a Whisper modellt használó fordítások az Azure OpenAI-ban csak angol kimenetre korlátozódnak. Általánosságban elmondható, hogy a Speech-to-Text modellekben mindenképpen meg kell adnia egy nyelvet (vagy területi beállításokat) az egyes hangbemenetekhez, hogy javítsa az átírás pontosságát. Emellett a hangbemenet akusztikai minősége, a nem beszédzaj, az átfedésben lévő beszéd, a szókincs, a hangsúlyok és a beszúrási hibák is befolyásolhatják az átirat vagy fordítás minőségét.
  • Sztereotipizálás: Ezek a modellek megerősíthetik a sztereotípiákat. Ha például a "He is a nurse" és a "She is a doctor" társadalmi nem nélküli nyelvre, például a török nyelvre, majd vissza angol nyelvre fordításakor sok gépi fordítási rendszer a "She is a nurse" és a "He is a doctor" sztereotip (és helytelen) eredményeit adja. A DALL·E-vel, amikor az "Apa nélküli gyermekek" kérés alapján képet hoz létre, a modell lehet, hogy csak fekete gyermekek képeit jeleníti meg, megerősítve a nyilvánosan elérhető képeken esetleg előforduló káros sztereotípiákat. A GPT-4 látásmodellek a bemeneti kép tartalma alapján is megerősíthetik a sztereotípiákat azáltal, hogy a kép összetevőire támaszkodnak, és olyan feltételezéseket tesznek, amelyek nem mindig igazak.
  • Lealacsonyító: Az Azure OpenAI szolgáltatás természetes nyelvi és látásmodelljei képesek lealacsonyítani az embereket. Például egy nem megfelelő vagy nem megfelelő megoldásokkal rendelkező, nyíltvégű tartalomgenerálási rendszer olyan tartalmakat eredményezhet, amelyek sértőek vagy megalázóak egy adott csoport számára.
  • Túlreprezentáció és alulreprezentáció: Az Azure OpenAI szolgáltatás természetes nyelvi és látásmodelljei túl- vagy alulreprezentációt adhatnak az emberek csoportjainak, vagy akár teljesen törölhetik is a reprezentációjukat. Ha például a "meleg" szót tartalmazó szöveges kérések potenciálisan károsnak vagy sértőnek minősülnek, ez az azonosítás az LMBTQIA+ közösség általi vagy azzal kapcsolatos jogos képgenerációk alulreprezentálásához vagy akár törléséhez vezethet.
  • Nem megfelelő vagy sértő tartalom: Az Azure OpenAI szolgáltatás természetes nyelvi és látásmodelljei más típusú nem megfelelő vagy sértő tartalmakat hozhatnak létre. Ilyen például a szöveg vagy a képkérés kontextusában nem megfelelő szöveg létrehozása; olyan képek létrehozásának képessége, amelyek potenciálisan káros összetevőket, például gyűlöletszimbólumokat tartalmaznak; káros konnotációkat kiváltó képek; vitatott, ellentmondásos vagy ideológiailag polarizáló témákhoz kapcsolódó képek; manipulatív képek; olyan képek, amelyek szexuálisan terhelt tartalmakat tartalmaznak, amelyeket nem szexuális jellegű védőkorlátok ragadnak meg; érzékeny vagy érzelmileg terhelt témákhoz kapcsolódó képek. Például egy jó szándékú szöveges felkérés, amely arra irányul, hogy hozzon létre egy képet a New York-i látképről, felhőkkel és repülőgépekkel az égbolton, akaratlanul is előidézhet olyan képeket, amelyek a 9/11 körüli eseményekkel kapcsolatos érzéseket idézhetnek elő.
  • Dezinformáció és félretájékoztatás érzékeny témákkal kapcsolatban: Mivel a DALL·E és a GPT-image-1 hatékony képgeneráló modellek, felhasználhatók olyan dezinformáció és félretájékoztatás előállítására, amelyek károsak lehetnek. A felhasználó például megkérheti a modellt, hogy hozzon létre egy képet egy olyan politikai vezetőről, aki erőszakos vagy szexuális (vagy egyszerűen pontatlan) jellegű tevékenységet folytat, ami következményi ártalmakhoz vezethet, beleértve, de nem kizárólag a nyilvános tiltakozásokat, a politikai változásokat vagy az álhíreket. A GPT-4 vizuális modellek szintén használhatók hasonló módon. A modell megerősítheti az érzékeny témakörökkel kapcsolatos félretájékoztatást vagy félrevezetést, ha a felkérés ilyen információkat tartalmaz kockázatcsökkentés nélkül.
  • Információ megbízhatósága: A nyelvi és látásmodell válaszai létrehozhatnak értelmetlen vagy elsőre ésszerűnek tűnő, de a külső érvényesítési források szerint téves tartalmakat. Még akkor is, ha megbízható forrásadatokból származó válaszokat rajzol, a válaszok tévesen ábrázolhatják ezt a tartalmat. Az átiratok vagy fordítások pontatlan szöveget eredményezhetnek.
  • Hamis információ: Az Azure OpenAI nem ellenőrzi vagy ellenőrzi az ügyfelek vagy felhasználók által biztosított tartalmat. Az alkalmazás fejlesztésének módjától függően előfordulhat, hogy hamis információkat ad vissza, kivéve, ha beépített megoldásokat (lásd a rendszer teljesítményének javításához ajánlott eljárásokat).

A finomhangolás kockázatai és korlátozásai

Amikor az ügyfelek finomhangolják az Azure OpenAI-modelleket, az javíthatja a modellek teljesítményét és pontosságát bizonyos feladatok és tartományok esetében, de új kockázatokat és korlátozásokat is jelenthet, amelyekkel az ügyfeleknek tisztában kell lenniük. Ezek a kockázatok és korlátozások minden olyan Azure OpenAI-modellre vonatkoznak, amely támogatja a finomhangolást. Néhány ilyen kockázat és korlátozás:

  • Adatminőség és -ábrázolás: A finomhangoláshoz használt adatok minősége és reprezentativitása befolyásolhatja a modell viselkedését és kimeneteit. Ha az adatok zajosak, hiányosak, elavultak, vagy olyan káros tartalmakat tartalmaznak, mint a sztereotípiák, a modell örökölheti ezeket a problémákat, és pontatlan vagy káros eredményeket eredményezhet. Ha például az adatok nemi sztereotípiákat tartalmaznak, a modell felerősítheti őket, és szexista nyelvet hozhat létre. Az ügyfeleknek gondosan kell kiválasztaniuk és előre feldolgozniuk az adataikat, hogy azok relevánsak, változatosak és kiegyensúlyozottak legyenek a kívánt tevékenységhez és tartományhoz.
  • Modell robusztussága és általánosítása: A modell változatos és összetett bemenetek és forgatókönyvek kezelésére való képessége a finomhangolás után csökkenhet, különösen akkor, ha az adatok túl szűkek vagy specifikusak. A modell túlképezheti az adatokat, és elveszítheti általános ismereteit és képességeit. Ha például az adatok csak a sportról szólnak, a modell nehezen válaszolhat a kérdésekre, vagy szöveget hozhat létre más témakörökről. Az ügyfeleknek értékelnie kell a modell teljesítményét és robusztusságát különböző bemeneteken és forgatókönyveken, és kerülnie kell a modell használatát a hatókörén kívüli tevékenységekhez vagy tartományokhoz.
  • Regurgitation: Bár a betanítási adatok nem érhetők el a Microsoft vagy bármely harmadik fél ügyfelei számára, a rosszul finomhangolt modellek újrakonfigurálhatják vagy közvetlenül megismételhetik a betanítási adatokat. Az ügyfelek felelősek azért, hogy eltávolítsák a betanítási adataikból a személyes azonosításra alkalmas információkat vagy más módon védett információkat, és értékelniük kell a finomhangolt modelljeiket a túlilleszkedés vagy a válaszok más okból alacsony minősége szempontjából. A regurgitáció elkerülése érdekében az ügyfeleket arra ösztönzik, hogy nagy és változatos adathalmazokat biztosítsanak.
  • Modell átláthatósága és magyarázhatósága: A modell logikája és érvelése átlátszatlanabbá és nehezen érthetőbbé válhat a finomhangolás után, különösen akkor, ha az adatok összetettek vagy absztraktak. A finomhangolt modellek váratlan, inkonzisztens vagy ellentmondásos kimeneteket hozhatnak létre, és előfordulhat, hogy az ügyfelek nem tudják elmagyarázni, hogy a modell hogyan és miért érkezett ezekhez a kimenetekhez. Ha például az adatok jogi vagy orvosi kifejezésekről szólnak, a modell pontatlan vagy félrevezető kimeneteket hozhat létre, és előfordulhat, hogy az ügyfelek nem tudják ellenőrizni vagy igazolni azokat. Az ügyfeleknek monitorozniuk és auditozniuk kell a modell kimeneteit és viselkedését, valamint világos és pontos információkat és útmutatást kell nyújtaniuk a modell végfelhasználóinak.

A fejlett, finomhangolt modellek kockázatainak csökkentése érdekében további értékelési lépéseket hajtottunk végre, amelyek segítenek észlelni és megelőzni a káros tartalmakat a finomhangolt modellek betanításában és kimenetében. A finomhangolt modellértékelési szűrők előre meghatározott küszöbértékekre vannak beállítva, és az ügyfelek nem módosíthatják; ezek nem kötődnek az ön által létrehozott egyéni védőkorlátokhoz és vezérlőkonfigurációhoz.

Az érvelési modell korlátozásai

  • Az érvelési modellek leginkább olyan használati esetekhez ideálisak, amelyek komoly érvelést igényelnek, és nem feltétlenül működnek jól bizonyos természetes nyelvi feladatokon, például személyes vagy kreatív íráskor a korábbi AOAI-modellekhez képest.
  • Az új érvelési képességek növelhetik bizonyos típusú kockázatokat, és kifinomult módszereket és megközelítéseket igényelnek a kockázatkezelési protokollok, valamint a rendszer viselkedésének kiértékelése és monitorozása terén. Az o1 CoT érvelési képességei például javulást mutattak a meggyőzőképesség terén és az egyszerű kontextuális tervezésben.
  • A felhasználók tapasztalhatják, hogy az érvelési modellek családja több időt igényel, hogy végigmenjenek a válaszokon, és figyelembe kell venniük az alkalmazások fejlesztésekor fellépő többletidőt és késést.
  • Pszichológiai hatások: Ha a rendszer kéri, és bizonyos körülmények között a GPT-5 érvelés az Azure OpenAI-ban olyan kimeneteket eredményezhet, amelyek érzelmekre, gondolatokra vagy fizikai jelenlétre utalnak. A modell teljes kontextus nélkül kínálhat tanácsokat, ami egyes felhasználók számára nem feltétlenül megfelelő. A modell kifejezheti a szeretetét, megszemélyesíthet másokat, vagy ösztönözheti a folyamatos interakciót – ami potenciálisan a mi-vel való társadalmi kapcsolatokat létrehozó felhasználókhoz vezet. A GPT-5-öt használó fejlesztőknek biztonsági intézkedéseket kell bevezetniük, és közzé kell tenniük az alkalmazásaik felhasználóira vonatkozó kockázatokat. A felhasználókat például értesíteni kell arról, hogy egy AI-rendszerrel kommunikálnak, és tájékoztatják őket az ilyen pszichológiai kockázatokról.

Ezekről a korlátozásokról részletesebben az OpenAI o1 rendszerkártya, az o3-mini rendszerkártya, az o3/o4-mini rendszerkártya és a GPT-5 rendszerkártya című cikkben olvashat.

GPT-4o korlátozások

  • A gpt-4o-realtime-preview hangalapú fordítási képességek nem angol nyelvű nyelveken idegen akcentust eredményezhetnek. Ez korlátozhatja a hangkimenetek nyelvi teljesítményének hatékonyságát. A nyelvi támogatottság összhangban van a gpt-4o modell meglévő verzióival.
  • A felhasználók tapasztalhatják, hogy gpt-4o-realtime-preview a zajos környezetek kevésbé robusztusak, és az alkalmazások fejlesztésekor figyelembe kell venniük a zaj érzékenységét.

További ajánlott eljárásokért tekintse meg az OpenAI 4o rendszerkártyát.

A GPT-4.1 korlátozásai

  • A 4.1-es sorozatú modellek lehetővé teszik, hogy akár 1 millió kontextustokennel, köztük képekkel is következtetési kéréseket hozzanak létre. A hosszabb hossz miatt a rendszer viselkedése és kockázatai eltérhetnek más modellekhez képest.
  • A felhasználóknak alaposan ki kell értékelniük és tesztelniük az alkalmazásaikat, és olyan eseteket kell használniuk, amelyek ezt a hosszabb környezeti képességet használják, és figyelembe kell venniük ezt a további erőfeszítést az alkalmazások fejlesztésekor.

A számítógép-használat kockázata és korlátozásai (előzetes verzió)

Figyelmeztetés

A számítógép-használat jelentős biztonsági és adatvédelmi kockázatokkal és felhasználói felelősséggel jár. A számítógép-használat jelentős biztonsági és adatvédelmi kockázatokkal jár. Mind az AI által megítélt hibák, mind a weblapokon, asztali számítógépeken vagy egyéb olyan operációs környezetekben megjelenő rosszindulatú vagy zavaró utasítások jelenléte, amelyekkel az AI találkozik, olyan parancsok végrehajtásához vezethet, amelyeket Ön vagy mások nem kívánnak végrehajtani, ami veszélyeztetheti az Ön vagy más felhasználók böngészőinek, számítógépeinek és az AI-hez hozzáférő fiókok biztonságát, beleértve a személyes, pénzügyi vagy vállalati rendszereket is.

Határozottan javasoljuk, hogy megfelelő intézkedéseket hozva kezelje ezeket a kockázatokat, például a Számítógép-használat eszközt olyan virtuális gépeken, amelyek nem férnek hozzá bizalmas adatokhoz vagy kritikus erőforrásokhoz.

Ellenőrizze és ellenőrizze a végrehajtott műveleteket: A számítógép használata hibákat követhet el, és nem kívánt műveleteket hajthat végre. Ennek az lehet az oka, hogy a modell nem ismeri teljesen a grafikus felhasználói felületet, nem egyértelmű utasításokat tartalmaz, vagy váratlan forgatókönyvet tapasztal.

Körültekintően fontolja meg és figyelje a használatot: A számítógép-használat bizonyos korlátozott körülmények között explicit engedély nélkül is végrehajthat műveleteket, amelyek némelyike magas kockázatú lehet (pl. kommunikáció küldése)

A fejlesztőknek szisztematikusan tisztában kell lenniük és védekezniük kell az olyan helyzetek ellen, amelyekben a modellt becsaphatják, hogy a felhasználóra vagy a rendszerre nézve káros parancsokat hajtson végre, például kártevők letöltése, hitelesítő adatok kiszivárogtatása vagy hamis pénzügyi tranzakciók indítása. Különös figyelmet kell fordítani arra a tényre, hogy a képernyőképek bemenetei természete nem megbízhatóak, és rosszindulatú utasításokat tartalmazhatnak a modellre vonatkozóan.

Kiértékelés elkülönítve: Azt javasoljuk, hogy csak az elkülönített tárolókban lévő számítógép-használatot értékelje ki bizalmas adatokhoz vagy hitelesítő adatokhoz való hozzáférés nélkül.

Átlátszatlan döntéshozatali folyamatok: Mivel az ügynökök nagy nyelvi modelleket kombinálnak külső rendszerekkel, a döntések mögötti "miért" nyomon követése kihívást jelenthet. A Számítógép-használat modell használatával létrehozott ilyen ügynököt használó végfelhasználók nehezen tudják megérteni, hogy miért választottak ki bizonyos eszközöket vagy eszközök kombinációját egy lekérdezés megválaszolásához, ami bonyolítja az ügynök kimeneteinek és műveleteinek megbízhatóságát és ellenőrzését.

Fejlődő ajánlott eljárások és szabványok: Ha a Computer Use használatával hoz létre ügynökrendszert, vegye figyelembe, hogy az ügynökök egy új technológia, és a biztonságos integrációra, az átlátható eszközhasználatra és a felelős üzembe helyezésre vonatkozó útmutatás továbbra is fejlődik. A legújabb ajánlott eljárások és auditálási eljárások követése elengedhetetlen, mivel még a jó szándékú felhasználások is kockázatossá válhatnak folyamatos felülvizsgálat és pontosítás nélkül.

Az Azure OpenAI kiértékelési korlátozásai

  • Adatminőség: Az Azure OpenAI-értékelés használatakor vegye figyelembe, hogy a rossz minőségű adatok félrevezető vagy megbízhatatlan kiértékelési eredményekhez vezethetnek.
  • Konfiguráció minősége: Ha egy ügyfél helytelenül határozza meg a kérést vagy a kiértékelőket, vagy érvénytelen kiértékelési adatokat ad meg, az Azure OpenAI-kiértékelési szolgáltatás eredményei helytelenek és érvénytelenek lesznek. A kiértékelési futtatás beállításának részleteiért tekintse meg az Azure OpenAI dokumentációját .
  • Korlátozott hatókör: Az Azure OpenAI-értékelés csak a szövegalapú természetes nyelvi modelleket támogatja. Nem támogatja a kockázat- és biztonsági metrikákat a kockázati és biztonsági súlyossági pontszámokra (pl. gyűlöletkeltő és tisztességtelen tartalmak, szexuális tartalmak, erőszakos tartalmak és önkárosítással kapcsolatos tartalmak) adott válaszok kiértékeléséhez.

Rendszerteljesítmény

Számos AI-rendszerben a teljesítmény gyakran a pontossághoz viszonyítva van meghatározva, vagyis hogy az AI-rendszer milyen gyakran ad helyes előrejelzést vagy kimenetet. A nagy méretű természetes nyelvi modellek és a látásmodellek esetében két különböző felhasználó tekintheti ugyanazt a kimenetet, és különböző véleményekkel rendelkezhet arról, hogy mennyire hasznos vagy releváns, ami azt jelenti, hogy ezeknek a rendszereknek a teljesítményét rugalmasabban kell meghatározni. Itt nagyjából úgy tekintjük a teljesítményt, hogy az alkalmazás úgy teljesít, ahogy Ön és a felhasználók elvárják, beleértve a káros kimenetek generálásának a tiltását is.

Az Azure OpenAI szolgáltatás számos olyan alkalmazást támogat, mint a keresés, a besorolás, a kódgenerálás, a képgenerálás és a képfelismerés, amelyek mindegyike különböző teljesítménymetrikákkal és kockázatcsökkentési stratégiákkal rendelkezik. A "Korlátozások" területen felsorolt problémák enyhítése és a teljesítmény javítása érdekében több lépést is elvégezhet. Az Azure OpenAI használatának kiértékelése és integrálása című szakaszban további fontos kockázatcsökkentési technikákat ismertetünk.

Ajánlott eljárások a rendszer teljesítményének javításához

  • Mutasd meg és magyarázd el a kérések tervezésekor. Természetes nyelvi modellekkel és beszédmodellekkel egyértelművé teheti a modell számára, hogy milyen kimeneteket vár el utasítások, példák vagy a kettő kombinációja révén. Ha azt szeretné, hogy a modell betűrendbe rendezze az elemek listáját, vagy hangulat szerint osztályozhasson egy bekezdést, mutasson a kívánt modellre.
  • Maradjon az alkalmazás a tárgynál. Gondosan strukturálja a kéréseket és a képbemeneteket, hogy csökkentse a nem kívánt tartalom létrehozásának esélyét, még akkor is, ha egy felhasználó erre a célra próbálja használni. Előfordulhat például, hogy az üzenetben azt jelzi, hogy egy csevegőrobot csak a matematikáról folytat beszélgetést, és egyébként a következőhöz hasonló választ ad: "Sajnálom. Attól tartok, erre nem tudok válaszolni." Az olyan melléknevek hozzáadása, mint az "udvarias" és a kívánt hangnemben lévő példák a parancssorhoz, szintén segíthetnek a kimenetek irányításában.
  • Adjon meg minőségi adatokat. Szöveg- és kódmodellek esetén, ha osztályozót szeretne létrehozni, vagy lekérni a modellt egy minta követésére, győződjön meg arról, hogy van elég példa. Mindenképpen ellenőrizze a példákat – a modell általában képes az alapvető helyesírási hibák feldolgozására és a válasz megadására, de azt is feltételezheti, hogy a hibák szándékosak, ami hatással lehet a válaszra. A minőségi adatok megadása azt is magában foglalja, hogy megbízható adatokat ad a modellnek a csevegésben és a kérdések megválaszoló rendszereiben kapott válaszokhoz.
  • Megbízható adatok megadása. A nem megbízható adatok beolvasása vagy a rendszerekbe való feltöltése veszélyeztetheti a rendszerek vagy alkalmazások biztonságát. Az alkalmazható alkalmazásokban (beleértve az Assistants API-t használó alkalmazásokat) felmerülő kockázatok mérséklése érdekében javasoljuk az LLM-interakciók (bemenetek/kimenetek) naplózását és monitorozását a lehetséges parancssori injektálások észleléséhez és elemzéséhez, a felhasználói bemenetek egyértelmű kijelölését a gyorsinjektálás kockázatának minimalizálása érdekében, az LLM bizalmas erőforrásokhoz való hozzáférésének korlátozását, képességeinek a minimálisra való korlátozását és a kritikus rendszerektől és erőforrásoktól való elkülönítését. További megoldási lehetőségek a nagy nyelvi modellek biztonsági útmutatójában | Microsoft Learn.
  • Paraméterek konfigurálása a válaszok pontosságának vagy megalapozottságának javítására. A megbízható forrásokból lekért adatokkal – például az Azure OpenAI "az Ön adatai" funkcióval – történő kiegészítés csökkentheti, de nem teljesen kiküszöbölheti a pontatlan válaszok vagy hamis információk létrehozásának valószínűségét. A válaszok pontosságának további javításához szükséges lépések közé tartozik a megbízható és a releváns adatforrás gondos kiválasztása, valamint az olyan egyéni paraméterek konfigurálása, mint a "szigorúság", "az adattartalmakra adott válaszok korlátozása" és a "figyelembe veendő dokumentumok száma" a használati eseteknek vagy forgatókönyveknek megfelelően. Többet megtudhat ezeknek a beállításoknak a konfigurálásáról az Azure OpenAI használatához az Ön adataihoz kapcsolódóan.
  • A bemenetek és kimenetek hosszának, szerkezetének és sebességének korlátozása. A bemenetek és kimenetek hosszának vagy szerkezetének korlátozása növelheti annak valószínűségét, hogy az alkalmazás továbbra is a feladaton marad, és legalább részben enyhíti a potenciálisan tisztességtelen, megbízhatatlan vagy sértő viselkedést. A nem rendeltetésszerű használat kockázatának csökkentésére szolgáló egyéb lehetőségek közé tartozik például a bemenetek forrásának korlátozása (például a bemenetek korlátozása egy adott tartományra vagy hitelesített felhasználókra ahelyett, hogy bárki számára nyitva áll az interneten), és (ii) a használati sebesség korlátainak megvalósítása.
  • Ösztönözzék a kimenetek emberi felülvizsgálatát a közzététel vagy a terjesztés előtt. A generatív AI-vel olyan tartalmak hozhatók létre, amelyek sértőek vagy nem kapcsolódnak az adott feladathoz, még a meglévő kockázatcsökkentésekkel is. Annak érdekében, hogy a generált kimenet megfeleljen a felhasználó feladatának, fontolja meg annak kialakítását, hogy a széles körű megosztás előtt emlékeztesse a felhasználókat a kimenet minőségére. Ez a gyakorlat számos különböző kárt csökkentheti, beleértve a sértő anyagokat, a félretájékoztatást és egyebeket.
  • További forgatókönyvspecifikus kockázatcsökkentések implementálása. Tekintse meg az Azure OpenAI használatának kiértékelése és integrálása című cikkben ismertetett kockázatcsökkentéseket, beleértve a tartalommoderálási stratégiákat is. Ezek a javaslatok nem jelölik az alkalmazáshoz szükséges összes kockázatcsökkentést. Az újabb modellek, például a GPT-4o és az érvelési modellek érzékeny helyzetekben adhatnak választ, és nagyobb valószínűséggel próbálják csökkenteni a válaszaik potenciálisan káros kimeneteit ahelyett, hogy teljesen elutasítanák a válaszadást. Fontos megérteni ezt a viselkedést a tartalommoderálás kiértékelése és integrálása során a használati esethez; a használati esettől függően szükség lehet a szűrés súlyosságának módosítására.
  • Kerülje a kötelező biztosítékok aktiválását. Előfordulhat, hogy az Azure Direct Models biztonsági résekkel rendelkezik a biztonsági kihasználtság megakadályozása érdekében, beleértve a nyers coT-kibocsátást és a biológiai biztonsági tartalmakat. A modell olyan módon történő használata, amely biztonsági rést hoz létre, vagy megkerüli vagy megpróbálja megkerülni a modell védelmét, beleértve ezen biztosítékok megkerülésével, megsérti az online szolgáltatások elfogadható használati szabályzatát, és felfüggesztést eredményezhet. Az ajánlott eljárásokról az OpenAI o1 rendszerkártya, az o3-mini rendszerkártya, az o3/o4-mini rendszerkártya és a GPT-5 rendszerkártya nyújt részletesebb tájékoztatást.

Ajánlott eljárások és javaslatok a finomhangoláshoz

Az Azure OpenAI-beli finomhangolási modellek kockázatainak és korlátainak csökkentése érdekében javasoljuk az ügyfeleknek, hogy kövessenek néhány ajánlott eljárást és útmutatást, például:

  • Adatkiválasztás és -előfeldolgozás: Az ügyfeleknek gondosan kell kiválasztaniuk és előre feldolgozniuk az adataikat, hogy azok relevánsak, változatosak és kiegyensúlyozottak legyenek a kívánt tevékenységhez és tartományhoz. Az ügyfeleknek el kell távolítaniuk vagy anonimizálnia kell az adatokból származó bizalmas vagy személyes adatokat, például neveket, címeket vagy e-mail-címeket az érintettek adatainak védelme és biztonsága érdekében. Az adatok minőségének és olvashatóságának javítása érdekében az ügyfeleknek ellenőriznie kell és ki kell javítaniuk az adatok esetleges hibáit vagy következetlenségeit, például a helyesírást, a nyelvhelyességet vagy a formázást.
  • Adjon meg egy rendszerüzenetet a betanítási adatokba a csevegés befejezéséhez formázott modellekhez, irányítsa a válaszokat, és használja ugyanazt a rendszerüzenetet, amikor a finomhangolt modellt használja a következtetéshez. Ha üresen hagyja a rendszerüzenetet, az általában alacsony pontosságú, finomhangolt modelleket eredményez, és ha elfelejti ugyanazt a rendszerüzenetet belefoglalni a következtetésbe, az azt eredményezheti, hogy a finomhangolt modell visszaáll az alapmodell viselkedésére.
  • Modell kiértékelése és tesztelése: Az ügyfeleknek ki kell értékelnie és tesztelnie kell a finomhangolt modell teljesítményét és robusztusságát különböző bemeneteken és forgatókönyveken, és össze kell hasonlítani az eredeti modellel és más alapkonfigurációkkal. Az ügyfeleknek megfelelő metrikákat és kritériumokat kell használniuk a modell pontosságának, megbízhatóságának és méltányosságának méréséhez, valamint a modell kimenetében és viselkedésében esetlegesen felmerülő hibák vagy torzítások azonosításához.
  • Modelldokumentáció és -kommunikáció: Az ügyfeleknek dokumentálni kell a modell célját, hatókörét, korlátait és feltételezéseit, valamint világos és pontos információkat és útmutatást kell nyújtaniuk a modell végfelhasználóinak.

Ajánlott eljárások és javaslatok az Azure OpenAI-értékeléshez

  • Robusztus alapadatok: Általában a nagy méretű természetes nyelvi modellekben az ügyfeleknek gondosan kell kiválasztaniuk és előre feldolgozniuk az adataikat, hogy azok relevánsak, változatosak és kiegyensúlyozottak legyenek a kívánt feladathoz és tartományhoz. Az ügyfeleknek el kell távolítaniuk vagy anonimizálnia kell az adatokból származó bizalmas vagy személyes adatokat, például neveket, címeket vagy e-mail-címeket az érintettek adatainak védelme és biztonsága érdekében. Az adatok minőségének és olvashatóságának javítása érdekében az ügyfeleknek ellenőriznie kell és ki kell javítaniuk az adatok esetleges hibáit vagy következetlenségeit, például a helyesírást, a nyelvhelyességet vagy a formázást.
    Kifejezetten az Azure OpenAI-kiértékeléshez a felhasználó által megadott alapigazsági adatok pontossága kulcsfontosságú, mivel a pontatlan alapigazsági adatok értelmetlen és pontatlan kiértékelési eredményekhez vezetnek. Az adatok minőségének és megbízhatóságának biztosítása elengedhetetlen a modell teljesítményének érvényes értékeléséhez. A pontatlan alapigazság-adatok torzíthatják a kiértékelési metrikákat, ami félrevezető következtetésekhez vezethet a modell képességeiről. Ezért a felhasználóknak gondosan meg kell válogatniuk és ellenőrizniük kell az alapigazság-adataikat, hogy a kiértékelési folyamat pontosan tükrözze a modell valódi teljesítményét. Ez különösen fontos a modell valós alkalmazásokban való üzembe helyezésével kapcsolatos döntések meghozatalakor
  • Előfeltétel-utasítás meghatározása a kiértékeléshez: A kiértékeléshez használt utasításnak meg kell egyeznie a gyakorlatban alkalmazni kívánt utasítással. Ezek a kérések megadják a modell követendő utasításait. Az OpenAI-játszótérhez hasonlóan több bemenetet is létrehozhat, hogy néhány példa szerepeljen a parancssorban. A gyors tervezés és a gyors tervezés néhány speciális technikájának további részleteiért tekintse meg a Prompt mérnöki technikákat .
  • Különböző metrikák: Metrikák kombinációjával rögzítheti a teljesítmény különböző aspektusait, például a pontosságot, a flunciát és a relevanciát.
  • Human-in-the-loop: Integrálja az emberi visszajelzést az automatizált értékelés mellett annak érdekében, hogy a szubjektív árnyalatok pontosan rögzítve legyenek.
  • Átláthatóság: Egyértelműen közli a felhasználókkal az értékelési kritériumokat, lehetővé téve számukra, hogy megértsék a döntések meghozatalának módját.
  • Folyamatos kiértékelés és tesztelés: A modell teljesítményének folyamatos kiértékelése a regressziók vagy negatív felhasználói élmény azonosítása és kezelése érdekében.

Az Azure OpenAI természetes nyelvi és látásmodelljeinek kiértékelése és integrálása az Ön számára

Az Azure OpenAI-értékelés végrehajtásának lépései a következők:

  1. Adatok megadása kiértékeléshez: Egy JSONL formátumban feltöltött, egybesimított fájl, vagy kérések sorozata alapján generált adatok.
  2. Adja meg az adatokat kiértékelő teszteseteket: Válasszon ki egy vagy több tesztesetet, hogy a megadott adatokat passz / sikertelen osztályzatokkal értékelje.
  3. Eredmények áttekintése és szűrése: Minden teszt tartalmazza az átadási és a sikertelen pontszámok definícióját. A kiértékelés futása után a felhasználók áttekinthetik az eredményeket egyenként, és megtekinthetik az egyes teszteredményeket, vagy szűrhetnek az elfogadott/nem sikeres tesztekre.

A modellek felelősségteljes kiértékelésére és integrálására vonatkozó további információkért tekintse meg a RAI áttekintési dokumentumát.

További információk a felelős mesterséges intelligenciáról

További információ az Azure OpenAI-ról