Kockázatok és biztonság monitorozása az Azure OpenAI Studióban (előzetes verzió)
Ha egy Azure OpenAI-modell üzembe helyezését tartalomszűrővel használja, érdemes lehet ellenőrizni a szűrési tevékenység eredményeit. Ezekkel az információkkal tovább módosíthatja a szűrőkonfigurációt az adott üzleti igények és a felelős AI-alapelvek kiszolgálása érdekében.
Az Azure OpenAI Studio egy kockázat- és biztonsági monitorozási irányítópultot biztosít minden olyan üzemelő példányhoz, amely tartalomszűrő-konfigurációt használ.
Hozzáférési kockázatok és biztonság monitorozása
A Kockázatok és biztonság monitorozás eléréséhez szüksége van egy Azure OpenAI-erőforrásra az egyik támogatott Azure-régióban: USA keleti régiója, Észak-Svájc, Közép-Franciaország, Közép-Svédország, Kelet-Kanada. Olyan modelltelepítésre is szüksége van, amely tartalomszűrő-konfigurációt használ.
Nyissa meg az Azure OpenAI Studiót , és jelentkezzen be az Azure OpenAI-erőforráshoz társított hitelesítő adatokkal. Válassza a bal oldalon található Központi telepítések lapot, majd válassza ki a modell üzembe helyezését a listából. Az üzembe helyezés oldalán válassza a kockázatok > biztonság lapot a tetején.
Tartalomészlelés
A Tartalomészlelési panel a tartalomszűrő tevékenységével kapcsolatos információkat jeleníti meg. A tartalomszűrő konfigurációja a Tartalomszűrési dokumentációban leírtak szerint lesz alkalmazva.
Jelentés leírása
A tartalomszűrési adatok a következő módokon jelennek meg:
- A letiltott kérelmek teljes száma és a blokkolási arány: Ez a nézet az idő függvényében szűrt tartalom mennyiségének és sebességének globális nézetét jeleníti meg. Ez segít megérteni a felhasználóktól érkező káros kérések trendjeit, és látni a váratlan tevékenységeket.
- Letiltott kérelmek kategória szerint: Ez a nézet az egyes kategóriákhoz letiltott tartalom mennyiségét jeleníti meg. Ez a káros kérelmek teljes körű statisztikája a kiválasztott időtartományban. Jelenleg támogatja a gyűlölet, a szexuális, az önsértés és az erőszak ártalmait.
- Blokkolási sebesség az idő függvényében kategória szerint: Ez a nézet az egyes kategóriák blokkolási sebességét jeleníti meg az idő függvényében. Jelenleg támogatja a gyűlölet, a szexuális, az önsértés és az erőszak ártalmait.
- Súlyosság eloszlása kategória szerint: Ez a nézet az egyes kárkategóriákhoz észlelt súlyossági szinteket jeleníti meg a teljes kijelölt időtartományban. Ez nem csak a letiltott tartalmakra vonatkozik, hanem a tartalomszűrők által megjelölt összes tartalmat is tartalmazza.
- Súlyossági arányok időbeli eloszlása kategória szerint: Ez a nézet az észlelt súlyossági szintek időbeli arányát mutatja az egyes kárkategóriákhoz. Válassza ki a lapokat a támogatott kategóriák közötti váltáshoz.
Javasolt műveletek
Módosítsa a tartalomszűrő konfigurációját az üzleti igényeknek és a felelős AI-alapelveknek megfelelően.
Potenciálisan sértő felhasználói észlelés
A potenciálisan visszaélésszerű felhasználói észlelési panel felhasználói szintű visszaélés-jelentésekkel jeleníti meg azokat a felhasználókat, akiknek a viselkedése blokkolt tartalmat eredményezett. A cél az, hogy segítsen a káros tartalmak forrásainak megtekintésében, hogy rugalmas műveleteket hajthasson végre annak biztosítása érdekében, hogy a modell felelősségteljes módon legyen használva.
A potenciálisan visszaélésszerű felhasználói észlelés használatához a következőkre van szüksége:
- Az üzembe helyezésre alkalmazott tartalomszűrő-konfiguráció.
- A csevegővégzítési kérelmekben felhasználói azonosító adatokat kell küldenie (lásd például a Completions API felhasználói paraméterét).
Figyelemfelhívás
A GUID sztringek használatával azonosíthatja az egyes felhasználókat. Ne adjon meg bizalmas személyes adatokat a "felhasználó" mezőben.
- A felhasználói elemzési eredmények tárolására beállított Azure Data Explorer-adatbázis (az alábbi utasítások).
Az Azure Data Explorer-adatbázis beállítása
A felhasználói adatok adatvédelmi védelme és az adatok engedélyének kezelése érdekében támogatjuk azt a lehetőséget, hogy ügyfeleink saját tárterületet hozzanak létre a felhasználók részletes, potenciálisan sértő észlelési megállapításainak (beleértve a felhasználói GUID-t és a káros kérelmek kategóriánkénti statisztikáit) megfelelő módon és teljes hozzáféréssel történő tárolásához. Az engedélyezéshez kövesse az alábbi lépéseket:
- Az Azure OpenAI Studióban keresse meg azt a modelltelepítést, amellyel felhasználói visszaélések elemzését szeretné beállítani, és válassza az Adattár hozzáadása lehetőséget.
- Töltse ki a szükséges adatokat, és válassza a Mentés lehetőséget. Javasoljuk, hogy hozzon létre egy új adatbázist az elemzési eredmények tárolásához.
- Az adattár csatlakoztatása után végezze el az alábbi lépéseket, hogy engedélyt adjon az elemzési eredményeknek a csatlakoztatott adatbázisba való írására:
- Lépjen az Azure OpenAI-erőforrás lapjára az Azure Portalon, és válassza az Identitás lapot.
- Kapcsolja be az állapotot a rendszer által hozzárendelt identitáshoz, és másolja a létrehozott azonosítót.
- Nyissa meg az Azure Data Explorer-erőforrást az Azure Portalon, válassza ki az adatbázisokat, majd válassza ki a felhasználóelemzési eredmények tárolásához létrehozott adatbázist.
- Válassza ki az engedélyeket, és adjon hozzá egy rendszergazdai szerepkört az adatbázishoz.
- Illessze be a korábbi lépésben létrehozott Azure OpenAI-identitást, és válassza ki a keresettet. Mostantól az Azure OpenAI-erőforrás identitása jogosult a tárfiókba való olvasásra/írásra.
- Adjon hozzáférést a csatlakoztatott Azure Data Explorer-adatbázishoz azoknak a felhasználóknak, akiknek meg kell tekinteni az elemzési eredményeket:
- Nyissa meg a csatlakoztatott Azure Data Explorer-erőforrást, válassza a hozzáférés-vezérlést, és adja hozzá az Azure Data Explorer-fürt olvasói szerepkörét azokhoz a felhasználókhoz, akiknek hozzá kell férnie az eredményekhez.
- Válassza ki az adatbázisokat , és válassza ki azt az adatbázist, amely a felhasználói szintű visszaélések elemzési eredményeinek tárolásához kapcsolódik. Válassza ki az engedélyeket , és adja hozzá az adatbázis olvasói szerepkörét azokhoz a felhasználókhoz, akiknek hozzá kell férnie az eredményekhez.
Jelentés leírása
A potenciálisan sértő felhasználói észlelés az ügyfelek által az Azure OpenAI API-hívásokkal küldött felhasználói adatokra és a kérelem tartalmára támaszkodik. A következő megállapítások jelennek meg:
- Potenciálisan sértő felhasználók teljes száma: Ez a nézet az észlelt potenciálisan visszaélést okozó felhasználók számát jeleníti meg az idő függvényében. Ezek azok a felhasználók, akiknél visszaélési mintát észleltek, és akik magas kockázatot jelenthetnek.
- Potenciálisan sértő felhasználók listája: Ez a nézet az észlelt potenciálisan sértő felhasználók részletes listáját tartalmazza. A következő információkat adja meg minden felhasználó számára:
- UserGUID: Ezt az ügyfél az Azure OpenAI API-k "felhasználó" mezőjén keresztül küldi el.
- Visszaélési pontszám: Ezt a modellt a modell az egyes felhasználók kéréseinek és viselkedésének elemzésével hozza létre. A pontszám normalizálása 0–1. A magasabb pontszám magasabb visszaélési kockázatot jelez.
- Visszaélési pontszám trendje: A visszaélési pontszám változása a kiválasztott időtartományban.
- Kiértékelési dátum: Az eredmények elemzésének dátuma.
- A visszaélésekre vonatkozó kérelmek teljes aránya/száma
- Visszaélés aránya/száma kategória szerint
Javasolt műveletek
Ezeket az adatokat gazdagított jelekkel kombinálva ellenőrizheti, hogy az észlelt felhasználók valóban sértőek-e. Ha így van, akkor olyan rugalmas műveletet kell elvégeznie, mint például a felhasználó szabályozása vagy felfüggesztése az alkalmazás felelősségteljes használatának biztosítása érdekében.
Következő lépések
Ezután hozzon létre vagy szerkesszen egy tartalomszűrő-konfigurációt az Azure OpenAI Studióban.