Tartalomszűrés az Azure AI Studióban

Cikk
06/13/2024

Fontos

A cikkben ismertetett funkciók némelyike csak előzetes verzióban érhető el. Ez az előzetes verzió szolgáltatásszint-szerződés nélkül érhető el, és éles számítási feladatokhoz nem javasoljuk. Előfordulhat, hogy néhány funkció nem támogatott, vagy korlátozott képességekkel rendelkezik. További információ: Kiegészítő használati feltételek a Microsoft Azure előzetes verziójú termékeihez.

Az Azure AI Studio tartalmaz egy tartalomszűrési rendszert, amely az alapmodellek és a DALL-E képgenerálási modellek mellett működik.

Fontos

A tartalomszűrési rendszer nincs alkalmazva a Whisper modell által feldolgozott kérésekre és befejezésekre az Azure OpenAI Servicesben. További információk a Whisper-modellről az Azure OpenAI-ban.

Hogyan működik?

Ezt a tartalomszűrési rendszert az Azure AI Content Safety működteti, és úgy működik, hogy egyszerre futtatja a gyors bemeneti és befejezési kimenetet egy olyan besorolási modellek együttesén keresztül, amelyek célja a káros tartalmak kimenetének észlelése és megakadályozása. Az API-konfigurációk és az alkalmazás kialakításának eltérései hatással lehetnek az eredményekre és így a szűrési viselkedésre is.

Az Azure OpenAI-modell üzembe helyezésével használhatja az alapértelmezett tartalomszűrőt, vagy létrehozhat saját tartalomszűrőt (amelyről később olvashat). Az alapértelmezett tartalomszűrő az Azure AI által a modellkatalógusban létrehozott más szöveges modellekhez is elérhető, de az egyéni tartalomszűrők még nem érhetők el ezekhez a modellekhez. A szolgáltatásként elérhető modellek alapértelmezés szerint engedélyezve vannak a tartalomszűréssel, és nem konfigurálhatók.

Nyelvi támogatás

A tartalomszűrési modellek betanítása és tesztelése a következő nyelveken történt: angol, német, japán, spanyol, francia, olasz, portugál és kínai. A szolgáltatás azonban számos más nyelven is működhet, de a minőség eltérő lehet. Minden esetben saját tesztelést kell végeznie, hogy megbizonyosodjon, az Ön alkalmazása esetében is működik.

Tartalomszűrő létrehozása

Az Azure AI Studio bármely modelltelepítéséhez használhatja közvetlenül az alapértelmezett tartalomszűrőt, de érdemes lehet nagyobb kontrollt használnia. Például szigorúbbá vagy megengedhetőbbé teheti a szűrőt, vagy speciálisabb képességeket is engedélyezhet, például a parancssori pajzsokat és a védett anyagészlelést.

Tartalomszűrő létrehozásához kövesse az alábbi lépéseket:

Nyissa meg az AI Studiót , és válasszon ki egy projektet.
A bal oldali panelen válassza a Tartalomszűrők lehetőséget, majd válassza az + Új tartalomszűrő lehetőséget.
Az Alapszintű információk lapon adja meg a tartalomszűrő nevét. Válassza ki a tartalomszűrőhöz társítandó kapcsolatot. Ezután válassza a Tovább gombra.
A Bemeneti szűrők lapon beállíthatja a bemeneti kérés szűrőit. Engedélyezheti például a parancssori pajzsokat a jailbreak-támadásokhoz. Ezután válassza a Tovább gombra.

A tartalom kategória szerint lesz széljegyzetet kap, és a beállított küszöbértéknek megfelelően le lesz tiltva. Az erőszak, a gyűlölet, a szexuális és az önkárosító kategóriák esetében állítsa be a csúszkát a magas, közepes vagy alacsony súlyosságú tartalmak blokkolásához.
A Kimeneti szűrők lapon beállíthatja a kimenet befejezéséhez tartozó szűrőt. Engedélyezheti például a szűrőket a védett anyagészleléshez. Ezután válassza a Tovább gombra.

A tartalmat minden kategória széljegyzetekkel nyitja meg, és a küszöbértéknek megfelelően letiltja. Az erőszakos tartalmak, a gyűlölettartalmak, a szexuális tartalmak és az önkárosító tartalmak kategóriája esetén állítsa be a küszöbértéket, hogy a káros tartalmakat azonos vagy magasabb súlyossági szinttel tiltsa le.
Az Üzembe helyezés lapon a tartalomszűrőt társíthatja az üzembe helyezéshez. A tartalomszűrőt később egy üzembe helyezéshez is társíthatja. Válassza a Létrehozás parancsot.

A tartalomszűrési konfigurációk a központ szintjén jönnek létre az AI Studióban. További információ az Azure OpenAI-dokumentumok konfigurálhatóságáról.
A Véleményezés lapon tekintse át a beállításokat, majd válassza a Szűrő létrehozása lehetőséget.

Tartalomszűrő alkalmazása

Az üzembe helyezés létrehozásakor egy alapértelmezett tartalomszűrő van beállítva. Az egyéni tartalomszűrőt az üzembe helyezésre is alkalmazhatja.

A tartalomszűrő üzembe helyezéséhez kövesse az alábbi lépéseket:

Nyissa meg az AI Studiót , és válasszon ki egy projektet.
Válassza az Üzemelő példányok lehetőséget, és válasszon egyet az üzemelő példányok közül, majd válassza a Szerkesztés lehetőséget.
A Frissítés központi telepítési ablakban válassza ki az üzembe helyezésre alkalmazni kívánt tartalomszűrőt.

Most a játszótérre léphet, és tesztelheti, hogy a tartalomszűrő a várt módon működik-e!

Tartalomszűrési kategóriák és konfigurálhatóság

A blokklistát alkalmazhatja bemeneti vagy kimeneti szűrőként, vagy mindkettőként. Engedélyezze a Tiltólista beállítást a Bemeneti szűrő és/vagy a Kimeneti szűrő lapon. Jelöljön ki egy vagy több blokklistát a legördülő listából, vagy használja a beépített trágárság-tiltólistát. Több blokklistát is kombinálhat ugyanabba a szűrőbe.

Kategóriák

Kategória	Leírás
Gyűlölet	A gyűlöletkategória olyan nyelvi támadásokat vagy használatokat ír le, amelyek pejoratív vagy diszkriminatív nyelvet foglalnak magukban, és e csoportok bizonyos megkülönböztető tulajdonságai alapján hivatkoznak egy személyre vagy identitáscsoportra, beleértve, de nem kizárólagosan a faji, etnikai, nemzetiségi, nemi identitást és kifejezést, szexuális orientációt, vallást, bevándorlási státuszt, képességállapotot, személyes megjelenést és testméretet.
Szexuális	A szexuális kategória az anatómiai szervekhez és nemi szervekhez kapcsolódó nyelveket, romantikus kapcsolatokat, erotikus vagy szeretetteljes kifejezésekkel ábrázolt cselekedeteket, fizikai szexuális aktusokat, beleértve azokat is, amelyeket testi sértésként vagy erőszakos cselekedetként ábrázolnak az ember akarata ellen, prostitúció, pornográfia és visszaélés.
Erőszak	Az erőszak kategória olyan fizikai műveletekhez kapcsolódó nyelveket ír le, amelyek célja mások vagy valami sérülése, sérülése vagy megölése; a fegyvereket stb.
Önkárosítás	Az önkárosítás kategória olyan fizikai műveletekhez kapcsolódó nyelvet ír le, amelyek célja, hogy szándékosan bántsák, megsebesítjék vagy károsítsák a testét, vagy megöljék önmagukat.

Súlyossági szintek

Kategória	Leírás
Biztonságos	A tartalom kapcsolódhat erőszakhoz, önkárosításhoz, szexuális vagy gyűlöletkategóriákhoz, de a kifejezéseket általában, újságírói, tudományos, orvosi és hasonló szakmai kontextusban használják, amelyek a legtöbb közönség számára megfelelőek.
Alacsony	Az előítéletes, ítélőképességű vagy véleményen lévő nézeteket kifejező tartalom magában foglalja a nyelv sértő használatát, a sztereotípiákat, a kitalált világot feltáró használati eseteket (például játék, irodalom) és az alacsony intenzitású ábrázolásokat.
Közepes	A sértő, sértő, gúnyos, megfélemlítő vagy lejárató nyelvet használó tartalom bizonyos identitáscsoportok felé, beleértve a káros utasítások keresésének és végrehajtásának ábrázolását, fantáziákat, dicsőítést, a kár közepes intenzitású előmozdítását.
Magas	Kifejezetten és súlyosan káros utasításokat, műveleteket, károkat vagy visszaéléseket megjelenítő tartalom; magában foglalja a súlyos káros cselekmények, a kár szélsőséges vagy illegális formáinak, a radikalizálódásnak vagy a nem eszmei hatalomcserének vagy visszaélésnek a támogatását, dicsőítését vagy előléptetését.

Konfigurálhatóság (előzetes verzió)

A GPT-modellsorozat alapértelmezett tartalomszűrési konfigurációja úgy van beállítva, hogy mind a négy tartalomkárosítási kategória (gyűlölet, erőszak, szexuális és önkárosítás) közepes súlyossági küszöbértékén szűrjön, és mindkét kérdésre (szöveg, többmódú szöveg/kép) és kiegészítésekre (szöveg) érvényes. Ez azt jelenti, hogy a közepes vagy magas súlyossági szinten észlelt tartalom szűrve van, míg az alacsony súlyossági szinten észlelt tartalmakat a tartalomszűrők nem szűrik. A DALL-E esetében az alapértelmezett súlyossági küszöbérték alacsonyra van állítva mind a kérések (szöveg), mind a befejezések (képek) esetében, így az alacsony, közepes vagy magas súlyossági szinteken észlelt tartalmak szűrve lesznek. A konfigurálhatósági funkció előzetes verzióban érhető el, és lehetővé teszi az ügyfelek számára, hogy az egyes tartalomkategóriák tartalmát különböző súlyossági szinteken szűrjenek, az alábbi táblázatban leírtak szerint:

Súlyosság szűrve	A kérésekhez konfigurálható	Befejezésekhez konfigurálható	Leírások
Alacsony, közepes, magas	Igen	Igen	A legszigorúbb szűrési konfiguráció. A rendszer szűri az alacsony, közepes és magas súlyossági szinteken észlelt tartalmakat.
Közepes, magas	Igen	Igen	Az alacsony súlyosságú tartalom nem szűrt, a közepes és a magas szintű tartalmak szűrve lesznek.
Magas	Igen	Igen	Az alacsony és közepes súlyossági szinteken észlelt tartalom nincs szűrve. A rendszer csak a magas súlyosságú tartalmakat szűri. ^{Jóváhagyást igényel 1}.
Nincsenek szűrők	Ha jóváhagyták¹	Ha jóváhagyták¹	A rendszer a súlyossági szinttől függetlenül nem szűri a tartalmat. ^{Jóváhagyást igényel 1}.

¹ Az Azure OpenAI-modellek esetében csak a módosított tartalomszűréshez jóváhagyott ügyfelek rendelkeznek teljes tartalomszűrési vezérléssel, beleértve a tartalomszűrők csak súlyossági szinten történő konfigurálását vagy a tartalomszűrők kikapcsolását. A módosított tartalomszűrőket ezen az űrlapon keresztül igényelheti: Azure OpenAI korlátozott hozzáférés felülvizsgálata: módosított tartalomszűrők és visszaélés-figyelés (microsoft.com)

Az ügyfelek feladata annak biztosítása, hogy az Azure OpenAI-t integráló alkalmazások megfeleljenek a magatartási kódexnek.

Egyéb bemeneti szűrők

Speciális szűrőket is engedélyezhet a generatív AI-forgatókönyvekhez:

Jailbreak-támadások: A Jailbreak-támadások olyan felhasználói kérések, amelyek a Generatív AI-modellt olyan viselkedések bemutatására késztetik, amelyeket a rendszerüzenetben beállított szabályok elkerülésére vagy megszegésére képeztek ki.
Közvetett támadások: A közvetett támadások, más néven közvetett parancssori támadások vagy tartományközi parancssori injektálási támadások olyan potenciális biztonsági rések, amelyekben harmadik felek rosszindulatú utasításokat helyeznek el azon dokumentumokon belül, amelyekhez a Generative AI-rendszer hozzáférhet és feldolgozhat.

Egyéb kimeneti szűrők

A következő speciális kimeneti szűrőket is engedélyezheti:

Védett anyag a szöveghez: A védett anyagok olyan ismert szöveges tartalmakat (például dalszövegeket, cikkeket, recepteket és kijelölt webes tartalmakat) írnak le, amelyeket nagy nyelvi modellek képesek kiadni.
Kód védett anyaga: A védett anyagkód olyan forráskódot ír le, amely megfelel a nyilvános adattárakból származó forráskódkészletnek, amelyet nagy nyelvi modellek a forrástárak megfelelő idézete nélkül is ki tudnak adni.
Alapesség: A földiesség-észlelési szűrő azt észleli, hogy a nagy nyelvi modellek (LLM-ek) szöveges válaszai a felhasználók által biztosított forrásanyagokban vannak-e alapulva.

Következő lépések

További információ az Azure OpenAI-t használó mögöttes modellekről.
Az Azure AI Studio tartalomszűrését az Azure AI Content Safety végzi.
További információ az alkalmazással kapcsolatos kockázatok megértéséről és csökkentéséről: Az Azure OpenAI-modellek felelős AI-eljárásainak áttekintése.

Megosztás a következőn keresztül:

Tartalomszűrés az Azure AI Studióban

Hogyan működik?

Nyelvi támogatás

Tartalomszűrő létrehozása

Tartalomszűrő létrehozása

Tartalomszűrő alkalmazása

Tartalomszűrési kategóriák és konfigurálhatóság

Kategóriák

Súlyossági szintek

Konfigurálhatóság (előzetes verzió)

Egyéb bemeneti szűrők

Egyéb kimeneti szűrők

Következő lépések

További források