Tartalomszűrés áttekintése

2025-07-02

Az Azure OpenAI tartalmaz egy tartalomszűrési rendszert, amely az alapvető modellek mellett működik, beleértve a képgenerálási modelleket is. Ez a rendszer úgy működik, hogy mind a parancssort, mind a befejezést egy olyan besorolási modellen futtatja, amely a káros tartalmak kimenetének észlelésére és megelőzésére szolgál. A tartalomszűrési rendszer észleli és műveletet hajt végre a potenciálisan káros tartalmak meghatározott kategóriáiban mind a bemeneti kérésekben, mind a kimeneti befejezésekben. Az API-konfigurációk és az alkalmazástervezés variációi hatással lehetnek a befejezésekre és így a szűrési viselkedésre.

Fontos

A tartalomszűrési rendszer nem vonatkozik az olyan hangmodellek által feldolgozott kérésekre és kiegészítésekre, mint a Whisper az Azure OpenAI-ban az Azure AI Foundry-modellekben. További információ az Azure OpenAI hangmodelljeiről.

A tartalomszűrési rendszer mellett az Azure OpenAI monitorozást is végez, hogy észlelje azokat a tartalmakat és/vagy viselkedéseket, amelyek a szolgáltatás olyan használatát javasolják, amely megsértheti a vonatkozó termékfeltételeket. Az alkalmazással kapcsolatos kockázatok megértéséről és csökkentéséről az Azure OpenAI átláthatósági megjegyzésében talál további információt. A tartalomszűrés és a visszaélések monitorozása során az adatok feldolgozásával kapcsolatos további információkért tekintse meg az Azure OpenAI adat-, adatvédelmi és biztonsági adatait.

Az ebben a szakaszban található cikkek információt nyújtanak a tartalomszűrési kategóriákról, a szűrés súlyossági szintjeiről és konfigurálhatóságáról, valamint az alkalmazástervezésben és -megvalósításban figyelembe vehető API-forgatókönyvekről.

Megjegyzés:

A rendszer nem tárol kéréseket vagy kiegészítéseket tartalomszűrés céljából. A tartalomszűrési rendszer betanítására, újratanítására vagy továbbfejlesztésére az Ön hozzájárulása nélkül nem történik kérés vagy kiegészítés. További információ: Adatok, adatvédelem és biztonság.

Tartalomszűrő-típusok

Az Azure OpenAI-ban integrált tartalomszűrési rendszer a következőket tartalmazza:

Neurális, többosztályos besorolási modellek a káros tartalmak észlelésére és szűrésére; a modellek négy kategóriát (gyűlölet, szexuális, erőszak és önkárosító) fednek le négy súlyossági szinten (biztonságos, alacsony, közepes és magas). A „biztonságos” súlyossági szinttel észlelt tartalom jegyzetekben van megjelölve, de nem lesz szűrve, és nem konfigurálható.
Egyéb választható besorolási modellek, amelyek célja a feltörési kockázat és a szöveg és a kód ismert tartalmainak észlelése; Ezek a modellek bináris osztályozók, amelyek jelzik, hogy a felhasználó vagy a modell viselkedése jailbreak támadásnak minősül-e, vagy egyezik-e az ismert szövegtel vagy forráskóddal. A modellek használata nem kötelező, de a védett anyagkódmodell használata szükséges lehet az ügyfél szerzői jogi kötelezettségvállalási lefedettségéhez.

Kategóriák szűrése

Az alábbi táblázat az Azure OpenAI tartalomszűrő rendszere által támogatott kockázati kategóriákat foglalja össze.

Kategória	Leírás
Gyűlölet és méltányosság	A gyűlöletkel és a méltányossággal kapcsolatos sérelmek minden olyan tartalomra vonatkoznak, amely a csoportok bizonyos megkülönböztető tulajdonságain alapuló személyre vagy identitáscsoportra hivatkozva diszkriminatív nyelvet támad vagy használ. Ez magában foglalja, de nem korlátozódik a következőkre: Faj, etnikum, nemzetiség Nemi identitáscsoportok és kifejezés Szexuális orientáció Vallás Személyes megjelenés és testméret Fogyatékosság állapota Zaklatás és bántalmazás
Szexuális	A szexuális leírások az anatómiai szervekhez és nemi szervekhez, romantikus kapcsolatokhoz és szexuális aktusokhoz, erotikus vagy szeretetteljes kifejezésekben ábrázolt cselekedetekhez kapcsolódnak, beleértve azokat is, amelyeket testi sértésként vagy akarata elleni erőszakos erőszakos cselekedetként ábrázolnak.   Ez magában foglalja, de nem korlátozódik a következőkre: Vulgáris tartalom Prostitúció Meztelenség és pornográfia Visszaélés Gyermekek kizsákmányolása, gyermekbántalmazás, gyermekcsábítás
Erőszak	Az erőszak azt a nyelvet írja le, amely olyan fizikai műveletekhez kapcsolódik, amelyek célja, hogy fájdalmat, sérülést, kárt okoznak vagy megöljenek valakit vagy valamit; fegyvereket, fegyvereket és kapcsolódó entitásokat ír le. Ez magában foglalja, de nem korlátozódik a következőkre: Fegyverek Zaklatás és megfélemlítés Terrorista és erőszakos szélsőségesség Zaklatás
Önkárosítás	Az önkárosítás a szándékosan elkövetett, a testet sértő, károsító vagy önpusztító fizikai cselekedetekkel kapcsolatos nyelvezetet írja le. Ez magában foglalja, de nem korlátozódik a következőkre: Étkezési zavarok Zaklatás és megfélemlítés
Felhasználói parancssori támadások	A felhasználói parancssori támadások olyan felhasználói kérések, amelyek arra szolgálnak, hogy a Generatív AI-modellt olyan viselkedések bemutatására ösztönözjék, amelyeket a rendszerüzenetben beállított szabályok elkerülése vagy megszegése érdekében betanított. Az ilyen támadások a bonyolult szerepjátéktól a biztonsági célkitűzés finom felforgatásán át változhatnak.
Közvetett támadások	A közvetett támadások, más néven közvetett parancssori támadások vagy tartományközi parancssori injektálási támadások olyan potenciális biztonsági rések, amelyekben harmadik felek rosszindulatú utasításokat helyeznek el azon dokumentumokon belül, amelyekhez a Generative AI-rendszer hozzáférhet és feldolgozható. Dokumentumbeágyazást és formázást igényel.
Földiesség²	Az alapozottság észlelés azt jelzi, hogy a nagy nyelvi modellek (LLM-ek) szöveges válaszai alapulnak-e a felhasználók által biztosított forrásanyagokon. Megalapozatlan anyag olyan helyzetekre vonatkozik, amikor az LLM-ek olyan információkat hoznak létre, amelyek nem tényszerűek vagy pontatlanok a forrásanyagokhoz képest. Dokumentumbeágyazást és formázást igényel.
Védett anyag szöveghez¹	A védett anyag szövege ismert szöveges tartalmakat (például dalszövegeket, cikkeket, recepteket és kiválasztott webes tartalmakat) ír le, amelyeket nagy nyelvi modellek képesek kiadni.
Kód védett anyaga	A védett anyagkód olyan forráskódot ír le, amely megfelel a nyilvános adattárakból származó forráskódkészletnek, amelyet nagy nyelvi modellek képesek a forrástárak megfelelő idézete nélkül kiírni.

¹ Ha Ön a szöveges anyagok tulajdonosa, és védelmi célú szöveges tartalmat szeretne küldeni, küldjön be egy kérést.

² Nem érhető el nem streamelési forgatókönyvekben, csak streamelési forgatókönyvekhez érhető el. A következő régiók támogatják a földi észlelést: USA középső régiója, USA keleti régiója, Közép-Franciaország és Kelet-Kanada

Forgatókönyv részletei

Amikor a tartalomszűrő rendszer kártékony tartalmat észlel, az API-hívás során hibaüzenetet kap, ha a kérés nem megfelelőnek minősül. Vagy a válaszban a finish_reason helyén content_filter jelenik meg, jelezve, hogy a befejezés egy részét kiszűrték. Az alkalmazás vagy a rendszer létrehozásakor figyelembe kell vennie azokat a forgatókönyveket, amelyekben a Completions API által visszaadott tartalom szűrve van, ami hiányos tartalmat eredményezhet. Az információk alapján történő működés alkalmazásspecifikus lesz. A viselkedés az alábbi pontokban foglalható össze:

A szűrt kategóriába és súlyossági szintre besorolt kérések HTTP 400-es hibát adnak vissza.
A nem streamelt befejezési hívások nem adnak vissza tartalmat a tartalom szűrésekor. Az finish_reason érték content_filter értékre van állítva. Ritkán hosszabb válaszok esetén részleges eredmény adható vissza. Ezekben az esetekben a finish_reason frissül.
A folyamatos átvitelű befejezési hívások esetében a rendszer a befejezett állapotban visszaadja a szegmenseket a felhasználónak. A szolgáltatás mindaddig folytatja a streamelést, amíg el nem éri a leállítási jogkivonatot, a hosszt, vagy ha a rendszer szűrt kategóriába és súlyossági szintre besorolt tartalmat észlel.