Szövegmoderálási fogalmak

2025-06-12

Fontos

Az Azure Content Moderator 2024 februárjától elavult, és 2027. március 15-én megszűnik. Ezt az Azure AI Content Safety váltja fel, amely fejlett AI-funkciókat és továbbfejlesztett teljesítményt kínál.

Az Azure AI Content Safety egy átfogó megoldás, amely a felhasználók által létrehozott és AI által létrehozott tartalmak észlelésére szolgál az alkalmazásokban és szolgáltatásokban. Az Azure AI Content Safety számos forgatókönyvre alkalmas, például online piacterekre, játékvállalatokra, közösségi üzenetkezelési platformokra, nagyvállalati médiavállalatokra és K-12 oktatási megoldásszolgáltatókra. Az alábbiakban áttekintjük a funkcióit és képességeit:

Szöveg- és képészlelési API-k: Több súlyossági szinttel vizsgálhat szöveget és képeket szexuális tartalmak, erőszak, gyűlölet és önkárosítás esetén.
Content Safety Studio: Egy online eszköz, amely a legújabb tartalom-moderálási ML-modellek használatával kezeli a potenciálisan sértő, kockázatos vagy nemkívánatos tartalmakat. Sablonokat és testreszabott munkafolyamatokat biztosít, amelyek lehetővé teszik a felhasználók számára, hogy saját tartalom-moderációs rendszereket építsenek.
Nyelvi támogatás: Az Azure AI Content Safety több mint 100 nyelvet támogat, és kifejezetten angol, német, japán, spanyol, francia, olasz, portugál és kínai nyelven van betanítva.

Az Azure AI Content Safety rugalmas és robusztus megoldást kínál a tartalom moderálási igényeihez. A Content Moderatorról az Azure AI Content Safetyre való váltással kihasználhatja a legújabb eszközöket és technológiákat, hogy a tartalmak mindig a pontos specifikációknak megfelelően legyenek moderálva.

Tudjon meg többet az Azure AI tartalombiztonságról, és fedezze fel, hogyan javíthatja tartalommoderálási stratégiáját.

Az Azure Content Moderator szövegmoderálási modelljei segítségével elemezheti a szöveges tartalmakat, például csevegőszobákat, vitafórumokat, csevegőrobotokat, e-kereskedelmi katalógusokat és dokumentumokat.

A szolgáltatástól érkező válaszban az alábbi információk szerepelnek:

Trágárság: kifejezésalapú egyeztetés a különböző nyelveken található profán kifejezések beépített listájával
Besorolás: gépi támogatású besorolás három kategóriába
Személyes adatok
Automatikusan kijavított szöveg
Eredeti szöveg
Nyelv

Trágár kifejezések

Ha az API bármilyen trágár kifejezést észlel a támogatott nyelvek bármelyikében, ezek a kifejezések szerepelnek a válaszban. A válasz az eredeti szövegben is tartalmazza a helyüket (Index). Az ListId alábbi JSON-minta az egyéni kifejezéslistákban található kifejezésekre hivatkozik, ha vannak ilyenek.

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 0,
        "Term": "<offensive word>"
    }

Feljegyzés

language A paraméterhez rendelje hozzá eng vagy hagyja üresen a gép által támogatott besorolási válasz megtekintéséhez (előzetes verziójú funkció). Ez a funkció csak az angol nyelvet támogatja.

A trágár kifejezések észleléséhez használja a cikkben felsorolt támogatott nyelvek ISO 639-3 kódját, vagy hagyja üresen.

Osztályozás

A Content Moderator géppel támogatott szövegbesorolási funkciója csak az angol nyelvet támogatja, és segít észlelni a potenciálisan nem kívánt tartalmakat. A megjelölt tartalom a környezettől függően nem megfelelőnek tekinthető. Ez közvetíti az egyes kategóriák valószínűségét. A funkció betanított modellt használ a lehetséges sértő, becsmérlő vagy diszkriminatív nyelvezet azonosítására. Ez magában foglalja a szlenget, a rövidített szavakat, a sértő és a szándékosan hibásan írt szavakat.

A JSON-kivonat következő kivonata egy példakimenetet mutat be:

"Classification": {
    "ReviewRecommended": true,
    "Category1": {
        "Score": 1.5113095059859916E-06
    },
    "Category2": {
        "Score": 0.12747249007225037
    },
    "Category3": {
        "Score": 0.98799997568130493
    }
}

Magyarázat

Category1 olyan nyelv lehetséges jelenlétére utal, amely bizonyos helyzetekben szexuálisan explicitnek vagy felnőttnek tekinthető.
Category2 olyan nyelv lehetséges jelenlétére utal, amely bizonyos helyzetekben szexuálisan szuggesztívnak vagy érettnek tekinthető.
Category3 olyan nyelv lehetséges jelenlétére utal, amely bizonyos helyzetekben sértőnek tekinthető.
Score értéke 0 és 1 között van. Minél magasabb a pontszám, annál nagyobb annak a valószínűsége, hogy a kategória alkalmazható. Ez a funkció nem manuálisan kódolt eredményekre, hanem statisztikai modellre támaszkodik. Javasoljuk, hogy saját tartalommal tesztelje, hogy az egyes kategóriák hogyan igazodjanak a követelményekhez.
ReviewRecommended a belső pontszám küszöbértékétől függően igaz vagy hamis. Az ügyfeleknek fel kell mérniük, hogy ezt az értéket használják-e, vagy a tartalomszabályzataik alapján egyéni küszöbértékek mellett döntenek.

Személyes adatok

A személyes adatok funkció észleli ezen információk lehetséges jelenlétét:

Email-cím
USA levelezési címe
IP-cím
USA-beli telefonszám

Az alábbi példa egy mintaválaszt mutat be:

"pii":{
  "email":[
      {
        "detected":"abcdef@abcd.com",
        "sub_type":"Regular",
        "text":"abcdef@abcd.com",
        "index":32
      }
  ],
  "ssn":[

  ],
  "ipa":[
      {
        "sub_type":"IPV4",
        "text":"255.255.255.255",
        "index":72
      }
  ],
  "phone":[
      {
        "country_code":"US",
        "text":"6657789887",
        "index":56
      }
  ],
  "address":[
      {
        "text":"1 Microsoft Way, Redmond, WA 98052",
        "index":89
      }
  ]
}

Automatikus javítás

A szövegmoderálási válasz opcionálisan visszaadhatja a szöveget alapszintű automatikus javítás alkalmazásával.

Például az alábbi szöveg elírást tartalmaz.

A gyors barna róka a lusta kutya fölé ugrik.

Ha automatikus javítást ad meg, a válasz a szöveg javított verzióját tartalmazza:

A gyors barna róka a lusta kutya fölé ugrik.

Egyéni kifejezéslisták létrehozása és kezelése

Bár az alapértelmezett globális kifejezéslista a legtöbb esetben kiválóan működik, érdemes lehet az üzleti igényeinek megfelelő kifejezéseket is megjeleníteni. Előfordulhat például, hogy ki szeretné szűrni a versenyben szereplő márkaneveket a felhasználók bejegyzéseiből.

Feljegyzés

Legfeljebb öt kifejezéslista van , amelyekben az egyes listáknem haladhatják meg a 10 000 kifejezést.

Az alábbi példa a megfelelő listaazonosítót mutatja be:

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 231.
        "Term": "<offensive word>"
    }

A Content Moderator egy kifejezéslista API-t biztosít az egyéni kifejezéslisták kezeléséhez szükséges műveletekhez. Ha ismeri a Visual Studiót és a C#-t, tekintse meg a Kifejezéslisták .NET rövid útmutatóját .

Rövid útmutató: A Content Moderator ügyfélkódtár használata

Megosztás a következőn keresztül: