Megosztás a következőn keresztül:


Szövegmoderálási fogalmak megismerése

A Content Moderator szövegmoderálási modelljeinek használatával elemezheti a szöveges tartalmakat, például csevegőszobákat, vitafórumokat, csevegőrobotokat, e-kereskedelmi katalógusokat és dokumentumokat.

A szolgáltatástól érkező válaszban az alábbi információk szerepelnek:

  • Trágárság: kifejezésalapú egyeztetés a különböző nyelveken található profán kifejezések beépített listájával
  • Besorolás: gépi támogatású besorolás három kategóriába
  • Személyes adatok
  • Automatikusan javított szöveg
  • Eredeti szöveg
  • Nyelv

Trágár kifejezések

Ha az API bármilyen trágár kifejezést észlel a támogatott nyelvek bármelyikében, ezek a kifejezések szerepelnek a válaszban. A válasz az eredeti szövegben is tartalmazza a helyüket (Index). Az ListId alábbi JSON-minta az egyéni kifejezéslistákban található kifejezésekre hivatkozik, ha vannak ilyenek.

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 0,
        "Term": "<offensive word>"
    }

Feljegyzés

A nyelvi paraméterhez rendelje hozzá eng vagy hagyja üresen a gép által támogatott besorolási válasz megtekintéséhez (előzetes verziójú funkció). Ez a funkció csak az angol nyelvet támogatja.

A trágár kifejezések észleléséhez használja a cikkben felsorolt támogatott nyelvek ISO 639-3 kódját, vagy hagyja üresen.

Osztályozás

A Content Moderator géppel támogatott szövegbesorolási funkciója csak az angol nyelvet támogatja, és segít észlelni a potenciálisan nem kívánt tartalmakat. A megjelölt tartalom a környezettől függően nem megfelelőnek tekinthető. Ez közvetíti az egyes kategóriák valószínűségét. A funkció egy betanított modellt használ a lehetséges sértő, gyalázkodó vagy diszkriminatív nyelvek azonosítására. Ez magában foglalja a szlenget, a rövidített szavakat, a sértő és a szándékosan hibásan írt szavakat.

A JSON-kivonat következő kivonata egy példakimenetet mutat be:

"Classification": {
    "ReviewRecommended": true,
    "Category1": {
        "Score": 1.5113095059859916E-06
    },
    "Category2": {
        "Score": 0.12747249007225037
    },
    "Category3": {
        "Score": 0.98799997568130493
    }
}

Magyarázat

  • Category1 olyan lehetséges nyelvi jelenlétre utal, amely bizonyos helyzetekben szexuálisan explicitnek vagy felnőttnek tekinthető.
  • Category2 olyan nyelv lehetséges jelenlétét jelenti, amely bizonyos helyzetekben szexuálisan szuggesztívnak vagy érettnek tekinthető.
  • Category3 olyan lehetséges nyelvi jelenlétre utal, amely bizonyos helyzetekben sértőnek tekinthető.
  • Score értéke 0 és 1 között van. Minél magasabb a pontszám, annál magasabb a modell előrejelzése, hogy a kategória alkalmazható lehet. Ez a funkció nem manuálisan kódolt eredményekre, hanem statisztikai modellre támaszkodik. Javasoljuk, hogy saját tartalommal tesztelje, hogy az egyes kategóriák hogyan igazodjanak a követelményekhez.
  • ReviewRecommended a belső pontszám küszöbértékétől függően igaz vagy hamis. Az ügyfeleknek fel kell mérniük, hogy ezt az értéket használják-e, vagy a tartalomszabályzataik alapján egyéni küszöbértékek mellett döntenek.

Személyes adatok

A személyes adatok funkció észleli ezen információk lehetséges jelenlétét:

  • E-mail-cím
  • USA levelezési címe
  • IP-cím
  • USA-beli telefonszám

Az alábbi példa egy mintaválaszt mutat be:

"pii":{
  "email":[
      {
        "detected":"abcdef@abcd.com",
        "sub_type":"Regular",
        "text":"abcdef@abcd.com",
        "index":32
      }
  ],
  "ssn":[

  ],
  "ipa":[
      {
        "sub_type":"IPV4",
        "text":"255.255.255.255",
        "index":72
      }
  ],
  "phone":[
      {
        "country_code":"US",
        "text":"6657789887",
        "index":56
      }
  ],
  "address":[
      {
        "text":"1 Microsoft Way, Redmond, WA 98052",
        "index":89
      }
  ]
}

Automatikus javítás

A szövegmoderálási válasz opcionálisan visszaadhatja a szöveget alapszintű automatikus javítás alkalmazásával.

Az alábbi szöveg például hibásan ír.

A gyors barna róka a lusta kutya fölé ugrik.

Ha automatikus javítást ad meg, a válasz a szöveg javított verzióját tartalmazza:

A gyors barna róka a lusta kutya fölé ugrik.

Egyéni kifejezéslisták létrehozása és kezelése

Bár az alapértelmezett globális kifejezéslista a legtöbb esetben jól működik, érdemes lehet az üzleti igényeinek megfelelő kifejezéseket is megjeleníteni. Előfordulhat például, hogy ki szeretné szűrni a versenyben szereplő márkaneveket a felhasználók bejegyzéseiből.

Feljegyzés

A maximális korlát 5 kifejezéslista, amelyek egyenként nem haladhatják meg a 10 000 kifejezést.

Az alábbi példa a megfelelő listaazonosítót mutatja be:

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 231.
        "Term": "<offensive word>"
    }

A Content Moderator egy kifejezéslista API-t biztosít az egyéni kifejezéslisták kezeléséhez szükséges műveletekhez. Ha ismeri a Visual Studiót és a C#-t, tekintse meg a Kifejezéslisták .NET rövid útmutatót .

Következő lépések

Tesztelje az API-kat a rövid útmutatóval.