Szövegmoderálási fogalmak megismerése
A Content Moderator szövegmoderálási modelljeinek használatával elemezheti a szöveges tartalmakat, például csevegőszobákat, vitafórumokat, csevegőrobotokat, e-kereskedelmi katalógusokat és dokumentumokat.
A szolgáltatástól érkező válaszban az alábbi információk szerepelnek:
- Trágárság: kifejezésalapú egyeztetés a különböző nyelveken található profán kifejezések beépített listájával
- Besorolás: gépi támogatású besorolás három kategóriába
- Személyes adatok
- Automatikusan javított szöveg
- Eredeti szöveg
- Nyelv
Trágár kifejezések
Ha az API bármilyen trágár kifejezést észlel a támogatott nyelvek bármelyikében, ezek a kifejezések szerepelnek a válaszban. A válasz az eredeti szövegben is tartalmazza a helyüket (Index
). Az ListId
alábbi JSON-minta az egyéni kifejezéslistákban található kifejezésekre hivatkozik, ha vannak ilyenek.
"Terms": [
{
"Index": 118,
"OriginalIndex": 118,
"ListId": 0,
"Term": "<offensive word>"
}
Feljegyzés
A nyelvi paraméterhez rendelje hozzá eng
vagy hagyja üresen a gép által támogatott besorolási válasz megtekintéséhez (előzetes verziójú funkció). Ez a funkció csak az angol nyelvet támogatja.
A trágár kifejezések észleléséhez használja a cikkben felsorolt támogatott nyelvek ISO 639-3 kódját, vagy hagyja üresen.
Osztályozás
A Content Moderator géppel támogatott szövegbesorolási funkciója csak az angol nyelvet támogatja, és segít észlelni a potenciálisan nem kívánt tartalmakat. A megjelölt tartalom a környezettől függően nem megfelelőnek tekinthető. Ez közvetíti az egyes kategóriák valószínűségét. A funkció egy betanított modellt használ a lehetséges sértő, gyalázkodó vagy diszkriminatív nyelvek azonosítására. Ez magában foglalja a szlenget, a rövidített szavakat, a sértő és a szándékosan hibásan írt szavakat.
A JSON-kivonat következő kivonata egy példakimenetet mutat be:
"Classification": {
"ReviewRecommended": true,
"Category1": {
"Score": 1.5113095059859916E-06
},
"Category2": {
"Score": 0.12747249007225037
},
"Category3": {
"Score": 0.98799997568130493
}
}
Magyarázat
Category1
olyan lehetséges nyelvi jelenlétre utal, amely bizonyos helyzetekben szexuálisan explicitnek vagy felnőttnek tekinthető.Category2
olyan nyelv lehetséges jelenlétét jelenti, amely bizonyos helyzetekben szexuálisan szuggesztívnak vagy érettnek tekinthető.Category3
olyan lehetséges nyelvi jelenlétre utal, amely bizonyos helyzetekben sértőnek tekinthető.Score
értéke 0 és 1 között van. Minél magasabb a pontszám, annál magasabb a modell előrejelzése, hogy a kategória alkalmazható lehet. Ez a funkció nem manuálisan kódolt eredményekre, hanem statisztikai modellre támaszkodik. Javasoljuk, hogy saját tartalommal tesztelje, hogy az egyes kategóriák hogyan igazodjanak a követelményekhez.ReviewRecommended
a belső pontszám küszöbértékétől függően igaz vagy hamis. Az ügyfeleknek fel kell mérniük, hogy ezt az értéket használják-e, vagy a tartalomszabályzataik alapján egyéni küszöbértékek mellett döntenek.
Személyes adatok
A személyes adatok funkció észleli ezen információk lehetséges jelenlétét:
- E-mail-cím
- USA levelezési címe
- IP-cím
- USA-beli telefonszám
Az alábbi példa egy mintaválaszt mutat be:
"pii":{
"email":[
{
"detected":"abcdef@abcd.com",
"sub_type":"Regular",
"text":"abcdef@abcd.com",
"index":32
}
],
"ssn":[
],
"ipa":[
{
"sub_type":"IPV4",
"text":"255.255.255.255",
"index":72
}
],
"phone":[
{
"country_code":"US",
"text":"6657789887",
"index":56
}
],
"address":[
{
"text":"1 Microsoft Way, Redmond, WA 98052",
"index":89
}
]
}
Automatikus javítás
A szövegmoderálási válasz opcionálisan visszaadhatja a szöveget alapszintű automatikus javítás alkalmazásával.
Az alábbi szöveg például hibásan ír.
A gyors barna róka a lusta kutya fölé ugrik.
Ha automatikus javítást ad meg, a válasz a szöveg javított verzióját tartalmazza:
A gyors barna róka a lusta kutya fölé ugrik.
Egyéni kifejezéslisták létrehozása és kezelése
Bár az alapértelmezett globális kifejezéslista a legtöbb esetben jól működik, érdemes lehet az üzleti igényeinek megfelelő kifejezéseket is megjeleníteni. Előfordulhat például, hogy ki szeretné szűrni a versenyben szereplő márkaneveket a felhasználók bejegyzéseiből.
Feljegyzés
A maximális korlát 5 kifejezéslista, amelyek egyenként nem haladhatják meg a 10 000 kifejezést.
Az alábbi példa a megfelelő listaazonosítót mutatja be:
"Terms": [
{
"Index": 118,
"OriginalIndex": 118,
"ListId": 231.
"Term": "<offensive word>"
}
A Content Moderator egy kifejezéslista API-t biztosít az egyéni kifejezéslisták kezeléséhez szükséges műveletekhez. Ha ismeri a Visual Studiót és a C#-t, tekintse meg a Kifejezéslisták .NET rövid útmutatót .
Következő lépések
Tesztelje az API-kat a rövid útmutatóval.