Seznámení s koncepty moderování textu

Článek
01/18/2024

Modely moderování textu v Content Moderatoru můžete použít k analýze textového obsahu, jako jsou chatovací místnosti, diskuzní panely, chatboti, katalogy elektronického obchodování a dokumenty.

Odpověď služby zahrnuje následující informace:

Vulgární výrazy: párování na základě termínů s integrovaným seznamem vulgárních výrazů v různých jazycích
Klasifikace: klasifikace s asistencí do tří kategorií
Osobní údaje
Automaticky opravený text
Původní text
Jazyk

Vulgární výrazy

Pokud rozhraní API rozpozná v některém z podporovaných jazyků nějaké vulgární výrazy, budou tyto termíny součástí odpovědi. Odpověď také obsahuje jejich umístění (Index) v původním textu. V ListId následujícím ukázkovém kódu JSON odkazuje na termíny nalezené v seznamech vlastních termínů , pokud jsou k dispozici.

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 0,
        "Term": "<offensive word>"
    }

Poznámka

Pro parametr jazyka přiřaďte eng nebo nechte prázdný, aby se zobrazila odpověď na klasifikaci s asistencí počítače (funkce Preview). Tato funkce podporuje pouze angličtinu.

Pokud chcete detekovat vulgární výrazy , použijte kód ISO 639-3 podporovaných jazyků uvedených v tomto článku nebo ho nechte prázdný.

Klasifikace

Funkce strojové klasifikace textu v Content Moderatoru podporuje pouze angličtinu a pomáhá detekovat potenciálně nežádoucí obsah. Obsah s příznakem může být v závislosti na kontextu vyhodnocen jako nevhodný. Vyjadřuje pravděpodobnost každé kategorie. Funkce používá trénovaný model k identifikaci možných urážlivých, urážlivých nebo diskriminovaných jazyků. To zahrnuje slangová slova, zkrácená slova, urážlivá a záměrně chybně napsaná slova.

Následující extrakce v extraktu JSON ukazuje příklad výstupu:

"Classification": {
    "ReviewRecommended": true,
    "Category1": {
        "Score": 1.5113095059859916E-06
    },
    "Category2": {
        "Score": 0.12747249007225037
    },
    "Category3": {
        "Score": 0.98799997568130493
    }
}

Vysvětlení

Category1 označuje potenciální přítomnost jazyka, který může být v určitých situacích považován za sexuálně explicitní nebo pro dospělé.
Category2 označuje potenciální přítomnost jazyka, který může být v určitých situacích považován za sexuálně sugestivní nebo zralý.
Category3 označuje potenciální přítomnost jazyka, který může být v určitých situacích považován za urážlivý.
Score je mezi 0 a 1. Čím vyšší skóre, tím vyšší model predikuje, že kategorie může být použitelná. Tato funkce spoléhá na statistický model, nikoli na ručně kódované výsledky. Doporučujeme testovat s vlastním obsahem, abyste zjistili, jak jednotlivé kategorie odpovídají vašim požadavkům.
ReviewRecommended v závislosti na prahových hodnotách interního skóre je hodnota true nebo false. Zákazníci by měli posoudit, jestli mají tuto hodnotu použít, nebo se rozhodnout pro vlastní prahové hodnoty na základě svých zásad obsahu.

Osobní údaje

Funkce osobních údajů detekuje potenciální přítomnost těchto informací:

E-mailová adresa
Poštovní adresa v USA
IP adresa
Telefonní číslo v USA

Následující příklad ukazuje ukázkovou odpověď:

"pii":{
  "email":[
      {
        "detected":"abcdef@abcd.com",
        "sub_type":"Regular",
        "text":"abcdef@abcd.com",
        "index":32
      }
  ],
  "ssn":[

  ],
  "ipa":[
      {
        "sub_type":"IPV4",
        "text":"255.255.255.255",
        "index":72
      }
  ],
  "phone":[
      {
        "country_code":"US",
        "text":"6657789887",
        "index":56
      }
  ],
  "address":[
      {
        "text":"1 Microsoft Way, Redmond, WA 98052",
        "index":89
      }
  ]
}

Automatická oprava

Odpověď na moderování textu může volitelně vrátit text se základní automatickou opravou.

Například následující vstupní text má chybně napsaný.

Rychlá hnědá liška přeskočí přes lazzyho psa.

Pokud zadáte automatickou opravu, bude odpověď obsahovat opravenou verzi textu:

Rychlá hnědá liška přeskočí přes líný pes.

Vytváření a správa vlastních seznamů termínů

I když výchozí globální seznam termínů funguje ve většině případů skvěle, možná budete chtít promítat termíny, které jsou specifické pro vaše obchodní potřeby. Můžete například chtít vyfiltrovat názvy konkurenčních značek z příspěvků uživatelů.

Poznámka

Limit je maximálně 5 seznamů výrazů a v každém seznamu může být maximálně 10 000 výrazů.

Následující příklad ukazuje odpovídající ID seznamu:

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 231.
        "Term": "<offensive word>"
    }

Content Moderator poskytuje rozhraní API pro seznam termínů s operacemi pro správu vlastních seznamů termínů. Začněte konzolou rozhraní API pro seznamy termínů a použijte ukázky kódu rozhraní REST API. Pokud jste obeznámeni se sadou Visual Studio a C#, podívejte se také na rychlý start k seznamům termínů .NET .

Další kroky

Otestujte rozhraní API pomocí konzoly rozhraní API pro moderování textu.