Meer informatie over concepten voor tekstbeheer

Artikel
01/18/2024

Gebruik de tekstbeheermodellen van Content Moderator om tekstinhoud te analyseren, zoals chatruimten, discussieborden, chatbots, e-commerce-catalogi en documenten.

Het antwoord van de service bevat de volgende informatie:

Scheldwoorden: op termen gebaseerd vergelijken met een ingebouwde lijst met scheldwoorden in verschillende talen
Classificatie: machineondersteunde classificatie in drie categorieën
Persoonsgegevens
Automatisch gecorrigeerde tekst
Oorspronkelijke tekst
Taal

Aanstootgevend taalgebruik

Als de API grove termen in een van de ondersteunde talen detecteert, worden deze termen opgenomen in het antwoord. Het antwoord bevat ook de locatie (Index) in de oorspronkelijke tekst. De ListId in de volgende voorbeeld-JSON verwijst naar termen in aangepaste termenlijsten , indien beschikbaar.

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 0,
        "Term": "<offensive word>"
    }

Notitie

Voor de taalparameter wijst u deze toe eng of laat u deze leeg om het antwoord van de machineondersteunde classificatie te zien (preview-functie). Deze functie ondersteunt alleen Engels.

Voor de detectie van scheldwoorden gebruikt u de ISO 639-3-code van de ondersteunde talen die in dit artikel worden vermeld, of laat u deze leeg.

Classificatie

De functie voor machineondersteunde tekstclassificatie van Content Moderator ondersteunt alleen Engels en helpt bij het detecteren van mogelijk ongewenste inhoud. De gemarkeerde inhoud kan worden beoordeeld als ongepast, afhankelijk van de context. Het geeft de waarschijnlijkheid van elke categorie weer. De functie maakt gebruik van een getraind model om mogelijk beledigend, denigrerend of discriminerend taalgebruik te identificeren. Dit omvat jargon, verkorte woorden, aanstootgevende en opzettelijk verkeerd gespelde woorden.

In het volgende fragment in het JSON-extract ziet u een voorbeelduitvoer:

"Classification": {
    "ReviewRecommended": true,
    "Category1": {
        "Score": 1.5113095059859916E-06
    },
    "Category2": {
        "Score": 0.12747249007225037
    },
    "Category3": {
        "Score": 0.98799997568130493
    }
}

Uitleg

Category1 verwijst naar de mogelijke aanwezigheid van taal die in bepaalde situaties als seksueel expliciet of volwassen kan worden beschouwd.
Category2 verwijst naar de mogelijke aanwezigheid van taal die in bepaalde situaties als seksueel suggestief of volwassen kan worden beschouwd.
Category3 verwijst naar mogelijke aanwezigheid van taal die in bepaalde situaties als aanstootgevend kan worden beschouwd.
Score ligt tussen 0 en 1. Hoe hoger de score, hoe hoger het model voorspelt dat de categorie van toepassing kan zijn. Deze functie is afhankelijk van een statistisch model in plaats van handmatig gecodeerde resultaten. We raden u aan om te testen met uw eigen inhoud om te bepalen hoe elke categorie overeenkomt met uw vereisten.
ReviewRecommended is waar of onwaar, afhankelijk van de interne scoredrempels. Klanten moeten beoordelen of ze deze waarde willen gebruiken of moeten beslissen over aangepaste drempelwaarden op basis van hun inhoudsbeleid.

Persoonsgegevens

De functie persoonsgegevens detecteert de mogelijke aanwezigheid van deze informatie:

E-mailadres
Postadres in de VS
IP-adres
Amerikaans telefoonnummer

In het volgende voorbeeld ziet u een voorbeeldantwoord:

"pii":{
  "email":[
      {
        "detected":"abcdef@abcd.com",
        "sub_type":"Regular",
        "text":"abcdef@abcd.com",
        "index":32
      }
  ],
  "ssn":[

  ],
  "ipa":[
      {
        "sub_type":"IPV4",
        "text":"255.255.255.255",
        "index":72
      }
  ],
  "phone":[
      {
        "country_code":"US",
        "text":"6657789887",
        "index":56
      }
  ],
  "address":[
      {
        "text":"1 Microsoft Way, Redmond, WA 98052",
        "index":89
      }
  ]
}

Automatische correctie

Het teksttoezichtantwoord kan desgewenst de tekst retourneren waarop de standaard automatische correctie is toegepast.

De volgende invoertekst heeft bijvoorbeeld een spelfout.

De snelle bruine vos springt over de lazzy hond.

Als u automatische correctie opgeeft, bevat het antwoord de gecorrigeerde versie van de tekst:

De snelle bruine vos springt over de luie hond.

Aangepaste lijsten met termen maken en beheren

Hoewel de standaard algemene lijst met termen in de meeste gevallen prima werkt, wilt u mogelijk screenen op termen die specifiek zijn voor uw zakelijke behoeften. U kunt bijvoorbeeld concurrerende merknamen uit berichten van gebruikers filteren.

Notitie

Er is een maximumlimiet van 5 terminologielijsten waarbij elke lijst niet meer dan 10.000 termen mag bevatten.

In het volgende voorbeeld ziet u de overeenkomende lijst-id:

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 231.
        "Term": "<offensive word>"
    }

Content Moderator biedt een API voor termenlijsten met bewerkingen voor het beheren van aangepaste termenlijsten. Begin met de API-console voor termenlijsten en gebruik de REST API-codevoorbeelden. Bekijk ook de snelstart voor termenlijsten .NET als u bekend bent met Visual Studio en C#.

Volgende stappen

Test de API's met de console tekstbeheer-API.