Concepten voor tekstmoderatie

2025-06-12

Belangrijk

Azure Content Moderator is vanaf februari 2024 afgeschaft en wordt op 15 maart 2027 buiten gebruik gesteld. Het wordt vervangen door Azure AI Content Safety, dat geavanceerde AI-functies en verbeterde prestaties biedt.

Azure AI Content Safety is een uitgebreide oplossing die is ontworpen om schadelijke door de gebruiker gegenereerde en AI gegenereerde inhoud in toepassingen en services te detecteren. Azure AI Content Safety is geschikt voor veel scenario's, zoals online marketplaces, gamingbedrijven, platforms voor sociale berichten, zakelijke mediabedrijven en aanbieders van K-12-onderwijsoplossingen. Hier volgt een overzicht van de functies en mogelijkheden:

Api's voor tekst- en afbeeldingsdetectie: scan tekst en afbeeldingen op seksuele inhoud, geweld, haat en zelfbeschadiging met meerdere ernstniveaus.
Content Safety Studio: een online hulpmiddel dat is ontworpen om mogelijk aanstootgevende, riskante of ongewenste inhoud te verwerken met behulp van onze nieuwste ML-modellen voor contentmoderatie. Het biedt sjablonen en aangepaste werkstromen waarmee gebruikers hun eigen contentmoderatiesystemen kunnen bouwen.
Taalondersteuning: Azure AI Content Safety ondersteunt meer dan 100 talen en is specifiek getraind op Engels, Duits, Japans, Spaans, Frans, Italiaans, Portugees en Chinees.

Azure AI Content Safety biedt een robuuste en flexibele oplossing voor uw contentmoderatiebehoeften. Door over te schakelen van Content Moderator naar Azure AI Content Safety, kunt u profiteren van de nieuwste hulpprogramma's en technologieën om ervoor te zorgen dat uw inhoud altijd wordt gecontroleerd op uw exacte specificaties.

Meer informatie over Azure AI Content Safety en ontdek hoe dit uw strategie voor contentmoderatie kan verbeteren.

U kunt de tekstbeheermodellen van Azure Content Moderator gebruiken om tekstinhoud te analyseren, zoals chatruimten, discussieborden, chatbots, e-commercecatalogussen en documenten.

Het antwoord van de service bevat de volgende informatie:

Grof taalgebruik: termgebaseerde matching met ingebouwde lijst met scheldwoorden in verschillende talen
Classificatie: door machines ondersteunde classificatie in drie categorieën
Persoonlijke gegevens
Automatisch gecorrigeerde tekst
Oorspronkelijke tekst
Taal

Aanstootgevend taalgebruik

Als de API eventuele scheldwoorden in een van de ondersteunde talen detecteert, worden deze termen opgenomen in het antwoord. Het antwoord bevat ook de locatie (Index) in de oorspronkelijke tekst. De ListId in de volgende voorbeeld-JSON verwijst naar termen in aangepaste termenlijsten, indien beschikbaar.

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 0,
        "Term": "<offensive word>"
    }

Notitie

Voor de parameter kunt u language toewijzen of leeg laten om het machinale eng (preview-functie) te zien. Deze functie ondersteunt alleen Engels.

Voor de detectie van grof taalgebruik gebruikt u de ISO 639-3-code van de ondersteunde talen die in dit artikel worden vermeld of laat u deze leeg.

Classificatie

De functie voor door de machine ondersteunde tekstclassificatie van Content Moderator ondersteunt alleen Engels en helpt bij het detecteren van mogelijk ongewenste inhoud. De gemarkeerde inhoud kan worden beoordeeld als ongepast, afhankelijk van de context. Het geeft de waarschijnlijkheid van elke categorie weer. De functie gebruikt een getraind model om mogelijk beledigend, denigrerend of discriminerend taalgebruik te identificeren. Dit omvat jargon, afgekorte woorden, aanstootgevende woorden en opzettelijk verkeerd gespelde woorden.

Het volgende extract in het JSON-extract toont een voorbeelduitvoer:

"Classification": {
    "ReviewRecommended": true,
    "Category1": {
        "Score": 1.5113095059859916E-06
    },
    "Category2": {
        "Score": 0.12747249007225037
    },
    "Category3": {
        "Score": 0.98799997568130493
    }
}

Uitleg

Category1 verwijst naar de mogelijke aanwezigheid van taal die in bepaalde situaties als seksueel expliciet of volwassen kan worden beschouwd.
Category2 verwijst naar de mogelijke aanwezigheid van taal die in bepaalde situaties als seksueel suggestief of volwassen kan worden beschouwd.
Category3 verwijst naar de mogelijke aanwezigheid van taal die in bepaalde situaties als aanstootgevend kan worden beschouwd.
Score ligt tussen 0 en 1. Hoe hoger de score, hoe hoger de kans dat de categorie van toepassing is. Deze functie is afhankelijk van een statistisch model in plaats van handmatig gecodeerde resultaten. We raden u aan om te testen met uw eigen inhoud om te bepalen hoe elke categorie overeenkomt met uw vereisten.
ReviewRecommended is waar of onwaar, afhankelijk van de interne scoredrempels. Klanten moeten beoordelen of ze deze waarde moeten gebruiken of moeten beslissen over aangepaste drempelwaarden op basis van hun inhoudsbeleid.

Persoonlijke gegevens

De functie voor persoonlijke gegevens detecteert de mogelijke aanwezigheid van deze informatie:

E-mailadres
Amerikaans postadres
IP-adres
Amerikaans telefoonnummer

In het volgende voorbeeld ziet u een voorbeeldantwoord:

"pii":{
  "email":[
      {
        "detected":"abcdef@abcd.com",
        "sub_type":"Regular",
        "text":"abcdef@abcd.com",
        "index":32
      }
  ],
  "ssn":[

  ],
  "ipa":[
      {
        "sub_type":"IPV4",
        "text":"255.255.255.255",
        "index":72
      }
  ],
  "phone":[
      {
        "country_code":"US",
        "text":"6657789887",
        "index":56
      }
  ],
  "address":[
      {
        "text":"1 Microsoft Way, Redmond, WA 98052",
        "index":89
      }
  ]
}

Autocorrectie

Het antwoord op tekstbeheer kan desgewenst de tekst retourneren waarop standaard autocorrectie is toegepast.

De volgende invoertekst heeft bijvoorbeeld een spelfout.

De snelle bruine vos springt over de lazzy hond.

Als u autocorrectie opgeeft, bevat het antwoord de gecorrigeerde versie van de tekst:

De snelle bruine vos springt over de luie hond.

Uw aangepaste lijsten met termen maken en beheren

Hoewel de standaard, wereldwijde lijst met termen in de meeste situaties goed werkt, wilt u misschien filteren op termen die specifiek zijn voor uw bedrijfsbehoeften. U kunt bijvoorbeeld alle concurrerende merknamen uit berichten van gebruikers filteren.

Notitie

Er geldt een maximumlimiet van vijf termenlijsten waarbij elke lijst niet groter is dan 10.000 termen.

In het volgende voorbeeld ziet u de overeenkomende lijst-id:

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 231.
        "Term": "<offensive word>"
    }

Content Moderator biedt een API voor termenlijsten met bewerkingen voor het beheren van aangepaste termenlijsten. Bekijk de snelstartgids Termenlijsten .NET als u bekend bent met Visual Studio en C#.

Quickstart: De Content Moderator-clientbibliotheek gebruiken

Delen via