Concepten voor tekstbeheer leren
Gebruik de tekstbeheermodellen van Content Moderator om tekstinhoud te analyseren, zoals chatruimten, discussieborden, chatbots, e-commercecatalogussen en documenten.
Het antwoord van de service bevat de volgende informatie:
- Grof taalgebruik: termgebaseerd overeenkomen met ingebouwde lijst met grof taalgebruik in verschillende talen
- Classificatie: door machines ondersteunde classificatie in drie categorieën
- Persoonlijke gegevens
- Automatisch gecorrigeerde tekst
- Original text
- Taal
Aanstootgevend taalgebruik
Als de API eventuele scheldwoorden in een van de ondersteunde talen detecteert, worden deze termen opgenomen in het antwoord. Het antwoord bevat ook de locatie (Index
) in de oorspronkelijke tekst. De ListId
in de volgende voorbeeld-JSON verwijst naar termen in aangepaste termenlijsten, indien beschikbaar.
"Terms": [
{
"Index": 118,
"OriginalIndex": 118,
"ListId": 0,
"Term": "<offensive word>"
}
Notitie
Voor de taalparameter wijst u deze toe eng
of laat u deze leeg om het antwoord op de door de machine ondersteunde classificatie (preview-functie) te zien. Deze functie ondersteunt alleen Engels.
Voor de detectie van grof taalgebruik gebruikt u de ISO 639-3-code van de ondersteunde talen die in dit artikel worden vermeld of laat u deze leeg.
Classificatie
De functie voor door de machine ondersteunde tekstclassificatie van Content Moderator ondersteunt alleen Engels en helpt bij het detecteren van mogelijk ongewenste inhoud. De gemarkeerde inhoud kan worden beoordeeld als ongepast, afhankelijk van de context. Het geeft de waarschijnlijkheid van elke categorie weer. De functie maakt gebruik van een getraind model om mogelijke beledigende, afwijkende of discriminerende taal te identificeren. Dit omvat jargon, afgekorte woorden, aanstootgevende woorden en opzettelijk verkeerd gespelde woorden.
Het volgende extract in het JSON-extract toont een voorbeelduitvoer:
"Classification": {
"ReviewRecommended": true,
"Category1": {
"Score": 1.5113095059859916E-06
},
"Category2": {
"Score": 0.12747249007225037
},
"Category3": {
"Score": 0.98799997568130493
}
}
Uitleg
Category1
verwijst naar mogelijke aanwezigheid van taal die in bepaalde situaties als seksueel expliciet of volwassen kan worden beschouwd.Category2
verwijst naar mogelijke aanwezigheid van taal die in bepaalde situaties als seksueel suggestief of volwassen kan worden beschouwd.Category3
verwijst naar mogelijke aanwezigheid van taal die in bepaalde situaties als aanstootgevend kan worden beschouwd.Score
ligt tussen 0 en 1. Hoe hoger de score, hoe hoger het model voorspelt dat de categorie van toepassing kan zijn. Deze functie is afhankelijk van een statistisch model in plaats van handmatig gecodeerde resultaten. We raden u aan om te testen met uw eigen inhoud om te bepalen hoe elke categorie overeenkomt met uw vereisten.ReviewRecommended
is waar of onwaar, afhankelijk van de interne scoredrempels. Klanten moeten beoordelen of ze deze waarde moeten gebruiken of moeten beslissen over aangepaste drempelwaarden op basis van hun inhoudsbeleid.
Persoonlijke gegevens
De functie voor persoonlijke gegevens detecteert de mogelijke aanwezigheid van deze informatie:
- E-mailadres
- Us mailing address
- IP-adres
- Amerikaans telefoonnummer
In het volgende voorbeeld ziet u een voorbeeldantwoord:
"pii":{
"email":[
{
"detected":"abcdef@abcd.com",
"sub_type":"Regular",
"text":"abcdef@abcd.com",
"index":32
}
],
"ssn":[
],
"ipa":[
{
"sub_type":"IPV4",
"text":"255.255.255.255",
"index":72
}
],
"phone":[
{
"country_code":"US",
"text":"6657789887",
"index":56
}
],
"address":[
{
"text":"1 Microsoft Way, Redmond, WA 98052",
"index":89
}
]
}
Automatische correctie
Het antwoord op tekstbeheer kan desgewenst de tekst retourneren waarbij er een eenvoudige automatische correctie is toegepast.
De volgende invoertekst heeft bijvoorbeeld een spelfout.
De snelle bruine vos springt over de lazzy hond.
Als u automatische correctie opgeeft, bevat het antwoord de gecorrigeerde versie van de tekst:
De snelle bruine vos springt over de luie hond.
Uw aangepaste lijsten met termen maken en beheren
Hoewel de standaardlijst met algemene termen goed werkt voor de meeste gevallen, kunt u het beste scherm maken met termen die specifiek zijn voor uw bedrijfsbehoeften. U kunt bijvoorbeeld alle concurrerende merknamen uit berichten van gebruikers filteren.
Notitie
Er is een maximumlimiet van 5 terminologielijsten waarbij elke lijst niet meer dan 10.000 termen mag bevatten.
In het volgende voorbeeld ziet u de overeenkomende lijst-id:
"Terms": [
{
"Index": 118,
"OriginalIndex": 118,
"ListId": 231.
"Term": "<offensive word>"
}
Content Moderator biedt een API voor termenlijsten met bewerkingen voor het beheren van aangepaste termenlijsten. Bekijk de snelstartgids Termenlijsten .NET als u bekend bent met Visual Studio en C#.
Volgende stappen
Test de API's met de quickstart.