Общие сведения о модерации текста

Завершено

При использовании автоматизированной модерации контента можно блокировать, утверждать или проверять содержимое на основе политик и порогов. Она дополняет пользовательскую модерацию сред, в которых партнеры, сотрудники и потребители создают текстовое содержимое. К таким средам относятся следующие:

  • комнаты чатов;
  • доски обсуждений;
  • Чат-боты
  • каталоги для электронной коммерции;
  • Документы

Ответ от API модерации текста содержит следующие данные:

  • список потенциально нежелательных слов, обнаруженных в тексте;
  • типы обнаруженных потенциально нежелательных слов;
  • Возможные персональные данные, найденные в тексте.

Ненормативная лексика

При передаче текста в этот API все потенциально ненормативные слова в тексте обнаруживаются и возвращаются в ответе JSON. Ненормативное слово возвращается как Term в ответе JSON вместе с индексом расположения слова в тексте.

С этим API можно также использовать пользовательские списки терминов. В этом случае, если в тексте определен ненормативный термин, ListId он также возвращается для идентификации пользовательского списка терминов, который использовался. Сочетание и Termопределение определенного пользовательского ListID слова, найденного. Пример ответа JSON:

"Terms": [
{
    "Index": 118,
    "OriginalIndex": 118,
    "ListId": 0,
    "Term": "crap"
}

Классификация

Эта функция API может разделять тексты по следующим категориям:

  • Категория 1. Потенциальное присутствие языка, которое может считаться сексуально явным или взрослым в определенных ситуациях.
  • Категория 2. Потенциальное присутствие языка, которое может рассматриваться сексуально рекомендуемым или зрелым в определенных ситуациях.
  • Категория 3. Потенциальное присутствие языка, которое может считаться оскорбительным в определенных ситуациях.

В ответе JSON содержится логическое значение, указывающее, рекомендуется ли проверка текста. Если возвращено значение true, следует просмотреть контент, чтобы самостоятельно определить наличие проблем.

Каждая категория возвращается с индексом от 0 до 1, который указывает предположительно наиболее подходящую категорию для оцениваемого текста. Чем выше оценка, тем больше вероятность того, что данная категория подходит. Вот пример ответа в формате JSON:

"Classification": {
    "ReviewRecommended": true,
    "Category1": {
        "Score": 0.99756889843889822
        },
    "Category2": {
        "Score": 0.12747249007225037
        },
    "Category3": {
        "Score": 0.98799997568130493
    }
}

Личные данные

Персональные данные имеют решающее значение во многих приложениях. Эта функция API помогает определить, могут ли какие-либо значения в тексте считаться личными данными, прежде чем вы ее выпустите публично. Проверяется наличие следующих элементов:

  • Адреса электронной почты
  • почтовые адреса в США;
  • IP-адреса
  • номера телефонов в США;
  • номера телефонов в Великобритании;
  • Номер социального страхования

Если возможные значения персональных данных найдены, ответ JSON содержит соответствующие сведения о тексте и расположении индекса в тексте. Пример ответа JSON:

"PII": {
    "Email": [{
        "Detected": "abcdef@abcd.com",
        "SubType": "Regular",
        "Text": "abcdef@abcd.com",
        "Index": 32
        }],
    "IPA": [{
        "SubType": "IPV4",
        "Text": "255.255.255.255",
        "Index": 72
        }],
    "Phone": [{
        "CountryCode": "US",
        "Text": "5557789887",
        "Index": 56
        }, {
        "CountryCode": "UK",
        "Text": "+44 123 456 7890",
        "Index": 208
        }],
    "Address": [{
        "Text": "1 Microsoft Way, Redmond, WA 98052",
        "Index": 89
        }],
    "SSN": [{
        "Text": "999-99-9999",
        "Index": 267
        }]
    }