Общие сведения о модерации текста
При использовании автоматизированной модерации контента можно блокировать, утверждать или проверять содержимое на основе политик и порогов. Она дополняет пользовательскую модерацию сред, в которых партнеры, сотрудники и потребители создают текстовое содержимое. К таким средам относятся следующие:
- комнаты чатов;
- доски обсуждений;
- Чат-боты
- каталоги для электронной коммерции;
- Документы
Ответ от API модерации текста содержит следующие данные:
- список потенциально нежелательных слов, обнаруженных в тексте;
- типы обнаруженных потенциально нежелательных слов;
- Возможные персональные данные, найденные в тексте.
Ненормативная лексика
При передаче текста в этот API все потенциально ненормативные слова в тексте обнаруживаются и возвращаются в ответе JSON. Ненормативное слово возвращается как Term
в ответе JSON вместе с индексом расположения слова в тексте.
С этим API можно также использовать пользовательские списки терминов. В этом случае, если в тексте определен ненормативный термин, ListId
он также возвращается для идентификации пользовательского списка терминов, который использовался. Сочетание и Term
определение определенного пользовательского ListID
слова, найденного. Пример ответа JSON:
"Terms": [
{
"Index": 118,
"OriginalIndex": 118,
"ListId": 0,
"Term": "crap"
}
Классификация
Эта функция API может разделять тексты по следующим категориям:
- Категория 1. Потенциальное присутствие языка, которое может считаться сексуально явным или взрослым в определенных ситуациях.
- Категория 2. Потенциальное присутствие языка, которое может рассматриваться сексуально рекомендуемым или зрелым в определенных ситуациях.
- Категория 3. Потенциальное присутствие языка, которое может считаться оскорбительным в определенных ситуациях.
В ответе JSON содержится логическое значение, указывающее, рекомендуется ли проверка текста. Если возвращено значение true
, следует просмотреть контент, чтобы самостоятельно определить наличие проблем.
Каждая категория возвращается с индексом от 0 до 1, который указывает предположительно наиболее подходящую категорию для оцениваемого текста. Чем выше оценка, тем больше вероятность того, что данная категория подходит. Вот пример ответа в формате JSON:
"Classification": {
"ReviewRecommended": true,
"Category1": {
"Score": 0.99756889843889822
},
"Category2": {
"Score": 0.12747249007225037
},
"Category3": {
"Score": 0.98799997568130493
}
}
Личные данные
Персональные данные имеют решающее значение во многих приложениях. Эта функция API помогает определить, могут ли какие-либо значения в тексте считаться личными данными, прежде чем вы ее выпустите публично. Проверяется наличие следующих элементов:
- Адреса электронной почты
- почтовые адреса в США;
- IP-адреса
- номера телефонов в США;
- номера телефонов в Великобритании;
- Номер социального страхования
Если возможные значения персональных данных найдены, ответ JSON содержит соответствующие сведения о тексте и расположении индекса в тексте. Пример ответа JSON:
"PII": {
"Email": [{
"Detected": "abcdef@abcd.com",
"SubType": "Regular",
"Text": "abcdef@abcd.com",
"Index": 32
}],
"IPA": [{
"SubType": "IPV4",
"Text": "255.255.255.255",
"Index": 72
}],
"Phone": [{
"CountryCode": "US",
"Text": "5557789887",
"Index": 56
}, {
"CountryCode": "UK",
"Text": "+44 123 456 7890",
"Index": 208
}],
"Address": [{
"Text": "1 Microsoft Way, Redmond, WA 98052",
"Index": 89
}],
"SSN": [{
"Text": "999-99-9999",
"Index": 267
}]
}