文本审查概述
使用计算机辅助内容审核时,可以根据策略和阈值阻止、批准或评审内容。 可用使用计算机辅助来增强对合作伙伴、员工和消费者生成文本内容的环境的人工审查。 这些位置包括:
- 聊天室
- 讨论板
- 聊天机器人
- 电子商务目录
- 文档
来自文本审查 API 的响应包括以下信息:
- 文本中找到的可能不希望使用的字词的列表。
- 找到的可能不需要的字词类型。
- 文本中可能找到的个人数据。
不雅内容
将文本传递给 API 时,它识别文本中任何可能不雅的字词并在 JSON 响应中返回。 JSON 响应中以 Term
的形式返回不雅字词,同时返回一个索引值,表明该字词在提供的文本中的位置。
还可以借助此 API 使用自定义字词列表。 在这种情况下,如果在文本中发现了不雅字词,它还会返回 ListId
以标识所用的自定义字词列表。 ListID
和 Term
组合可标识找到的特定自定义词。 示例 JSON 响应如下所示:
"Terms": [
{
"Index": 118,
"OriginalIndex": 118,
"ListId": 0,
"Term": "crap"
}
分类
API 的此功能可以根据以下规范将文本放入特定类别:
- 类别 1:可能存在在某些情况下被视为色情或成人性质的语言。
- 类别 2:可能存在某些情况下被视为性暗示或成人性质的语言。
- 类别 3:表示可能存在某些情况下被视为具有冒犯性的语言。
返回 JSON 响应时,它会为建议的文本审查提供布尔值。 如果为 true
,则应手动审查内容,以确定是否存在任何问题。
也为每个类别返回介于 0 到 1 之间的评分,表示评估的文本的预测类别。 评分越高,该类别适用的可能性越大。 下面是示例 JSON 响应:
"Classification": {
"ReviewRecommended": true,
"Category1": {
"Score": 0.99756889843889822
},
"Category2": {
"Score": 0.12747249007225037
},
"Category3": {
"Score": 0.98799997568130493
}
}
个人数据
个人数据在许多应用程序中都至关重要。 API 的此功能有助于在公开发布前检测文本中的任何值是否可能被视为个人数据。 检测到的主要方面包括:
- 电子邮件地址
- 美国邮寄地址
- IP 地址
- 美国电话号码
- 英国电话号码
- 社会安全号码
如果找到可能是个人数据的值,则 JSON 响应包括文本和文本中索引位置的相关信息。 示例 JSON 响应如下所示:
"PII": {
"Email": [{
"Detected": "abcdef@abcd.com",
"SubType": "Regular",
"Text": "abcdef@abcd.com",
"Index": 32
}],
"IPA": [{
"SubType": "IPV4",
"Text": "255.255.255.255",
"Index": 72
}],
"Phone": [{
"CountryCode": "US",
"Text": "5557789887",
"Index": 56
}, {
"CountryCode": "UK",
"Text": "+44 123 456 7890",
"Index": 208
}],
"Address": [{
"Text": "1 Microsoft Way, Redmond, WA 98052",
"Index": 89
}],
"SSN": [{
"Text": "999-99-9999",
"Index": 267
}]
}