你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Azure AI 内容安全是一项 AI 服务,旨在检测应用程序和服务中用户生成和 AI 生成的有害内容。 Azure AI 内容安全包括允许检测和防止有害内容的输出的 API。 交互式内容安全 试用Azure AI Foundry 门户中 的页面允许查看、浏览和试用用于检测不同形式有害内容的示例代码。
特点
可针对以下方案使用 Azure AI 内容安全:
文本内容:
- 审查文本内容:此功能会扫描和审查文本内容,根据不同级别的严重性识别和分类文本内容,以确保做出适当的回应。
- 有据性检测:该过滤器可确定 AI 的回答是否基于可信的、用户提供的来源,从而确保回答“有据可循”。 有据性检测有助于提高响应的可靠性和事实准确性。
- 文本的受保护材料检测:此功能会标识受保护的文本材料,如已知的歌曲歌词、文章或其他内容,确保 AI 未经许可不会输出此内容。
- 代码的受保护材料检测:检测模型输出中与公共存储库中的已知代码匹配的代码段,有助于防止未经授权或未经授权复制源代码。
- 提示防护:此功能提供统一 API 来解决“越狱”和“间接攻击”:
- 越狱攻击:用户试图操纵 AI 绕过其安全协议或道德准则。 例如,设计一些提示,诱使 AI 做出不恰当的反应,或执行其程序设计为避免执行的任务。
- 间接攻击:也称为跨域提示注入攻击,间接攻击涉及在 AI 可能处理的文档中嵌入恶意提示。 例如,如果文档包含隐藏的说明,AI 可能会无意中遵循它们,从而导致意外或不安全的输出。
图像内容:
- 审查图像内容:类似于文本审查,此功能会筛选和评估图像内容,以检测不适当的或有害的视觉对象。
- 审查多模式内容:用于处理文本和图像的组合、评估整个上下文,以及多种类型的内容中的任何潜在风险。
自定义自己的类别:
- 自定义类别:允许用户定义特定类别以审查和筛选内容,根据独特的需求定制安全协议。
- 安全系统消息:提供一种设置“系统消息”的方法,用于指示 AI 的所需行为和限制,强化安全边界并帮助防止不需要的输出。
了解危害类别
伤害类别
类别 | DESCRIPTION | API 术语 |
---|---|---|
仇恨和公平性 | 仇恨和公平伤害是指任何基于个人或身份群体的某些区别性属性攻击或使用歧视性语言的内容。 这包括但不限于:
|
Hate |
性 | 性指的是与以下方面相关的语言:解剖器官和生殖器、恋爱关系与性行为、以色情或情爱用语描述的行为(包括被描述为侵犯或违背个人意愿的强迫性暴力行为的情况)。 这包括但不限于:
|
Sexual |
暴力 | 暴力描述与旨在伤害、伤害、损害或杀害某人或某种行为的物理行为相关的语言:描述武器、枪支和相关实体。 这包括但不限于:
|
Violence |
自残 | 自残指的是与故意伤害、损伤、损害某人身体或自杀的身体行为相关的语言。 这包括但不限于:
|
SelfHarm |
严重性级别
级别 | DESCRIPTION |
---|---|
安全 | 内容可能与暴力、自残、性或仇恨类别相关。 然而,这些术语用于综合性、新闻、科学、医学和类似专业背景,适合大多数受众。 |
低 | 表达偏见性、评判性或固执己见的观点的内容,包括冒犯性的语言使用、刻板印象、探索虚构世界(例如游戏、文学)的用例以及低强度的描述。 |
中等 | 对特定身份群体使用冒犯性、侮辱性、嘲讽性、恐吓性或贬低性语言的内容,包括中等强度的有关寻找和执行伤害性说明以及对伤害行为进行幻想、美化和宣传的描述。 |
高 | 显示露骨且严重的伤害性说明和行为、损害或滥用的内容;包括支持、美化或宣传严重的伤害性行为、极端或非法形式的伤害、激进化或非自愿的权力交换或滥用。 |
局限性
有关所有功能的受支持区域、速率限制和输入要求,请参阅内容安全概述。 有关支持的语言,请参阅语言支持页。
后续步骤
请按照操作指南开始在 Azure AI Foundry 门户中使用 Azure AI 内容安全。