你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
如何使用 Azure OpenAI 服务配置内容筛选器
集成到 Azure OpenAI 服务的内容筛选系统与核心模型一起运行,包括 DALL-E 映像生成模型。 它使用一组多类分类模型来检测四类有害内容(暴力、仇恨、性和自残),分别为四个严重级别(安全、低、中和高),并使用可选的二元分类器来检测越狱风险、现有文本和公共存储库中的代码。 默认内容筛选配置设置为在提示和完成的所有四个内容危害类别的中等严重性阈值下进行筛选。 这表示检测到的严重性级别为中或高的内容将被筛选,而检测到的严格性级别为低或安全的内容不会被内容筛选器筛选。 在此处了解有关内容类别、严重性级别和内容筛选系统行为的详细信息。 越狱风险检测以及受保护文本和代码模型是可选的,默认情况下处于关闭状态。 对于越狱和受保护材料文本和代码模型,可配置性功能允许所有客户打开和关闭模型。 这些模型默认处于关闭状态,可以根据情况打开。 某些模型需要在某些情况下打开才能保留客户版权承诺项下的覆盖范围。
注意
所有客户都可以修改内容筛选器并配置严重性阈值(低、中、高)。 需要批准才能部分或完全关闭内容筛选器。 托管客户只能通过此表格申请完整的内容筛选控制:Azure OpenAI 受限访问评审:修改的内容筛选器。 目前,无法成为托管客户。
可以在资源级别配置内容筛选器。 创建了新配置后,就可以将其与一个或多个部署相关联。 有关模型部署的详细信息,请参阅资源部署指南。
先决条件
- 必须具有 Azure OpenAI 资源和大型语言模型 (LLM) 部署才能配置内容筛选器。 按快速入门的说明开始操作。
了解内容筛选器的可配置性
Azure OpenAI 服务包括应用于所有模型的默认安全设置,但不包括 Azure OpenAI Whisper。 这些配置默认提供负责任的体验,包括内容筛选模型、阻止列表、提示转换和内容凭据等。 在此处了解详细信息。
所有客户还可以配置内容筛选器,并创建根据用例要求定制的自定义安全策略。 可配置性功能让客户可以分别调整提示和完成设置,以便按不同的严重性级别筛选每个内容类别的内容,如下表所示。 检测到的“安全”严重级别内容在注释中进行了标记,但不受筛选,也不可配置。
已筛选严重性 | 针对提示可配置 | 针对补全可配置 | 说明 |
---|---|---|---|
低、中、高 | 是 | 是 | 最严格的筛选配置。 检测到的严重性级别为低、中和高的内容将被筛选。 |
中、高 | 是 | 是 | 检测到的严重性级别为低的内容不会被筛选,中和高的内容会被筛选。 |
高 | 是 | 是 | 检测到的严重性级别为低和中的内容不会被筛选。 仅筛选严重性级别为高的内容。 |
无筛选器 | 如果已批准1 | 如果已批准1 | 无论检测到的严重性级别如何,都不会筛选任何内容。 需要批准1。 |
仅批注 | 如果已批准1 | 如果已批准1 | 禁用筛选功能,因此不会阻止内容,而是通过 API 响应返回批注。 需要批准1。 |
1 对于 Azure OpenAI 模型,只有已批准修改内容筛选的客户才具有完整的内容筛选控制,并且可关闭内容筛选器。 通过此表单申请已修改的内容筛选器:Azure OpenAI 受限访问评审:已修改的内容筛选器。对于 Azure 政府客户,请通过此表单申请已修改的内容筛选器:Azure 政府 - 请求 Azure OpenAI 服务的已修改内容筛选。
输入(提示)和输出(完成)的可配置内容筛选器可用于以下 Azure OpenAI 模型:
- GPT 模型系列
- GPT-4 Turbo Vision GA* (
turbo-2024-04-09
) - GPT-4o
- GPT-4o mini
- DALL-E 2 和 3
*仅适用于 GPT-4 Turbo Vision GA,不适用于 GPT-4 Turbo Vision 预览版
内容筛选配置在 Azure AI Studio 中的资源中创建,并且可以与部署相关联。 请在此处详细了解可配置型。
客户负责确保集成 Azure OpenAI 的应用程序符合行为准则。
了解其他筛选器
除了默认的危害类别筛选器之外,你还可以配置以下筛选器类别。
筛选器类别 | Status | 默认设置 | 应用于提示或补全? | 说明 |
---|---|---|---|---|
针对直接攻击(越狱)的提示防护 | GA | 开 | 用户提示 | 过滤/批注可能具有越狱风险的用户提示。 若要详细了解批注,请访问 Azure OpenAI 服务内容过滤。 |
针对间接攻击的提示防护 | GA | 开 | 用户提示 | 过滤/批注间接攻击(也称为间接提示攻击或跨域提示注入攻击),这是一种潜在的漏洞,其中第三方会将恶意指令置于生成式 AI 系统可以访问和处理的文档中。 必需:文档格式。 |
受保护材料 - 代码 | GA | 开 | Completion | 过滤受保护的代码或获取与任何公共代码源匹配的代码片段的批注中的示例引用和许可信息,由 GitHub Copilot 提供支持。 若要详细了解如何使用注释,请参阅内容筛选概念指南 |
受保护材料 - 文本 | GA | 开 | Completion | 识别已知文本内容(例如,歌词、食谱和选定的网页内容)并阻止其显示在模型输出中。 |
通过 Azure OpenAI Studio 配置内容筛选器
以下步骤显示如何为资源设置自定义的内容筛选配置。
转到 Azure OpenAI Studio 并导航到内容筛选器选项卡(在左下角导航中,由下面的红色框指定)。
创建新的自定义内容筛选配置。
这将导致以下配置视图,可以在其中选择自定义内容筛选配置的名称。
这是默认内容筛选配置的视图,其中所有类别的内容都以中和高严重性级别进行筛选。 对于四个内容类别中的每一个(内容类别列在屏幕左侧,用下面的绿色框指定),可以分别修改用户提示和模型补全的内容筛选严重性级别(提示的配置在左列,补全的配置在右列,如下所示)。 每个类别有三个可配置的严重性级别:低、中和高。 可以使用滑块设置严重性阈值。
如果确定应用或使用方案需要对某些或所有内容类别进行更严格的筛选,则可以分别为提示和完成配置设置,以比默认设置更严重的级别进行筛选。 下图显示了一个示例,其中仇恨和性的用户提示筛选级别被设置为最严格配置,以及筛选的低严重性内容以及分类为中和高严重性的内容(在下面的红框中概述)。 在本例中,模型完成的筛选级别针对所有内容类别设置为最严格配置(下面的蓝色框)。 有了此已修改的筛选配置,将筛选用户提示中仇恨和性类别的低、中和高严重性内容;将筛选用户提示中自残和暴力类别的中和高严重性内容;并且将筛选模型完成中所有内容类别的低、中和高严重性内容。
如果用例已针对上述已修改内容筛选器获得批准,你将获得对内容筛选配置的完全控制权,可以选择部分或完全关闭筛选功能。 下图中,针对暴力的筛选已关闭(下面的绿色框),而其他类别则保留默认配置。 虽然这禁用了针对暴力的筛选功能,但内容仍会被注释。 若要关闭所有筛选器和注释,请将筛选器和注释(下面的红色框)切换到关闭位置。
可以根据需要创建多个内容筛选配置。
若要打开可选模型,可以选择左侧的任何复选框。 当每个可选模型打开时,你可以指示模型是否应进行注释或筛选。
选择“批注”将运行相应的模型并通过 API 响应返回注释,但不会筛选内容。 除了注释之外,还可以选择通过将“筛选器”开关切换到“打开”来筛选内容。
可以根据需要创建多个内容筛选配置。
接下来,要使自定义内容筛选配置可操作,请将配置分配给资源中的一个或多个部署。 要执行此操作,请转到“展开”选项卡,然后选择“编辑展开”(在屏幕顶部附近的下面红色框中列出)。
转到高级选项(在下面的蓝色框中列出),从“内容筛选器”下拉列表中选择适合该部署的内容筛选器配置(在下面红色框中对话框底部附近列出)。
选择“保存并关闭”以将所选配置应用于部署。
如果需要,还可以编辑和删除内容筛选器配置。 要执行此操作,请导航到内容筛选器选项卡,然后选择所需操作(屏幕顶部附近红色框中列出的选项)。 一次只能编辑/删除一个筛选配置。
注意
在删除内容筛选配置之前,需要在“部署”选项卡中将其从任何部署中取消分配。
遵循最佳做法
建议通过迭代标记(例如,红队测试、压力测试和分析)和测量过程来告知内容筛选配置决策,以解决与特定模型、应用和部署案例相关的潜在危害。 在实施内容筛选等缓解措施后,重复测量以测试有效性。 基于 Microsoft 负责任 AI 标准的适用于 Azure OpenAI 的负责任 AI 的建议和最佳做法可以在 Azure OpenAI 的负责任 AI 概述中找到。
相关内容
- 了解有关 Azure OpenAI 负责任 AI 实践的更多信息:适用于 Azure OpenAI 模型的负责任 AI 的做法概述。
- 阅读有关 Azure OpenAI 服务的内容筛选类别和严重性级别的更多信息。
- 从:红队测试大型语言模型 (LLM) 简介文章中了解更多关于红队的信息。