你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure AI Studio 中的内容筛选

Azure AI Studio 包含一个可与核心模型和 DALL-E 图像生成模型配合工作的内容筛选系统。

重要

内容筛选系统不应用于 Azure OpenAI 服务中的 Whisper 模型处理的提示和补全。 详细了解 Azure OpenAI 中的 Whisper 模型

工作原理

此内容筛选系统由 Azure AI 内容安全提供支持,通过一系列分类模型来运行提示输入和补全输出,旨在检测和防止有害内容的输出。 API 配置和应用程序设计的变化可能会影响补全,从而影响筛选行为。

对于 Azure OpenAI 模型部署,你可以使用默认的内容筛选器或创建自己的内容筛选器(稍后介绍)。 默认的内容筛选器也适用于模型目录中由 Azure AI 特选的其他文本模型,但自定义内容筛选器目前不适用于这些模型。 通过“模型即服务”提供的模型默认启用了内容筛选,无法进行配置

语言支持

内容筛选模型已针对以下语言进行了训练和测试:英语、德语、日语、西班牙语、法语、意大利语、葡萄牙语、中文。 但是,该服务可以使用许多其他语言,但质量可能会有所不同。 在所有情况下,都应执行自己的测试,以确保它适用于你的应用程序。

创建内容筛选器

对于 Azure AI Studio 中的任何模型部署,可以直接使用默认内容筛选器,但你可能希望拥有更多控制方式。 例如,你可以使筛选器更严格或更宽松,或者启用提示盾牌和受保护材料检测等更高级的功能。

按照以下步骤创建内容筛选器:

  1. 转到 AI Studio 并导航到你的中心。 选择左侧导航栏上的“内容筛选器”选项卡,然后选择“创建内容筛选器”按钮。

    用于创建新内容筛选器的按钮的屏幕截图。

  2. 在“基本信息”页面上,输入内容筛选器的名称。 选择要与内容筛选器关联的连接。 然后选择下一步

    用于在创建内容筛选器时选择或输入基本信息(例如筛选器名称)的选项的屏幕截图。

  3. 在“输入筛选器”页面上,可以设置输入提示的筛选器。 为每个筛选器类型设置操作和严重性级别阈值。 你在此页面上配置默认筛选器和其他筛选器(例如,针对越狱攻击的即时防护)。 然后选择下一步

    用于在创建内容筛选器时选择输入筛选器的选项的屏幕截图。

    内容将按类别进行批注,并根据设置的阈值进行阻止。 对于暴力、仇恨、色情和自残类别,可以调整滑块来阻止高、中或低严重性的内容。

  4. 在“输出筛选器”页上,你可以配置输出筛选器,该筛选器将应用于你的模型生成的所有输出内容。 像以前一样配置各个筛选器。 此页面还提供“流式处理模式”选项,该选项使你能够在模型生成内容时近乎实时地筛选内容,从而减少延迟。 完成后,选择“下一步”。

    内容将按类别进行批注,并根据阈值进行阻止。 对于暴力内容、仇恨内容、色情内容和自残内容类别,可以调整阈值来阻止严重级别相同或更高的有害内容。

  5. (可选)在“部署”页面上,可以将内容筛选器与部署相关联。 如果所选部署已附加了筛选器,则必须确认要替换它。 还可以稍后将内容筛选器与部署相关联。 选择创建

    用于在创建内容筛选器时选择部署的选项的屏幕截图。

    内容筛选配置是在 AI Studio 的中心级别创建的。 有关可配置性的详细信息,请参阅 Azure OpenAI 文档

  6. 在“查看”页面上查看设置,然后选择“创建筛选器”

使用阻止列表作为筛选器

你可以将阻止列表作为输入或输出筛选器,或者同时作为这两种出筛选器。 在“输入筛选器”和/或“输出筛选器”页面上启用“阻止列表”选项。 从下拉列表中选择一个或多个阻止列表,或使用内置的不雅内容阻止列表。 你可以将多个阻止列表合并到同一个筛选器中。

应用内容筛选器

筛选器创建过程提供了将筛选器应用于所需部署的选项。 你也可以随时更改或移除部署中的内容筛选器。

按照以下步骤将内容筛选器应用于部署:

  1. 转到 AI Studio 并选择一个项目。

  2. 选择“部署”并选择一个部署,然后选择“编辑”

    用于编辑部署的按钮的屏幕截图。

  3. 在“更新部署”窗口中,选择要应用于部署的内容筛选器

    应用内容筛选器的屏幕截图。

现在,可以转到操场来测试内容筛选器是否按预期工作。

类别

类别 说明
仇恨 仇恨类别指的是基于个人或身份群体的某些区别性属性(包括但不限于种族、民族、国籍、性别认同和表现、性取向、宗教、移民身份、残疾、个人外貌和体型)的语言攻击或运用,包括对这些群体的贬义性或歧视性语言。
性类别指的是与以下方面相关的语言:解剖器官和生殖器官、恋爱关系、以色情或情爱用语描述的行为、实质性行为(包括被描述为攻击或违背个人意愿的强迫性暴力行为的行为)、卖淫、色情和虐待。
暴力 暴力类别是指与旨在伤害、损伤、损害或杀害某人或某物的肢体动作相关的语言,以及与武器等相关的语言。
自残 自残类别指的是与故意伤害、损伤或损害自己的身体或自杀的肢体动作相关的语言。

严重性级别

Category 说明
Safe 内容可能与暴力、自残、性或仇恨类别相关,但这些术语用于综合性、新闻、科学、医学和类似专业背景,适合大多数受众。
表达偏见性、评判性或固执己见的观点的内容,包括冒犯性的语言使用、刻板印象、探索虚构世界(例如游戏、文学)的用例以及低强度的描述。
中型 对特定身份群体使用冒犯性、侮辱性、嘲讽性、恐吓性或贬低性语言的内容,包括中等强度的有关寻找和执行伤害性说明以及对伤害行为进行幻想、美化和宣传的描述。
显示露骨且严重的伤害性说明和行为、损害或滥用的内容;包括支持、美化或宣传严重的伤害性行为、极端或非法形式的伤害、激进化或非自愿的权力交换或滥用。

可配置性(预览版)

GPT 模型系列的默认内容筛选配置设置为针对所有四个内容危害类别(仇恨、暴力、色情和自残)按中等严重性阈值进行筛选,并应用于提示(文本、多模式文本/图像)和补全(文本)。 这意味着,内容筛选器将筛选检测到的中严重级别或高严重级别的内容,而不会筛选检测到的低严重级别内容。 对于 DALL-E,提示(文本)和补全(图像)的默认严重性阈值均设置为“低”,因此会筛选检测到的严重级别为低、中或高的内容。

可配置性功能让客户可以分别调整提示和完成设置,以便按不同的严重性级别筛选每个内容类别的内容,如下表所示:

已筛选严重性 针对提示可配置 针对补全可配置 说明
低、中、高 最严格的筛选配置。 检测到的严重性级别为低、中和高的内容将被筛选。
中、高 检测到的严重性级别为低的内容不会被筛选,中和高的内容会被筛选。
检测到的严重性级别为低和中的内容不会被筛选。 仅筛选严重性级别为高的内容。 需要批准1
无筛选器 如果已批准1 如果已批准1 无论检测到的严重性级别如何,都不会筛选任何内容。 需要批准1

1 对于 Azure OpenAI 模型,只有获得批准可以筛选修改内容的客户才具有完整的内容筛选控制,包括仅将内容筛选器配置为高严重级别或关闭内容筛选器。 通过此表格申请修改的内容筛选器:Azure OpenAI 受限访问评审:修改的内容筛选器和滥用监控 (microsoft.com)

客户负责确保集成 Azure OpenAI 的应用程序符合行为准则

其他输入筛选器

还可以针对生成式 AI 方案启用特殊筛选器:

  • 越狱攻击:越狱攻击是一种用户提示,旨在激发生成式 AI 模型表现出其所训练的行为,以避开或打破系统消息中设置的规则。
  • 间接攻击:间接攻击(也称为间接提示攻击或跨域提示注入攻击)是一种潜在的漏洞,其中第三方会将恶意指令置于生成式 AI 系统可以访问和处理的文档中。

其他输出筛选器

还可以启用以下特殊输出筛选器:

  • 受保护的材料文本:受保护的材料文本描述可由大型语言模型输出的已知文本内容(例如,歌词、文章、食谱和所选网络内容)。
  • 受保护的材料代码:受保护的材料代码描述与公共存储库中的一组源代码相匹配的源代码,这些源代码可由大型语言模型输出,而无需适当引用源存储库。
  • 有据性:有据性检测筛选器检测大型语言模型 (LLM) 的文本响应是否以用户提供的源材料为依据。

后续步骤