摘要

在本模块中，你通过 AI 红队测试的视角学习了 AI 安全测试的基础知识：

什么是 AI 红队测试：一种将传统安全测试扩展到涵盖 AI 特定攻击面的做法，以解决安全漏洞和负责任的 AI 问题。与传统测试不同，AI 红队测试必须考虑概率性输出，同时包括对抗性和良性角色，还要根据模型和元提示的演进而重复进行。
三个类别：全栈红队测试评估整个技术堆栈。对抗机器学习通过逃避和数据中毒等技术针对模型本身。指令注入通过直接注入、间接注入和越狱来利用自然语言接口。
规划红队练习：有效的 AI 红队需要招募不同的团队，并在模型和应用程序层上设计对抗测试。团队在有和没有缓解措施的情况下进行迭代测试，使用自动化工具来补充手动测试，并将结果报告给利益相关者。

AI 安全测试是一种持续的做法，而不是一次性活动。随着模型更新、元开发的变化和新的攻击技术出现，组织需要持续测试和验证其 AI 系统的安全状况。

其他资源

若要继续学习之旅，请浏览以下资源：

此页面是否有帮助？