摘要

已完成

在本模块中,你通过 AI 红队测试的视角学习了 AI 安全测试的基础知识:

  • 什么是 AI 红队测试:一种将传统安全测试扩展到涵盖 AI 特定攻击面的做法,以解决安全漏洞和负责任的 AI 问题。 与传统测试不同,AI 红队测试必须考虑概率性输出,同时包括对抗性和良性角色,还要根据模型和元提示的演进而重复进行。
  • 三个类别:全栈红队测试评估整个技术堆栈。 对抗机器学习通过逃避和数据中毒等技术针对模型本身。 指令注入通过直接注入、间接注入和越狱来利用自然语言接口。
  • 规划红队练习:有效的 AI 红队需要招募不同的团队,并在模型和应用程序层上设计对抗测试。 团队在有和没有缓解措施的情况下进行迭代测试,使用自动化工具来补充手动测试,并将结果报告给利益相关者。

AI 安全测试是一种持续的做法,而不是一次性活动。 随着模型更新、元开发的变化和新的攻击技术出现,组织需要持续测试和验证其 AI 系统的安全状况。

其他资源

若要继续学习之旅,请浏览以下资源: