Microsoft 助力人工智能和机器学习的未来

作者:Andrew Marshall、Raul Rojas、Jay Stokes 和 Donald Brinkman

特别感谢 Mark Cartwright 和 Graham Calladine

执行摘要

人工智能(AI)和机器学习(ML)已经对人们如何工作、社交和生活产生重大影响。 随着越来越多的用户使用基于 AI/ML 构建的产品和服务,必须采取专门的措施来保护客户及其数据,同时保护 AI 和算法免遭滥用、挑衅行为和提取。 本文档分享了 Microsoft 的一些安全经验,这些经验源自产品设计和运行基于 AI 生成的联机服务。 虽然很难预测这一领域是如何展开的,但我们的结论是,现在有可行的问题要解决。 此外,我们发现,为了确保客户及其数据的长期安全,技术行业必须解决一些战略性问题。

本文档不是关于基于 AI 的攻击,甚至不是人类对手利用的 AI。 相反,我们专注于 Microsoft 和行业合作伙伴需要解决的问题,以保护基于 AI 的产品和服务免受高度复杂、创造性和恶意的攻击,无论是由单个巨魔还是整个狼包执行。

本文档完全侧重于 AI/ML 空间特有的安全工程问题,但由于 InfoSec 域的广阔性,据了解,此处讨论的问题和发现与隐私和道德领域重叠。 由于本文档重点介绍技术行业所面临的战略重要性挑战,因此本文档的目标受众是行业范围内的安全工程领导者。

我们的初期调查建议:

  • 需要面向现有安全实践的 AI/ML 特定透视,以减少本文档中所述的安全问题类型。

  • 机器学习模型很大程度上无法区分恶意输入和良性异常数据。 训练数据的重要来源派生自未修改、未修改的公共数据集,这些数据集对 3个 rd 方贡献开放。 攻击者无需在数据集免费参与时入侵数据集。 随着时间的推移,如果数据结构/格式仍然正确,则低置信度恶意数据将成为高置信度受信任数据。

  • 鉴于大量可用于深度学习模型中的隐藏分类器/神经元层,因此对 AI/ML 决策过程和算法的输出过于信任,而无需对这些决策的实现方式进行关键理解。 这种混淆导致无法“展示你的工作”,并且当 AI/ML 发现受到质疑时,很难为其辩护。

  • AI/ML 越来越多地用于支持医学和其他行业的高价值决策过程,在这些行业中,错误的决策可能会导致严重伤害或死亡。 AI/ML 中缺乏取证报告能力,使得这些高价值的结论在法庭和舆论法庭上都站不住脚。

本文档的目标是(1)突出安全工程问题,这些问题特定于 AI/ML 空间,(2)对新兴威胁的一些初步想法和观察,(3)分享有关潜在修正的早期想法。 本文档中的一些难题是,行业需要在接下来的两年内解决的问题,其他问题是我们目前被迫解决的问题。 如果不深入调查本文档中涉及的领域,我们有可能通过无法信任或理解(并在必要时修改)数学级别 [7] 的 AI 决策过程,使未来的 AI 成为黑匣子。 从安全的角度来看,这实际上意味着失去控制权,并脱离了 Microsoft 关于人工智能的指导原则 [3, 7]。

新安全工程挑战

传统的软件攻击途径对于解决仍然至关重要,但它们在 AI/ML 威胁环境中没有提供足够的覆盖范围。 技术行业必须通过建立新的框架,并采用新的方法来解决基于 AI/ML 的服务在设计和操作方面的差距,避免用上一代的解决方案来解决下一代的问题:

  1. 如下所述,在保护 AI 和其控制下的数据时,安全开发和操作基础必须包含复原能力和判断的概念。 身份验证、责任分离、输入验证和拒绝服务缓解等领域都需要 AI 特定透视。 如果没有在这些领域的投资,AI/ML 服务将继续与所有技能级别的对手展开艰苦的战斗。

  2. AI 必须能够识别他人的偏见,而不会在与用户的互动中产生偏见。 要做到这一点,需要对偏见、刻板印象、方言和其他文化结构有一个全面、持续的理解。 这种理解有助于保护 AI 免受社会工程和数据集篡改攻击。 正确实现的系统实际上从此类攻击中变得更加强大,并且能够与其他 AIS 分享其扩展的理解。

  3. 机器学习算法必须能够通过拒绝对结果产生负面影响的训练数据,从良性“黑天鹅”事件 [1] 中识别恶意引入的数据。 否则,学习模型始终容易受到攻击者和巨魔的游戏的影响。

  4. AI 必须具有内置的取证功能。 这使企业能够为客户提供其 AI 的透明度和责任,确保其行为不仅可验证正确,而且具有法律防御性。 这些功能还可以充当“AI 入侵检测”的早期形式,使工程师能够确定分类器做出的决定的确切时间点、影响它的数据,以及数据是否值得信任。 此领域的数据可视化功能正在迅速推进,并表明希望帮助工程师识别和解决这些复杂问题的根本原因 [10]。

  5. AI 必须识别和保护敏感信息,即使用户无法识别这些信息。 AI 中丰富的用户体验需要大量的原始数据进行训练,因此,必须计划好客户的“过度共享”。

下面将详细讨论其中的每个领域,包括威胁和潜在缓解措施。

AI 需要对传统安全设计/安全操作模型进行新的透视:引入复原能力和判断

AI 设计人员需要确保敏感数据的机密性、完整性和可用性,即 AI 系统没有已知漏洞,并提供针对系统或用户数据的恶意行为的保护、检测和响应控制。

这种新范例中,防御恶意攻击的传统方法没有提供相同的覆盖范围,其中基于语音/视频/图像的攻击可以规避当前的筛选器和防御。 为了防止新的滥用利用 AI,必须对新的威胁建模方面进行探讨。 这远远超出了通过模糊化或输入操作来识别传统攻击面的范畴(这些攻击还具有自己的 AI 特定透视)。 它需要结合 AI/ML 领域独有的场景。 其中的关键是 AI 用户体验,如语音、视频和手势。 与这些体验相关的威胁尚未进行传统建模。 例如,现在可以定制视频内容来产生物理效果。 此外,研究表明,可以制作基于音频的攻击命令 [9]。

罪犯、已确定的攻击者和挑衅者的不可预测性、创造性和恶意行为要求我们向 AI 灌输复原能力和判断价值:

弹性:系统应能够识别异常行为,并防止 AI 系统和特定任务中超出正常可接受行为边界的操纵或强迫行为。 这些是特定于 AI/ML 领域的新攻击类型。 系统应旨在抵制那些与当地法律、道德和社区及其创建者所持的价值观相冲突的输入。 这意味着为 AI 提供了一种功能,可以确定交互何时“脱离脚本”。 可以通过以下方法实现此目的:

  1. 查明偏离各种类似用户群集设置的规范的用户,例如,似乎键入速度过快、响应过快、不睡觉或触发其他用户不触发系统部分的用户。

  2. 识别已知的行为模式,这些行为指示恶意探测攻击和网络入侵终止链的开始。

  3. 当多个用户以协调的方式行事时,随时识别;例如,多个用户都发出相同的不可解释但精心制作的查询、用户数量突然激增或 AI 系统特定部分激活时突然激增。

这种攻击应该与拒绝服务攻击相同,因为 AI 可能需要 bug 修复和重新训练,以免再次陷入相同的技巧。 至关重要的是,能够在存在对策时识别恶意意图,例如那些用于击败情绪分析 API [4] 的人。

自定义:AI 应该是有权访问的任何信息的受信任的担责管理员。 作为人类,我们无疑在 AI 关系中分配了某种级别的信任。 在某些时候,这些代理会代表我们与其他代理或其他用户交谈。 我们必须能够信任 AI 系统具有足够的判断,只以有限的形式分享它需要分享的关于我们的信息,以便其他代理能够代表它完成任务。 此外,代表我们与个人数据交互的多个代理不应每个代理都需要全局访问权限。 任何涉及多个 AI 或机器人代理的数据访问场景都应将访问的生命周期限制到所需的最小范围。 用户还应该能够拒绝数据,并拒绝来自特定公司或区域设置的代理的身份验证,就像 Web 浏览器现在允许站点阻止一样。 若要解决此问题,需要重新考虑代理间的身份验证和数据访问权限(例如,在云计算初期进行的基于云的用户身份验证投资)。

AI 必须能够识别他人的偏见,而不会自行产生偏见

虽然 AI 应该是公平和包容的,不区别对待任何特定的个人群体或有效结果,但它需要对偏见有固有的理解,才能实现此目的。 如果不接受培训来识别偏见、巨魔或讽刺,AI 可能会被那些寻求廉价笑笑的人欺骗,或者对最坏的客户造成伤害。

要达到这种程度的意识,就需要“正常用户向 AI 演示一些不提倡的做法”,因为这实际上是要求 AI 全面不断地了解文化偏见。 AI 应该能够识别它过去与某个用户有负面互动,并谨慎行事,类似于父母如何教孩子警惕陌生人。 解决这个问题的最佳方法是小心地将 AI 以受控/节制/有限的方式向挑衅者公开。 通过这种方式,AI 可以理解良性用户“试探行为”和实际恶意/挑衅行为之间的区别。 挑衅者为 AI 提供了宝贵的训练数据流,使其在未来的攻击中具备更出色的复原能力。

AI 还应该能够识别它所训练的数据集中的偏差。 这可以是文化偏差或地域性偏差,包括特定群体使用的方言,也可以是特定群体感兴趣的话题/观点。 与恶意引入的训练数据一样,AI 必须能够应对这些数据对自身推理和扣减的影响。 在 AI 核心,这是一个复杂的输入验证问题,类似于边界检查。 缓冲区和边界检查不是处理缓冲区长度和偏移量,而是对来自广泛来源的警告词进行检查。 对话历史和使用词语的上下文也非常关键。 正如使用深入防御做法在传统 Web 服务 API 前端之上建立保护层一样,在偏差识别和避免技术中也应该利用多层保护。

机器学习算法必须能够识别来自良性“黑天鹅”事件的恶意引入的数据

许多白皮书都发表在 ML 模型/分类器篡改和提取/盗窃服务的理论潜力上,攻击者可以访问训练数据集,并了解正在使用的模型 [2, 3, 6, 7]。 此处的过度存档问题在于,所有 ML 分类器都可以被控制训练集数据的攻击者欺骗。 攻击者甚至不需要修改现有训练集数据,他们只需要能够向其添加数据,并利用 ML 分类器无法区分恶意数据和真正异常数据的缺陷,使他们的输入随着时间的推移而变得“可信”。

此训练数据供应链问题向我们介绍了“决策完整性”的概念,即在恶意引入的训练数据或用户输入对分类器行为产生负面影响之前,识别和拒绝它们的能力。 此处的理由是,可信训练数据生成可信结果/决策的可能性更高。 虽然训练和复原不受信任的数据仍然至关重要,但应先分析这些数据的恶意性质,然后再成为训练数据的高可信度正文的一部分。 如果没有这些措施,AI 可能会被迫对挑衅行为做出过度反应,并拒绝向合法用户提供服务。

需要特别注意的是,无人监督的学习算法训练是在未经策划或不受信任的数据集上进行的。 这意味着,攻击者可以引入他们所需的任何数据,只要格式有效,并对其进行了算法训练,就可以通过与训练集的其余部分相同的方式有效地信任该数据点。 凭借来自攻击者精心设计的输入,训练算法就失去了从高置信度数据中辨别干扰和异常的能力。

作为此威胁的一个示例,想象一个包含世界各地各种语言的停车标志数据库。 这对于策划而言是一个极大的挑战,因为涉及到大量的图像和语言。 对数据集提供的恶意数据在很大程度上不会引起注意,直到自动驾驶汽车不再识别停车标志。 数据复原和决策完整性缓解措施必须携手合作,以识别和消除恶意数据造成的训练损害,以防止它成为学习模型的核心部分。

AI 必须有内置的取证和安全记录,以提供透明度和可靠性

AI 最终将有能力以专业的身份作为我们的代理,协助我们做出重大的决策。 例如,AI 可帮助处理金融交易。 如果 AI 被利用,并且以某种方式操纵事务,则后果可能从个人到系统。 在高价值方案中,AI 需要适当的取证和安全日志记录,以提供完整性、透明度、责任,在某些情况下,可能会产生民事或刑事责任的证据。

基本 AI 服务需要算法级别的审核/事件跟踪设施,开发人员可以检查特定分类器的记录状态,这可能导致决策不准确。 为了在遭质疑时证明 AI 生成决策的正确性和透明性,在整个行业范围内都需要此功能。

事件跟踪功能可以从基本决策信息的相关性开始,例如:

  1. 上次训练事件发生的时间范围

  2. 最新训练的数据集条目的时间戳

  3. 用于做出重大决策的关键分类器的权重和置信度级别

  4. 决策中涉及的分类器或组件

  5. 算法最终做出的高价值决策

对于大多数算法辅助决策,这种跟踪是过度的。 但是,能够识别导致特定结果的数据点和算法元数据,这在高价值决策方面有很大的好处。 此类功能不仅通过算法“显示其工作”的能力来展示可信度和完整性,而且这些数据也可用于微调。

AI/ML 中需要的另一个取证功能是篡改检测。 正如我们需要 AI 识别偏差而不受其影响一样,我们也应该具备一些取证功能,以帮助我们的工程师检测并应对此类攻击。 当与数据可视化技术 [10] 配对时,这种取证功能具有巨大的价值,允许审核、调试和优化算法以获取更有效的结果。

AI 必须保护敏感信息,即使用户还无法识别这些信息

丰富的经验需要丰富的数据。 用户已经自愿提供了大量数据供 ML 进行训练。 从常见的视频流队列内容到用于检测欺诈的信用卡购买/交易历史的趋势。 当涉及到处理用户数据时,AI 应该具有根深蒂固的自由裁量权感,即使过度共享公众自愿自愿保护它。

为了完成复杂任务,AI 可以与经过身份验证的“对等方”进行对话,因此它也必须认识到需要限制与这些对等方共享的数据。

关于解决 AI 安全问题的初步观察

尽管该项目处于新兴状态,但我们相信,迄今为止编制的证据表明,对以下每个领域进行更深入的调查是推动我们的行业走向更可信且更安全的 AI/ML 产品/服务的关键。 以下是我们对该领域的初步观察和想法。

  1. 可以建立以 AI/ML 为重点的渗透测试和安全审查机构,以确保未来 AI 与我们的价值观相同,并符合 Asilomar AI 原则

    1. 此类小组还可以开发在行业范围内使用的工具和框架,以支持保护基于 AI/ML 的服务。
    2. 随着时间的推移,这种专业知识将在工程小组内部有机地积累起来,就像过去 10 年传统的安全专业知识一样。
  2. 可以组织培训,使企业能够实现诸如大众化 AI 等目标,同时缓解本文档中讨论的挑战。

    1. AI 特定的安全培训确保工程师意识到对其 AI 和可支配的资源所带来的风险。 需要通过当前关于保护客户数据的培训来提供此材料。
    2. 此目标实现不要求每个数据科学家成为安全专家,而是要侧重于对开发人员进行关于适用于其 AI 用例的复原能力和判断的培训。
    3. 开发人员需要了解在其企业中重复使用的 AI 服务的安全“构建基块”。 需要强调具有子系统的容错设计,这可以轻松关闭(例如图像处理器、文本分析器)。
  3. 可以对 ML 分类器及其基础算法进行强化,使其能够检测恶意训练的数据,而不会干扰当前使用的有效训练数据或影响结果的准确性。

    1. 拒绝负输入 [5] 等技术需要研究人员周期进行调查。

    2. 这项工作包括数学验证、代码的概念验证,以及针对恶意和良性异常数据的测试。

    3. 就此方面,人为抽样检查/审核可能会有所帮助,特别是在存在统计异常的情况下。

    4. 可以构建“监督者分类器”,以更广泛地了解多个 AI 之间的威胁。 这极大地提高了系统的安全性,因为攻击者无法再盗取任何一个特定的模型。

    5. AI 可以链接在一起,以识别彼此系统中的威胁

  4. 可以建立一个集中的 ML 审核/取证库,为 AI 的透明度和可信度建立标准。

    1. 还可以生成查询功能来审核和重构 AI 的重大业务决策。
  5. AI 可以不断地研究和分析不同文化群体和社交媒体中的攻击者使用的方言,以检测和回应挑衅、讽刺等信息。

    1. AI 需要灵活应对各种方言,无论是技术方言、区域方言还是特定于论坛的方言。

    2. 此知识主体还可用于内容筛选/标记/阻止自动化,以解决审查器可伸缩性问题。

    3. 这一全局术语数据库可以托管在开发库中,甚至可以通过云服务 API 公开,供不同的 AI 重用,从而确保新 AI 从旧 AI 的综合知识库中获益。

  6. 可以创建一个“机器学习模糊框架”,让工程师能够将各种类型的攻击注入测试训练集,供 AI 评估。

    1. 这不仅可以关注文本白话,还可以关注这些数据类型的图像、语音和手势数据和排列。

结论

Asilomar AI 原则说明了以一种始终有利于用户的方式实现 AI 的复杂性。 未来的 AIS 需要与其他 AIS 交互,以提供丰富的、极具吸引力的用户体验。 这意味着,从安全角度来说,Microsoft“正确获取 AI”并不够好, 世界 必须。 我们需要行业一致和协作,以更深入的知名度,以类似于我们全球推动《数字日内瓦公约》[8]的方式提出问题。 通过解决在此提出的问题,我们可以开始引导客户和行业合作伙伴走向 AI 真正大众化和增强全人类智慧的道路。

参考文献

[1] Taleb, Nassim Nicholas (2007), The Black Swan: The Impact of the Highly Improbable, Random House, ISBN 978-1400063512

[2] Florian Tramèr, Fan Zhang, Ari Juels, Michael K. Reiter, Thomas Ristenpart,Stealing Machine Learning Models via Prediction APIs

[3] 萨蒂亚·纳德拉:未来伙伴关系

[4] 克拉本,托马斯:谷歌的巨魔摧毁 AI 无法应付拼写错误

[5] 马可·巴雷诺、布莱恩·纳尔逊、安东尼·约瑟夫、J.D.Tygar:机器学习的安全性

[6] 沃尔彻弗,娜塔莉:这个人工智能先驱有几个担忧

[7] Conn,Ariel:我们如何将人工智能与人类价值观保持一致?

[8] 史密斯,布拉德:需要紧急集体行动,使人们保持在线安全:从上周的网络攻击中吸取教训

[9] 尼古拉斯·卡利尼、普拉蒂乌什·米什拉、塔维迪亚、袁凯张、米卡·谢尔、克莱盾、大卫·瓦格纳、温乔·周:隐藏语音命令

[10] 费尔南达·维加斯、马丁·瓦滕贝格、丹尼尔·斯米尔科夫、詹姆斯·韦克斯勒、吉姆博·威尔逊、尼基尔·索拉特、查尔斯·尼科尔森、谷歌研究:大图