你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

清理室和多方数据分析

Azure 机密计算(ACC)为使多方能够协作处理数据的解决方案提供了基础。 解决方案有多种方法,合作伙伴生态系统日益壮大,可帮助 Azure 客户、研究人员、数据科学家和数据提供程序在保留隐私的同时协作处理数据。 本概述介绍一些可用于在 ACC 上运行的方法和现有解决方案。

什么是数据和模型保护?

数据清理室解决方案通常为一个或多个数据提供程序提供一种组合数据进行处理的方法。 通常已就代码、查询或模型达成一致,这些代码、查询或模型是由其中一个提供商或其他参与者(例如研究人员或解决方案提供商)创建的。 在许多情况下,数据可以被视为敏感且不愿直接共享给其他参与者,无论是其他数据提供程序、研究人员还是解决方案供应商。 为了帮助确保数据清理室中使用的数据和模型的安全和隐私,机密计算可用于加密验证参与者是否无权访问数据或模型,包括处理期间。 通过使用 ACC,解决方案可以保护云操作员、解决方案提供商和数据协作参与者的数据和模型 IP。

什么是行业用例示例?

借助 ACC,客户和合作伙伴构建隐私保留多方数据分析解决方案,有时称为“机密清理室”,这两种新解决方案都是唯一机密的,还有使用 ACC 保密的现有清理室解决方案。

  1. 加拿大 - 皇家银行虚拟清洁室 解决方案将商家数据与银行数据相结合,以便提供个性化产品/服务,在安全 enclave 中使用 Azure 机密计算 VM 和 Azure SQL AE。
  2. Scotiabank – 证明在跨银行资金流上使用 AI 来识别洗钱,以标记人口贩运实例,使用 Azure 机密计算和解决方案合作伙伴 Opaque。
  3. Novartis Biome - 使用 BeeKeeperAI 在 ACC 上运行的合作伙伴解决方案,以便查找罕见疾病的临床试验候选项。
  4. 领先的支付提供商 将跨银行的数据连接到欺诈和异常情况检测。
  5. 使用 ACC 提高数据保护并满足欧盟客户合规性需求和隐私法规的数据分析服务和 清理室解决方案。

为什么是机密计算?

数据清理室不是一个全新的概念,但是随着机密计算的进步,有更多的机会利用具有更广泛的数据集的云规模、保护 AI 模型的 IP 以及更好地满足数据隐私法规的能力。 在以前的情况下,某些数据可能不可访问的原因,例如

  • 竞争不利因素或法规阻止跨行业公司共享数据。
  • 匿名化降低了有关数据的见解质量,或者过于昂贵且耗时。
  • 由于安全问题,数据绑定到某些位置,并且不会在云中进行处理。
  • 如果暴露或滥用数据,成本高昂或冗长的法律过程涵盖责任

这些现实可能导致不完整或无效的数据集,导致更弱的见解,或者在训练和使用 AI 模型时需要更多时间。

构建清理室解决方案时有哪些注意事项?

批处理分析与实时数据管道: 在设计或使用清理室解决方案时,应考虑数据集的大小和见解速度。 如果数据可用“脱机”,则可以将其加载到经过验证且受保护的计算环境中,以便在大部分数据(如果不是整个数据集)上进行数据分析处理。 此批处理分析允许使用不预期提供即时结果的模型和算法来评估大型数据集。 例如,在对数百万条健康记录进行 ML 推理以查找临床试验的最佳候选项时,批处理分析效果良好。 其他解决方案需要对数据进行实时见解,例如,当算法和模型旨在识别多个实体之间的近实时事务欺诈时。

零信任参与: 机密清理室中的一个主要区别在于能够让任何参与方都受信任–来自所有数据提供程序、代码和模型开发人员、解决方案提供商和基础结构操作员管理员。 可以在数据 IP 和模型 IP 受到各方保护的情况下提供解决方案。 在加入或构建解决方案时,参与者应考虑要保护的内容,以及保护每个代码、模型和数据的人员。

联合学习: 联合学习涉及创建或使用解决方案,而模型在数据所有者的租户中处理,见解聚合在中央租户中。 在某些情况下,模型甚至可以在 Azure 外部的数据上运行,模型聚合仍在 Azure 中发生。 很多时候,联合学习会多次循环访问数据,因为聚合见解后模型的参数会改进。 模型的迭代成本和质量应纳入解决方案和预期结果。

数据驻留和源: 客户的数据存储在多个云和本地。 协作可以包括来自不同源的数据和模型。 清理室解决方案有助于从这些其他位置传入 Azure 的数据和模型。 当数据无法从本地数据存储移动到 Azure 时,某些清理室解决方案可以在数据驻留的站点上运行。 管理和策略可由通用解决方案提供商提供支持(如果可用)。

代码完整性和机密账本: 使用在 Azure 机密计算上运行的分布式账本技术(DLT),可以构建跨组织在网络上运行的解决方案。 仅当各个参与者达成一致时,才能添加代码逻辑和分析规则。 通过 Azure 机密计算启用的防篡改日志记录,记录对代码的所有更新进行审核。

有哪些入门选项?

有助于启用机密清理室的 ACC 平台产品/服务

汇总袖子,并直接在这些机密计算服务产品/服务上构建数据清理室解决方案。

具有应用程序 enclave 的 Azure 容器实例 (ACI) 和 Intel SGX VM 上的机密容器提供用于构建机密清理解决方案的容器解决方案。

机密虚拟机(VM)为机密清理解决方案提供 VM 平台。

安全 enclave 中的 Azure SQL AE 提供用于加密 SQL 中的数据和查询的平台服务,可用于多方数据分析和机密清理室。

机密联盟框架是一个开源框架 ,用于构建高度可用的有状态服务,这些服务使用集中式计算来方便使用和性能,同时提供分散式信任。 它使多个参与方能够对机密数据执行可审核计算,而无需相互信任或特权操作员。

启用机密清理室的 ACC 合作伙伴解决方案

使用在 Azure 机密计算平台的基础上构建多方数据分析解决方案的合作伙伴。

  • Anjuna 提供了一个机密计算平台,使各种用例(包括安全清洁室)可供组织共享数据进行联合分析,例如计算信用风险分数或开发机器学习模型,而无需公开敏感信息。
  • BeeKeeperAI 通过算法所有者和数据专员的安全协作平台实现医疗保健 AI。 BeeKeeperAI™ 对机密计算环境中受保护数据的多机构来源使用隐私保留分析。 该解决方案支持端到端加密、安全计算 enclave 和 Intel 的最新 SGX 处理器来保护数据和算法 IP。
  • Decentriq 提供基于机密计算构建的 SaaS 数据清理室,使安全数据协作无需共享数据。 数据科学清理室允许灵活的多方分析,媒体和广告的无代码清理室基于第一方用户数据启用合规的受众激活和分析。 Microsoft 博客上的本文更详细地介绍了机密清理室。
  • Fortanix 提供了一个机密计算平台,可以启用机密 AI,包括多个组织共同协作进行多方分析。
  • Habu 提供可互操作的数据清理室平台,使企业能够以智能、安全、可缩放和简单的方式解锁协作智能。 Habu 跨部门、合作伙伴、客户和提供商连接分散的数据,以便更好地进行协作、决策和结果。
  • Mithril Security 提供工具来帮助 SaaS 供应商提供安全 enclave 内的 AI 模型,并为数据所有者提供本地安全性和控制级别。 数据所有者可以使用其 SaaS AI 解决方案,同时保持合规并控制其数据。
  • Opaque 为协作分析和 AI 提供了一个机密计算平台,使能够执行协作可缩放的分析,同时保护数据端到端,并使组织能够遵守法律和法规授权。
  • 保险箱LiShare提供策略驱动的加密数据清理室,其中对数据的访问可审核、可跟踪和可见,同时在多方数据共享期间保护数据。