你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

为管控数据设计安全研究环境

Azure Data Science Virtual Machine
Azure 机器学习
Microsoft Fabric

本文介绍一个安全的研究环境,使研究人员能够访问需要高度控制和保护的敏感数据。 该体系结构支持必须遵守法规合规性或其他严格安全要求的组织。

体系结构

展示安全研究环境的图。

下载此体系结构的 Visio 文件

数据流

以下数据流对应于上图:

  1. 数据所有者将数据集上传到公共 Azure Blob 存储帐户。 它们使用Microsoft管理的密钥来加密数据。

  2. 结构数据工厂 使用触发器将上传的数据集复制到具有安全控制的其他存储帐户的特定位置或导入路径。 只能通过专用终结点或受信任的工作区访问访问存储帐户。 具有有限权限的服务主体还可以访问该帐户。 数据工厂删除原始副本,使数据集不可变。

  3. 研究人员通过使用 Azure 虚拟桌面 作为特权跳转盒,通过流式处理应用程序访问安全环境。

  4. 安全存储帐户向在安全网络环境中为研究工作设置的数据科学虚拟机(VM)提供数据集。 大多数数据准备发生在这些 VM 上。

  5. 安全环境包括 Azure 机器学习和 Fabric 数据科学。 他们可以通过专用终结点访问数据集。 可以使用这些平台来训练、部署、自动化和管理机器学习模型。 在此阶段,可以创建符合法规准则的模型。 若要取消标识所有模型数据,请删除个人信息。

  6. 模型或已取消标识的数据将保存到安全存储帐户上的单独位置,称为 导出路径。 向导出路径添加新数据时,将触发逻辑应用。 在此体系结构中,逻辑应用程序在安全环境之外运行,因为它不会接收数据。 它的唯一功能是发送通知并启动手动审批过程。

    逻辑应用通过请求对排队等待导出的数据进行审核来启动审批流程。 手动审阅者有助于确保不会导出敏感数据。 评审过程后,审阅者要么批准或拒绝数据。

    注意

    如果不需要批准数据导出,可以跳过逻辑应用步骤。

  7. 如果审阅者批准已取消标识的数据,系统会将其发送到数据工厂。

  8. 数据工厂将数据移到单独的容器中的公共存储帐户,以便外部研究人员可以访问导出的数据和模型。 或者,可以在较低的安全环境中设置另一个存储帐户。

组件

此体系结构由多个 Azure 服务组成,这些服务可根据需求缩放资源。 以下部分介绍这些服务及其角色。

核心工作负载组件

以下核心组件移动和处理研究数据:

  • Azure 数据科学 VM 是使用用于数据分析和机器学习的工具配置的 VM。 在此体系结构中,它们为研究人员提供了专用的安全计算资源,用于在隔离环境中进行数据准备、分析和模型训练。 数据科学 VM 提供特定的包或工具,如矩阵实验室(MATLAB)或统计分析系统(SAS),平台即服务(PaaS)环境不支持。 为获得安全性和易用性,请在支持时选择机器学习和其他 PaaS 选项。

  • 机器学习 是一项服务,用于训练、部署、自动化和管理机器学习模型。 在此体系结构中,它有助于模型开发和业务流程,同时维护对数据访问和计算资源的安全控制。 它还可以管理机器学习计算资源的分配和使用。 机器学习提供了在开发过程中运行 Jupyter 笔记本的首选环境。

  • 机器学习计算 是一个节点群集,可以训练和测试机器学习和 AI 模型。 在此体系结构中,它为研究提供自动可缩放、安全且隔离的计算资源。 可以将 Visual Studio Code (VS Code) 部署为虚拟桌面中的流式处理应用程序,并将其连接到备用开发环境的机器学习计算。

  • Blob 存储 是一种对象存储解决方案,用于在云中存储非结构化数据。 在此体系结构中,它充当主存储解决方案,并且有两个实例。 公共实例临时存储数据所有者上传的数据。 在将数据建模到单独的容器中后,它会存储已取消标识的数据。 专用实例从机器学习接收训练和测试数据集。 训练脚本使用这些数据集。 系统将存储作为虚拟驱动器装载到机器学习计算群集的每个节点上。

  • Fabric 是大数据和管道的分析平台,提供数据集成和提取、转换、加载(ETL)功能。 它充当运行 Apache Spark 工作负载的首选服务。 在此体系结构中,Fabric 为可通过安全专用终结点访问的研究数据集启用高级分析和数据集成。

  • 数据工厂 是 Fabric 中的基于云的数据集成服务,可协调和作数据移动和转换工作流。 在此体系结构中,它会在具有不同安全级别的存储帐户之间移动数据,强制执行职责分离,并在整个安全环境中管理数据流。

  • 虚拟桌面 是在云中运行的桌面和应用虚拟化服务。 在此体系结构中,它充当一个跳转框,提供对安全环境中资源的访问权限。 研究人员可以根据需要使用虚拟桌面,通过流式应用程序和完整桌面连接到数据科学虚拟机。

    或者,可以使用 Azure Bastion,但了解这两个选项之间的安全控制差异。 虚拟桌面具有以下优点:

    • 流式传输 VS Code 等应用程序以在机器学习计算资源上运行笔记本

    • 限制复制、粘贴和屏幕截图

    • 支持 Microsoft Entra 认证用于数据科学虚拟机

  • Azure 逻辑应用 是一项服务,可自动执行工作流,并跨企业或组织集成应用、数据、系统和服务。 在此体系结构中,它管理手动审批过程的触发器和发布部分。

状况管理组件

以下组件持续监视工作负荷及其环境的态势。 使用这些组件发现风险并立即缓解风险。

  • Microsoft Defender for Cloud 是一项服务,用于评估实现的总体安全状况,并提供法规合规性证明机制。 在此体系结构中,它有助于尽早检测问题,而不是在审核或评估期间。 使用安全功能分数和合规性分数等功能跟踪进度。 这些分数有助于检查符合性。

  • Microsoft Sentinel 是一种安全信息和事件管理(SIEM)解决方案,也是安全业务流程、自动化和响应(SOAR)解决方案。 在此体系结构中,它会集中日志、检测威胁,并自动执行研究环境的安全响应。 可以集中查看来自各种源的日志和警报。 利用高级 AI 和安全分析来检测、调查、防止和响应威胁。 此功能提供了宝贵的安全见解,可帮助确保与工作区关联的流量和活动满足预期。

  • Azure Monitor 是一种监视解决方案,用于收集、分析和响应来自云和本地环境的遥测数据。 在此体系结构中,它将收集和可视化指标、活动日志和诊断,以支持作监视和事件检测。 管理工具(如 Defender for Cloud 中的工具)还会将日志数据推送到 Azure Monitor。

治理组件

  • Azure Policy 是一种治理工具,用于强制实施组织标准并大规模评估合规性。 在此体系结构中,它有助于确保资源和工作负载遵守安全和配置策略。

备选方法

  • 此解决方案使用数据工厂将数据移到单独的容器中的公共存储帐户,以便外部研究人员可以访问导出的数据和模型。 或者,可以使用数据工厂将数据传输到一个独立容器中的公共存储帐户,或者在安全性较低的环境中设置另一个存储帐户,以实现相同的目的。

  • 此解决方案使用虚拟桌面作为跳转盒,通过提供流式处理应用程序和完整桌面来访问安全环境中的资源。 或者,可以使用 Azure Bastion,但虚拟桌面具有优势。 这些优点包括流式传输应用、限制复制和粘贴功能以及屏幕捕获,并支持Microsoft Entra 身份验证。 另请考虑配置点到站点虚拟专用网络(VPN),以支持本地脱机培训。 此 VPN 有助于降低工作站的多个 VM 的成本。

  • 为了保护静态数据,此解决方案使用强加密加密通过Microsoft管理的密钥加密所有Azure 存储帐户。 或者,可以使用客户管理的密钥。 必须将密钥存储在托管密钥存储中。

方案详细信息

此方案结合了个人必须访问但不允许存储或传输的受管制数据和专用数据。 下列条件适用:

  • 组织外部的数据科学家需要完全访问数据来训练和导出其模型,但任何专有或受保护的数据都不能离开环境。

  • 必须隔离访问权限。 即使数据所有者和保管人在将数据上传到环境中后也无法访问数据。

  • 必须要求导出审核记录,以确保仅将模型从环境中转移出来。

可能的用例

此体系结构最初是为具有医疗保险可移植性和责任法(HIPAA)要求的高等教育研究机构创建的。 可以在任何需要数据隔离的行业中出于研究目的使用此设计。 请考虑以下示例:

  • 根据国家标准与技术研究所(NIST)要求处理受监管数据的行业

  • 与内部或外部研究人员协作的医疗中心

  • 银行和金融行业

按照本文中的指导,保持对研究数据的完全控制,保持职责分离,并符合严格的法规合规性标准。 此方法还有助于在面向研究的环境中的关键角色(如数据所有者、研究人员和审批者)之间进行协作。

注意事项

这些注意事项实施 Azure 架构良好的框架的支柱原则,即一套可用于改进工作负荷质量的指导原则。 有关详细信息,请参阅 Well-Architected Framework

可靠性

可靠性有助于确保应用程序能够履行对客户的承诺。 有关详细信息,请参阅可靠性设计评审核对清单

大多数研究解决方案包括临时工作负荷,这些工作负载不需要长时间保持可用。 此体系结构使用具有可用性区域的单区域部署。 如果业务需求要求更高的可用性,请在多个区域中复制此体系结构。 添加组件(如全局负载均衡器和分发服务器)以将流量路由到这些区域。 作为恢复策略的一部分,请使用 Azure VM 映像生成器捕获和创建自定义基础映像的副本。

安全性

安全性提供针对故意攻击和滥用宝贵数据和系统的保证。 有关详细信息,请参阅可靠性设计审查检查表

此体系结构的主要目标是提供一个安全且受信任的研究环境,严格限制安全区域的数据外泄。

网络安全性

在安全环境中设置 Azure 资源。 这些资源存储、测试和训练研究数据集。 环境驻留在具有网络安全组(NSG)规则以限制访问的 Azure 虚拟网络中。 这些规则适用于以下方面:

  • 对公共 Internet 和虚拟网络内的入站和出站访问。

  • 访问特定服务和端口或从特定服务和端口进行访问。 例如,此体系结构会阻止所有端口范围,只有 Azure 服务(如 Azure Monitor)所需的端口范围除外。 有关服务标记和相应服务的完整列表,请参阅 虚拟网络服务标记

    从包含虚拟桌面的虚拟网络进行访问仅限于特定端口上已批准的访问方法,但所有其他流量均被拒绝。 与此环境相比,包含虚拟桌面的其他虚拟网络相对开放。

安全环境中的主 Blob 存储实例不会向公共 Internet 公开。 只能在虚拟网络中通过 专用终结点连接 和存储防火墙访问它。 使用这些控件可限制客户端可用于连接到 Azure 文件中文件共享的网络。

此体系结构对安全环境中的主数据存储使用基于凭据的身份验证。 在此设置中,密钥保管库存储连接信息,例如订阅 ID 和令牌授权。 或者,可以创建基于标识的数据访问,其中使用 Azure 帐户来确认你是否有权访问存储,而无需保存身份验证凭据。 有关详细信息,请参阅 创建数据存储

计算群集只能使用 Azure 专用链接生态系统和服务或专用终结点在虚拟网络中进行通信。 它不使用公共 IP 地址进行通信。 启用 “无公共 IP ”设置。 有关此功能的详细信息,请参阅 没有公共 IP 地址的计算实例和群集或无服务器计算

安全环境使用机器学习计算通过专用终结点访问数据集。 还可以配置 Azure 防火墙来控制机器学习计算的入站和出站访问,该计算驻留在机器学习工作区中。 有关详细信息,请参阅配置入站和出站网络流量

有关详细信息,请参阅 保护机器学习服务环境

对于无法通过专用终结点有效配置或进行有状态数据包检查的 Azure 服务,请考虑使用 Azure 防火墙或非 Microsoft 的网络虚拟设备(NVA)。

身份管理

此体系结构实现多层基于标识的安全控制。 可以通过 Azure 基于角色的访问控制(Azure RBAC)访问 Blob 存储。 虚拟桌面支持对数据科学 VM 进行Microsoft Entra 身份验证,这为研究人员的访问增加了额外的安全层。

数据工厂使用 受信任的工作区访问权限 安全地连接到 Blob 存储帐户中的数据。 此方法使用工作区的托管标识绕过防火墙限制和访问受保护的存储,而无需公开公共网络。 数据科学 VM 还使用托管标识执行纠正任务,以确保在 Fabric 环境中的安全操作。

数据安全

若要保护静态数据,Microsoft管理的密钥使用强加密来加密所有存储帐户。

或者,可以使用客户管理的密钥。 必须将密钥存储在托管密钥存储中。 在此体系结构中,你将在安全环境中部署 Azure 密钥库,以存储加密密钥和证书等机密。 安全虚拟网络中的资源通过专用终结点密钥库访问。

治理注意事项

启用 Azure Policy 以强制实施标准并提供自动修正,使资源符合特定策略。 可以将策略应用于项目订阅或管理组级别,可以是单个策略,也可以作为法规计划的一部分。

例如,在此体系结构中,Azure 计算机配置适用于所有范围内的 VM。 该策略可以审核数据科学 VM 的操作系统和计算机配置。

VM 映像

数据科学 VM 运行自定义的基础映像。 若要生成基础映像,请使用 VM 映像生成器等技术。 可以根据需要创建可部署的可重复映像。

基础映像可能需要更新,例如添加更多的二进制文件。 将这些二进制文件上传到公共 Blob 存储实例。 它们应流经安全环境,类似于数据所有者上传数据集的方式。

成本优化

成本优化侧重于减少不必要的开支和提高运营效率的方法。 有关详细信息,请参阅成本优化设计评审核对清单

数据科学 VM 的成本取决于基础 VM 系列。 工作负荷是临时的,因此请对逻辑应用资源使用消耗计划。 若要根据所需资源的估计大小估算成本,请使用 Azure 定价计算器。 当环境未用于帮助优化成本和提高安全性时,请关闭环境。

性能效率

性能效率是指工作负荷能够高效地缩放以满足用户需求。 有关详细信息,请参阅性能效率设计评审核对清单

为数据科学 VM 的工作类型选择适当的大小和类型。 此体系结构支持单个研究项目。 若要实现可伸缩性,请调整 VM 的大小和类型,并选择机器学习支持的计算资源。

作者

Microsoft维护本文。 以下参与者撰写了本文。

首席作者:

其他参与者:

若要查看非公开的LinkedIn个人资料,请登录LinkedIn。

后续步骤