你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

机器学习操作

2025-04-30

本文介绍用于机器学习运营的三个 Azure 体系结构，这些体系结构具有端到端持续集成和持续交付 (CI/CD) 管道和重新训练管道。这些体系结构适用于以下 AI 应用程序：

经典机器学习
计算机视觉 (CV)
自然语言处理

这些体系结构是 MLOps v2 项目的产物。它们结合了在开发多个机器学习解决方案的过程中的解决方案架构师确定的最佳做法。结果为可部署、可重复且可维护的模式。所有三个体系结构都使用 Azure 机器学习服务。

有关 MLOps v2 的示例部署模板的实现，请参阅 Azure MLOps v2 GitHub 存储库。

可能的用例

经典机器学习：表格结构化数据的时序预测、回归和分类是此类别中最常见的用例。示例包括：
- 二进制和多标签分类。
- 线性回归、多项式回归、岭回归、套索回归、分位数回归和贝叶斯回归。
- ARIMA、自动回归、SARIMA、VAR、SES、LSTM。
CV：本文中的 MLOps 框架主要侧重于分段和图像分类的 CV 用例。
自然语言处理：可以使用此 MLOps 框架来实现：
- 命名实体识别
- 文本分类
- 文本生成
- 情绪分析
- 翻译
- 问题解答
- 汇总
- 句子检测程序
- 语言检测
- 词性标记

本文未介绍 AI 模拟、深度强化学习和其他形式的 AI。

在 AI 工作负载中，MLOps 是一个关键设计领域

MLOps 和 GenAIOps 的规划和实现是 Azure 上的 AI 工作负载的核心设计领域。若要了解这些机器学习工作负载为何需要专用操作的背景，请参阅 Azure Well-Architected 框架中 Azure 上适用于 AI 工作负荷的 MLOps 和 GenAIOps。

体系结构

MLOps v2 体系结构模式具有 MLOps 生命周期的四个主要模块化组件或阶段：

数据资产
管理和设置
模型开发或内部循环阶段
模型部署或外部循环阶段

上述组件、它们之间的连接和涉及的典型角色都是所有 MLOps v2 方案体系结构的标准。每个组成部分的细节变化取决于具体情况

机器学习 MLOps v2 的基本体系结构是针对表格数据的经典机器学习方案。 CV 和 NLP 体系结构基于此基础体系结构进行构建和修改。

MLOps v2 介绍了本文中所述的以下体系结构：

经典机器学习体系结构
机器学习 CV 体系结构
机器学习自然语言处理体系结构

经典机器学习体系结构

下载此体系结构的 Visio 文件。

经典机器学习体系结构的工作流

数据资产

此组件说明了组织的数据资产，以及数据科学项目的潜在数据源和目标。数据工程师是 MLOps v2 生命周期中此组件的主要所有者。此图中的 Azure 数据平台既不详尽也不具有规范性。绿色复选标记指示数据源和目标，它们根据客户用例表示推荐的最佳做法。
管理和设置

此组件是 MLOps v2 解决方案部署中的第一步。它包含与创建和管理与项目关联的资源和角色相关的所有任务。例如，基础结构团队可能：
1. 创建项目源代码存储库。
2. 使用 Bicep 或 Terraform 创建机器学习工作区。
3. 创建或修改数据集和计算资源，以便进行模型开发和部署。
4. 定义项目团队用户、其角色和对其他资源的访问控制。
5. 创建 CI/CD 管道。
6. 创建监视组件来收集和创建模型和基础结构指标的警报。
与此阶段关联的主要角色是基础结构团队，但组织也可能存在数据工程师、机器学习工程师和数据科学家。
模型开发（内部循环阶段）

内部循环阶段由迭代数据科学工作流组成，该工作流在专用的安全 Azure 机器学习工作区中运行。上图显示了典型的工作流。该过程从数据引入开始，通过探索性数据分析、试验、模型开发和评估进行移动，然后注册模型以供生产使用。此模块化组件对数据科学团队用于开发模型的过程持中立态度，可适应各种流程。

与此阶段相关的角色包括数据科学家和机器学习工程师。
机器学习注册表

在数据科学团队开发了一个可用于部署到生产环境的模型之后，他们会在 Azure 机器学习工作区注册表中注册该模型。通过模型注册或封闭的人工循环审批自动触发的 CI 管道，将模型和其他任何模型依赖项提升到模型部署阶段。

与此阶段关联的角色通常是机器学习工程师。
模型部署（外部循环阶段）

模型部署或外部循环阶段包括预生产暂存和测试、生产部署以及模型、数据和基础结构的监视。当模型满足适合组织和用例的条件时，CD 管道通过生产、监视和潜在的再培训来提升模型和相关资产。

与此阶段关联的角色主要是机器学习工程师。
暂存和测试

过渡阶段和测试阶段因客户做法而异。此阶段通常包括对生产数据的模型候选项进行重新训练和测试、终结点性能测试部署、数据质量检查、单元测试以及对模型和数据偏差负责任 AI 检查等操作。此阶段发生在一个或多个专用、安全的 Azure 机器学习工作区中。
生产部署

模型通过暂存和测试阶段后，机器学习工程师可以使用人参与的闭环审批将其投入生产环境。模型部署选项包括用于批处理方案的托管批处理终结点，或者对联机准实时方案使用 Azure Arc 的托管联机终结点或 Kubernetes 部署。生产通常发生在一个或多个专用、安全的 Azure 机器学习工作区中。
监控

机器学习工程师监视暂存、测试和生产中的组件，以收集与模型、数据和基础设施性能变化相关的指标。他们可以使用这些指标采取措施。模型和数据监视可以包括检查模型和数据偏移、新数据的模型性能以及负责任的 AI 问题。基础结构监视可能会发现终结点响应速度缓慢、计算容量不足或网络问题。
数据和模型监视：事件和操作

根据有关指标阈值或计划等模型和数据标准，自动化触发器和通知可以实现要采取的适当操作。例如，触发器可能会重新训练模型以使用新的生产数据，然后将模型环回至暂存和测试阶段以进行生产前评估。或者，模型或数据问题可能会触发需要环回至模型开发阶段的操作，在该阶段，数据科学家可以调查问题，并可能开发新的模型。
基础设施监控：事件和操作

根据有关的基础结构问题的标准（例如终结点响应滞后或部署计算不足），自动化触发器和通知可以执行要采取的适当操作。自动触发器和通知可能会触发到设置和管理阶段的环回，此时基础结构团队可以调查问题并可能重新配置计算和网络资源。

机器学习 CV 架构

下载此体系结构的 Visio 文件。

CV架构的工作流程

机器学习的 CV 架构基于经典的机器学习架构，但针对监督式 CV 场景进行了特定修改。

数据资产

此组件展示了组织的数据资产，以及数据科学项目的潜在数据源和目标。数据工程师是 MLOps v2 生命周期中此组件的主要所有者。此图中的 Azure 数据平台既不详尽也不具有规范性。 CV 场景的图像可能来自各种数据源。为提高使用 Azure 机器学习开发和部署 CV 模型的效率，我们建议使用 Azure Blob 存储和 Azure Data Lake Storage。
管理和设置

此组件是 MLOps v2 部署中的第一步。它包含与创建和管理与项目关联的资源和角色相关的所有任务。对于 CV 场景，MLOps v2 环境的管理和设置与传统机器学习大致相同，但包含额外的步骤。基础结构团队使用机器学习的标记功能或其他工具来创建图像标记和批注项目。
模型开发（内部循环阶段）

内部循环阶段由迭代数据科学工作流组成，该工作流在专用的安全 Azure 机器学习工作区中运行。此工作流与经典机器学习方案的主要区别在于图像标记和批注是此开发循环的关键组件。
机器学习注册表

在数据科学团队开发了一个可用于部署到生产环境的模型之后，他们会在 Azure 机器学习工作区注册表中注册该模型。通过模型注册或封闭的人工循环审批自动触发的 CI 管道，将模型和其他任何模型依赖项提升到模型部署阶段。
模型部署（外部循环阶段）

模型部署或外部循环阶段包括预生产暂存和测试、生产部署以及模型、数据和基础结构的监视。当模型满足适合组织和用例的条件时，CD 管道通过生产、监视和潜在的再培训来提升模型和相关资产。
暂存和测试

过渡阶段和测试阶段因客户做法而异。该阶段通常包括终结点性能测试部署、数据质量检查、单元测试以及对模型和数据偏差负责的 AI 检查等操作。对于 CV 场景，由于资源和时间限制，机器学习工程师不需要在生产数据上重新训练候选模型。数据科学团队可以改用生产数据进行模型开发。从开发循环中注册的候选模型将经过生产评估。此阶段发生在一个或多个专用、安全的 Azure 机器学习工作区中。
生产部署

模型通过暂存和测试阶段后，机器学习工程师可以使用人参与的闭环审批将其投入生产环境。模型部署选项包括用于批处理方案的托管批处理终结点，或者对联机准实时方案使用 Azure Arc 的托管联机终结点或 Kubernetes 部署。生产通常发生在一个或多个专用、安全的 Azure 机器学习工作区中。
监控

机器学习工程师监视暂存、测试和生产中的组件，以收集与模型、数据和基础设施性能变化相关的指标。他们可以使用这些指标采取措施。模型和数据监视可以包括检查新图像上的模型性能。基础结构监视可能会发现终结点响应速度缓慢、计算容量不足或网络问题。
数据和模型监视：事件和操作

用于自然语言处理的 MLOps 的数据和模型监控，以及事件和行为阶段，是与传统机器学习的关键区别之所在。检测到新图像上的模型性能降级时，通常不会在 CV 方案中自动重新训练。在这种情况下，需要使用“人工干预”过程来审查和批注表现不佳的模型的新映像。下一步操作通常是返回到模型开发循环，以使用新的图像更新模型。
基础设施监控：事件和操作

根据有关的基础结构问题的标准（例如终结点响应滞后或部署计算不足），自动化触发器和通知可以执行要采取的适当操作。自动触发器和通知可能会触发到设置和管理阶段的环回，此时基础结构团队可以调查问题并可能重新配置环境、计算和网络资源。

机器学习自然语言处理体系结构

下载此体系结构的 Visio 文件。

自然语言处理体系结构的工作流

机器学习自然语言处理体系结构基于经典机器学习体系结构，但它专门修改了 NLP 方案。

数据资产

此组件展示了组织的数据资产，以及数据科学项目的潜在数据源和目标。数据工程师是 MLOps v2 生命周期中此组件的主要所有者。此图中的 Azure 数据平台既不详尽也不具有规范性。绿色复选标记指示源和目标，它们根据客户用例表示推荐的最佳做法。
管理和设置

此组件是 MLOps v2 部署中的第一步。它包含与创建和管理与项目关联的资源和角色相关的所有任务。对于自然语言处理方案，MLOps v2 环境的管理和设置与传统机器学习大致相同，但还有一个额外的步骤：使用机器学习或其他工具的标记功能创建文本标记和批注项目。
模型开发（内部循环阶段）

内部循环阶段由迭代数据科学工作流组成，该工作流在专用的安全 Azure 机器学习工作区中运行。典型的 NLP 模型开发循环与经典机器学习场景不同，此场景的典型开发步骤包括句子注释器和文本数据的标记化、规范化和嵌入。
机器学习注册表

在数据科学团队开发了一个可用于部署到生产环境的模型之后，他们会在 Azure 机器学习工作区注册表中注册该模型。通过模型注册或封闭的人工循环审批自动触发的 CI 管道，将模型和其他任何模型依赖项提升到模型部署阶段。
模型部署（外部循环阶段）

模型部署或外部循环阶段包括预生产暂存和测试、生产部署以及模型、数据和基础结构的监视。当模型满足适合组织和用例的条件时，CD 管道通过生产、监视和潜在的再培训来提升模型和相关资产。
暂存和测试

过渡阶段和测试阶段因客户做法而异。此阶段通常包括对生产数据的模型候选项进行重新训练和测试、终结点性能测试部署、数据质量检查、单元测试以及对模型和数据偏差负责任 AI 检查等操作。此阶段发生在一个或多个专用、安全的 Azure 机器学习工作区中。
生产部署

模型通过暂存和测试阶段后，机器学习工程师可以使用人参与的闭环审批将其投入生产环境。模型部署选项包括用于批处理方案的托管批处理终结点，或者对联机准实时方案使用 Azure Arc 的托管联机终结点或 Kubernetes 部署。生产通常发生在一个或多个专用、安全的 Azure 机器学习工作区中。
监控

机器学习工程师监视暂存、测试和生产中的组件，以收集与模型、数据和基础设施性能变化相关的指标。他们可以使用这些指标采取措施。模型和数据监视可以包括检查模型和数据偏移、新数据的模型性能以及负责任 AI 问题。基础结构监视可能会发现终结点响应缓慢、计算容量不足或网络问题。
数据和模型监视：事件和操作

与 CV 体系结构一样，用于自然语言处理的 MLOps 的数据和模型监视以及事件和操作阶段是经典机器学习的主要区别。检测到新文本的模型性能降低时，通常不会在自然语言处理场景中执行自动重新训练。在这种情况下，需要使用“人在回路”过程来审查和批注表现不佳的模型的新文本数据。下一步操作通常是返回到模型开发循环，以使用新的文本数据更新模型。
基础设施监控：事件和操作

根据有关的基础结构问题的标准（例如终结点响应滞后或部署计算不足），自动化触发器和通知可以执行要采取的适当操作。自动触发器和通知可能会触发到设置和管理阶段的环回，此时基础结构团队可以调查问题并可能重新配置计算和网络资源。

组件

机器学习是一项云服务，可用于大规模训练、评分、部署和管理机器学习模型。
Azure Pipelines 是基于 Azure DevOps 的生成和测试系统，用于生成和发布管道。 Azure Pipelines 将这些管道拆分为称为 任务的逻辑步骤。
GitHub 是用于版本控制、协作和 CI/CD 工作流的代码托管平台。
Azure Arc 是一个平台，使用 Azure 资源管理器管理 Azure 资源和本地资源。这些资源可以包括虚拟机、Kubernetes 群集和数据库。
Kubernetes 是一个开源系统，可用于自动部署、缩放和管理容器化应用程序。
Azure Data Lake Storage 是一个与 Hadoop 兼容的文件系统。具有 Blob 存储的大规模和经济性，并且集成了分层命名空间。
Azure Synapse Analytics 是一种无限的分析服务，它汇集了数据集成、企业数据仓库和大数据分析。
Azure 事件中心是一项服务，用于引入客户端应用程序生成的数据流。随后会引入并存储流数据，从而保留接收事件的序列。使用者可以连接到中心终结点，以检索要处理的消息。此体系结构使用 Data Lake Storage 集成。

其他注意事项

前面的 MLOps v2 体系结构模式有几个重要组件，包括与业务利益相关者保持一致的基于角色的访问控制 (RBAC)、高效的包管理和强大的监控机制。这些组件共同有助于成功实现和管理机器学习工作流。

基于角色的 RBAC

管理对机器学习数据和资源的访问至关重要。 RBAC 提供了一个可靠的框架，可帮助您管理谁可以执行特定操作并访问解决方案中的特定区域。设计标识分段策略，使其符合机器学习中机器学习模型的生命周期以及流程中包含的角色。每个角色都有一组特定的职责，这些职责反映在其 RBAC 角色和组成员身份中。

示例角色

为了在机器学习工作负载中支持适当的分段，请考虑以下常见角色，以便为基于标识的 RBAC 组设计提供信息。

数据科学家和机器学习工程师

数据科学家和机器学习工程师在项目的软件开发生命周期内执行各种机器学习和数据科学活动。其职责包括探索数据分析和数据预处理。数据科学家和机器学习工程师负责训练、评估和部署模型。这些角色的职责还包括机器学习模型、包和数据的中断修复活动。这些职责不适用于平台的技术支持团队。

类型：人员
项目特定： 是的

数据分析师

数据分析师为数据科学活动提供必要的输入，例如为商业智能运行 SQL 查询。此角色的职责包括处理数据、执行数据分析以及支持模型开发和模型部署。

类型：人员
项目特定： 是的

模型测试人员

模型测试人员在测试和过渡环境中进行测试。此角色在功能上与 CI/CD 进程保持隔离。

类型：人员
项目特定： 是的

业务利益干系人

业务利益干系人（如营销经理）与项目相关联。

类型：人员
项目特定： 是的

项目主管或数据科学主管

数据科学主管是机器学习工作区的项目管理角色。此角色还会对机器学习模型和包执行故障修复活动。

类型：人员
项目特定： 是的

项目或产品所有者（业务所有者）

业务利益干系人根据数据所有权负责机器学习工作区。

类型：人员
项目特定： 是的

平台技术支持

平台技术支持是负责平台内修复问题活动的技术支持人员。此角色涵盖基础结构或服务，但不包括机器学习模型、包或数据。这些组件仍由数据科学家或机器学习工程师担任负责，但最终责任由项目主管承担。

类型：人员
项目特定： 不

模型最终用户

模型终端用户是机器学习模型的最终用户。

类型： 人员或流程
项目特定： 是的

CI/CD 处理过程

CI/CD 处理跨平台环境的发布或回滚更改。

类型： 过程
项目特定： 不

机器学习工作区

机器学习工作区使用托管标识来与 Azure 的其他部分进行交互。此角色表示构成机器学习实现的各种服务。这些服务与平台的其他部分（例如与开发数据存储连接的开发工作区）进行交互。

类型： 过程
项目特定： 不

监视过程

监视进程是基于平台活动进行监视和发出警报的计算进程。

类型： 过程
项目特定： 不

数据治理流程

数据管理过程会扫描机器学习项目和数据存储，以便进行数据管理。

类型： 过程
项目特定： 不

Microsoft Entra 组成员身份

实现 RBAC 时， Microsoft Entra 组提供了一种灵活且可缩放的方式来管理不同角色的访问权限。您可以使用 Microsoft Entra 组用于管理用户，这些用户需要对资源（例如可能受限的应用和服务）具有相同的访问权限和权限。无需向单个用户添加特殊权限，而是创建一个组，并将特殊权限应用于该组的每个成员。

在此体系结构模式中，可以将这些组与机器学习工作区设置（如项目、团队或部门）耦合。您可以将用户与特定组相关联，以定义细化访问策略。策略根据作业功能、项目要求或其他条件授予或限制对各种机器学习工作区的权限。例如，您可以建立一个组，授予所有数据科学家访问特定用例的开发工作区的权限。

标识 RBAC

请考虑如何使用以下内置 Azure RBAC 角色将 RBAC 应用到生产和预生产环境。对于本文中的体系结构，生产环境包括过渡、测试和生产环境。预生产环境包括开发环境。以下 RBAC 角色基于本文前面所述的角色。

标准角色

组件特定的角色

这些 Azure RBAC 角色缩写与下表相对应。

生产环境

角色	机器学习工作区	Azure Key Vault	容器注册表	Azure 存储帐户	Azure DevOps	Azure Artifacts	Log Analytics 工作区	Azure Monitor
数据科学家			R				LAR	先生
数据分析师
模型测试人员
业务利益干系人								先生
项目主管（数据科学主管）	R	R、KVR	R				LAR	先生
项目/产品所有者								先生
平台技术支持	O	O，KVA			多普斯卡	O	O	O
模型最终用户
CI/CD 处理过程	O	O，KVA	AcrPush		多普斯卡	O	O	O
机器学习工作区		R	C	C
监视过程	R						LAR	先生
数据治理流程	R		R	R	R	R

预生产环境

角色	机器学习工作区	密钥保管库	容器注册表	存储帐户	Azure DevOps	Azure Artifacts	Log Analytics 工作区	Azure Monitor
数据科学家	广告	R、KVA	C	C	C	C	紫胶	司仪
数据分析师	R			C			LAR	司仪
模型测试人员	R	R、KVR	R	R	R	R	LAR	先生
业务利益干系人	R		R	R	R	R
项目主管（数据科学主管）	C	C、KVA	C	C	C	C	紫胶	司仪
项目/产品所有者	R			R				先生
平台技术支持	O	O，KVA	O	O	多普斯卡	O	O	O
模型最终用户
CI/CD 处理过程	O	O，KVA	AcrPush	O	多普斯卡	O	O	O
机器学习工作区		R、KVR	C	C
监视过程	R	R	R	R	R	R	紫胶
数据治理流程	R		R	R

注意

除平台技术支持（其具有临时或按需 Microsoft Entra Privileged Identity Management （PIM）访问权限）外，每个用户角色在项目期间都保留访问权限。

RBAC 在保护和简化 MLOps 工作流方面发挥着重要作用。 RBAC 基于分配的角色限制访问，并防止未经授权的用户访问敏感数据，从而降低安全风险。敏感数据包括训练数据或模型以及关键基础结构，例如生产管道。您可以使用 RBAC 来确保符合数据隐私法规。 RBAC 还提供清晰的访问和权限记录，这简化了审核工作，使用户能够轻松识别安全漏洞并跟踪用户活动。

包管理

在 MLOps 生命周期中，对各种包、库和二进制文件的依赖关系很常见。这些依赖关系通常由社区开发并快速演变，需要主题专家知识才能正确使用和理解。您必须确保适当的人员能够安全地访问各种资产，例如包和库，但还必须防止漏洞。数据科学家在为机器学习解决方案组装专用构建基块时遇到此问题。传统的软件管理方法成本高昂且效率低下。其他方法可提供更多价值。

若要管理这些依赖项，可以根据隔离模式使用安全的自助服务包管理过程。您可以设计将此过程，允许数据科学家从精心策划的包列表中自行提供服务，并确保包安全且符合组织标准。

此方法包括安全列出三个行业标准机器学习包存储库：Microsoft 工件注册表、Python 包索引 (PyPI) 和 Conda。安全列表可以实现从单个机器学习工作区进行自助服务。然后在部署过程中使用自动化测试过程扫描生成的解决方案容器。失败后可以优雅地退出部署过程并删除容器。下图和流程演示了此过程：

处理流程

在具有网络配置的机器学习工作区中工作的数据科学家可以从机器学习包存储库按需自主获取机器学习包。对于其余的所有设置，都需要使用专用存储模式进行例外处理，该模式通过集中式功能进行植入和维护。
机器学习将机器学习解决方案作为 Docker 容器提供。开发这些解决方案后，它们被上传到容器注册表。 Microsoft Defender for Containers 为容器映像生成漏洞评估。
解决方案部署通过 CI/CD 过程进行。 Microsoft Defender for DevOps 在整个堆栈中使用，以提供安全态势管理和威胁防护。
仅当解决方案容器通过每个安全进程时，才会部署该容器。如果解决方案容器未能通过安全过程，部署将失败并显示错误通知和完整的审核线索。解决方案容器将被丢弃。

前面的进程流为数据科学家提供了安全的、自助服务的包管理过程，并确保包安全且符合组织标准。为了平衡创新和安全性，可以向数据科学家授予对预生产环境中的常见机器学习包、库和二进制文件的自助服务访问权限。对不常用的软件包规定例外情况。此策略可确保数据科学家在开发期间保持高效，从而防止交付过程中出现重大瓶颈。

为了简化发布过程，可将用于生产环境的环境容器化。通过漏洞扫描，容器化环境可减少工作量，并确保持续安全。此过程流提供了一种可重复的方法，可广泛应用于各种用例，直到交付。它降低了在企业中生成和部署机器学习解决方案的总体成本。

监控

在 MLOps 中，监视对于维护机器学习系统的运行状况和性能、确保模型保持有效且符合业务目标至关重要。监视支持内部循环阶段的治理、安全性和成本控制。在外部循环阶段部署解决方案时，它提供性能、模型降级和使用情况的可观测性。监视活动适用于数据科学家、业务利益干系人、项目主管、项目所有者、平台技术支持、CI/CD 流程和监视流程等角色。

根据机器学习工作区设置（如项目、团队或部门）选择监视和验证平台。

模型性能

监视模型性能，以尽早检测模型问题和性能下降。跟踪性能，确保模型保持准确、可靠且符合业务目标。

数据偏移

数据偏移通过将模型训练数据或最近的生产数据进行比较来跟踪模型输入数据的分布变化。这些更改是由市场动态变化、特征转换更改或上游数据更改的结果。此类更改可能会降低模型性能，因此请务必监视偏移以确保及时修正。若要执行比较，数据偏移重构需要使用最近的生产数据集和输出。

环境： 生产
Azure 支持： 机器学习 - 模型监控

预测偏移

预测偏移通过将模型的预测输出与验证数据、测试标记数据或最近的生产数据进行比较来跟踪模型预测输出分布的变化。若要执行比较，数据偏移重构需要使用最近的生产数据集和输出。

环境： 生产
Azure 支持： 机器学习 - 模型监控

资源

使用多个提供终结点指标的模型来指示质量和性能，例如 CPU 或内存使用情况。此方法可帮助您从生产中吸取教训，有助于推动未来的投资或改变。

环境： 全部
Azure 协助：监视 - 联机终结点指标

使用情况指标

监视终结点的使用，以确保满足组织特定的或特定于工作负荷的关键绩效指标，跟踪使用模式，并诊断和修正用户遇到的问题。

客户端请求

跟踪对模型终结点的客户端请求数量，以了解终结点的活跃使用情况，这可能会影响扩展或成本优化工作。

环境： 生产
Azure 协助：监视 - 联机终结点指标，例如 RequestsPerMinute。 笔记：

可以根据 T 恤尺寸选择法或针对工作负载需求定制的异常情况来调整可接受的阈值。
停用不再在生产环境中使用的模型。

限制延迟

限制延迟是数据传输的请求和响应速度变慢。限制发生在资源管理器级别和服务级别。跟踪两个级别的指标。

环境： 生产
Azure 协助：

监视器 - 资源管理器，RequestThrottlingDelayMs 和 ResponseThrottlingDelayMs 的总和。
机器学习 - 若要检查终结点请求的相关信息，可以启用联机终结点流量日志。您可以使用 Log Analytics 工作区来处理日志。

笔记： 将可接受的阈值与工作负荷的服务级别目标（SLO）或服务级别协议（SLA）和解决方案的非功能要求（NFR）保持一致。

生成的错误

跟踪响应代码错误，以帮助衡量服务可靠性，并确保提前检测服务问题。例如，500 个服务器错误响应突然增加可能表明存在需要立即注意的关键问题。

环境： 生产
Azure 便利化： 机器学习 - 启用联机终结点流量日志以检查有关请求的信息。例如，您可以使用 ModelStatusCode 或 ModelStatusReason 检查 XRequestId 的计数。您可以使用 Log Analytics 工作区来处理日志。
笔记：

400 和 500 范围中的所有 HTTP 响应代码都归类为错误。

成本优化

云环境中的成本管理和优化至关重要，因为它们有助于工作负荷控制费用、高效分配资源，并从云服务中最大化价值。

工作区计算

当每月运营费用达到或超过预定义金额时，根据工作区设置边界生成警报，以通知相关利益干系人，例如项目主管或项目所有者。可以根据项目、团队或部门相关的边界确定工作区设置。

环境： 全部
Azure 协助：Microsoft 成本管理 - 预算警报
笔记：

根据初始 NFR 和成本估算设置预算阈值。
使用多个阈值层。多个阈值层可确保利益干系人在超出预算之前收到适当的警告。这些利益相关者可能包括业务负责人、项目所有者或项目负责人，具体取决于组织或工作负荷。
持续的预算警报也可能成为重构的触发因素，以支持更大的需求。

工作区陈旧

如果机器学习工作区未根据预期用例的关联计算使用情况显示活动使用的迹象，当给定项目不再需要工作区时，则项目所有者可能会停用工作区。

环境： 预生产
Azure 协助：

监控 - 机器学习指标
机器学习 - 工作区指标，例如某个期间活跃核心数量

笔记：

活动核心计数经聚合后应等于零。
将日期阈值与项目计划保持一致。

安全性

监视以检测与适当的安全控制和基线之间的偏差，以确保机器学习工作区符合组织的安全策略。您可以使用预定义策略和自定义策略的组合。

环境： 全部
Azure 协助：用于机器学习的 Azure Policy

终端安全

若要深入了解业务关键 API，请对所有机器学习终结点实施有针对性的安全监视。可以调查和改善 API 安全状况、确定漏洞修复的优先顺序，并快速检测活动实时威胁。

环境： 生产
Azure 便利化：Microsoft Defender for APIs 为 API 提供全面的生命周期保护、检测和响应。 笔记： Defender for API 为 Azure API 管理中发布的 API 提供安全性。您可以在 Microsoft Defender for Cloud 门户中或 Azure 门户的 API Management 实例中加入 Defender for API。您必须将机器学习联机终结点与API 管理集成。

部署监控

部署监视可确保创建的任何终结点都遵循工作负荷或组织策略，并且不受漏洞影响。此过程要求在部署前后对 Azure 资源强制实施合规性策略，通过漏洞扫描提供持续的安全性，并确保服务在操作过程中满足 SLO。

标准和治理

通过监视检测与相应标准的偏差，并确保工作负载遵守规定。

环境： 全部
Azure 协助：

通过 Azure Pipelines 托管策略分配和生命周期，以将策略视为代码。
适用于 Azure 的 PSRule 为 Azure 基础结构提供代码测试框架。
可以使用企业 Azure 策略作为代码来管理基于 CI/CD 的系统中的部署策略、策略集、策略分配、策略豁免和角色分配。

笔记： 有关详细信息，请参阅 Azure 机器学习法规符合性指南。

安全扫描

在自动化集成和部署过程中实现自动安全扫描。

环境： 全部
Azure 协助：Defender For DevOps
笔记： 可以使用 Azure 市场中的应用为非Microsoft安全测试模块扩展此过程。

持续服务

监视 API 的持续服务，以优化性能、安全性和资源使用情况。确保及时检测错误、高效故障排除和符合标准。

环境： 生产
Azure 协助：

监控 - 机器学习指标
机器学习 - 可以启用联机终结点流量日志来检查有关服务的信息。

贡献者

本文由 Microsoft 维护，它最初是由以下贡献者撰写的。

主要作者：

Setu Chokshi |高级技术专家

其他参与者：

斯科特·麦金农 |云解决方案架构师
达伦·图奇亚雷利 |云解决方案架构师
Leo Kozhushnik |云解决方案架构师

要查看非公开的 LinkedIn 个人资料，请登录到 LinkedIn。

通过

机器学习操作

可能的用例

在 AI 工作负载中，MLOps 是一个关键设计领域

体系结构

经典机器学习体系结构

经典机器学习体系结构的工作流

机器学习 CV 架构

CV架构的工作流程

机器学习自然语言处理体系结构

自然语言处理体系结构的工作流

组件

其他注意事项

基于角色的 RBAC

示例角色

数据科学家和机器学习工程师

数据分析师

模型测试人员

业务利益干系人

项目主管或数据科学主管

项目或产品所有者（业务所有者）

平台技术支持

模型最终用户

CI/CD 处理过程

机器学习工作区

监视过程

数据治理流程

Microsoft Entra 组成员身份

标识 RBAC

标准角色

组件特定的角色

生产环境

预生产环境

包管理

处理流程

监控

模型性能

数据偏移

预测偏移

资源

使用情况指标

客户端请求

限制延迟

生成的错误

成本优化

工作区计算

工作区陈旧

安全性

终端安全

部署监控

标准和治理

安全扫描

持续服务

贡献者

后续步骤

相关资源

反馈

其他资源