你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

管理 AI - 管理 AI 的过程

本文概述了管理 AI 工作负荷的组织流程。 它提供了从开发、部署到运营的 AI 工作负荷的管理建议。

显示 AI 采用过程的关系图:AI 策略、AI 计划、AI 就绪、治理 AI、管理 AI 和安全 AI。

管理 AI 操作

管理 AI 运营可确保整个 AI 生命周期的可见性与一致性。 通过采用 MLOps 等运营框架、创建沙盒环境和建立 CI/CD 管道,可以对开发、测试和部署进行监督。

  • 采用 AI 运营框架。 为传统机器学习工作流实现 MLOps(机器学习运营)框架,为生成式 AI 工作负荷实现 GenAIOps。 这些运营框架规划了 AI 开发的端到端周期。 每个框架都会影响工作负载团队的方法和工具。 有关详细信息,请参阅 MLOps 和 GenAIOps

  • 让 AI 开发工具标准化。 定义 SDK 和 API 的使用并使其标准化,以便在各开发团队之间保持一致。 适用于 AI 工作负荷的 Azure SDK 等工具提供了库和 API,它们经过了优化,可用于缩放 AI 模型并将其集成到应用程序中。 对于生成 AI,请标准化 AI 平台和协调器,例如 Azure AI Foundry 代理服务 和自承载的 语义内核。 关于 AI 代理编排示例,请参阅 基本 Azure AI Foundry 聊天参考架构

  • 使用沙盒环境进行 AI 试验。 使用沙盒环境进行 AI 模型试验。 你希望让开发、测试和生产环境保持一致。 因此,在 AI 开发生命周期中,沙盒环境应有别于开发、测试和生产环境。 如果在开发、测试和生产环境之间更改部署和治理模式,就会隐藏和引入破坏性更改。

  • 为部署建立持续集成和持续交付管道。 确保数据管道涵盖代码质量检查,包括 Linting 和静态分析。 数据管道还应包括单元测试和集成测试,以及试验和评估流程。 最后,纳入生产部署步骤,例如在手动批准后将发布的版本推广到测试和生产环境。 在模型和客户端用户界面之间保持隔离,以确保对一个组件的更新不会影响其他组件。 每个流程都应有自己的生命周期,以便进行独立提升。

管理 AI 部署

AI 部署管理就是要定义谁可以部署 AI 资源,以及谁来管理这些终结点。 由 AI 卓越中心领导的结构化方法可以帮助企业决定是由工作负荷团队还是中央团队来管理资源,从而在开发速度与治理要求之间取得平衡。 AI CoE 应牵头确定最佳方法。

  • 利用工作负荷团队管理 AI 资源,以加快开发速度。 当工作负荷团队管理 AI 资源时,他们拥有在治理政策范围内部署和管理 AI 资源的自主权。 使用 Azure Policy 在所有工作负荷环境中一致地实施治理。 创建并传达工作负荷团队必须遵循的 AI 策略,以弥补任何治理差距。 例如,创建生成式 AI 策略来执行内容筛选设置,并防止使用不允许的模型。 让工作负荷大的团队清楚了解这些策略,并定期进行审核。

    显示了 AI 工作负荷团队管理的示意图。 图 1. AI 资源的工作负荷团队管理。

  • 使用中央 AI 团队管理来提高 AI 治理。 在此方法中,单个团队管理所有 AI 工作负载的 AI 资源。 该团队负责部署核心 AI 资源,并配置所有工作负荷团队使用的安全和治理。 如果想让一个团队来控制整个工作负荷的 AI 部署和治理,则可以使用这种方法。

    显示了 AI 工作负荷共享管理的示意图。 图 2. 中央 AI 团队对 AI 资源的管理。

管理 AI 资源共享

使用 AI 资源共享减少管理开销,但仅在受控条件下。

  • 仅在单个工作负荷中共享 AI 资源。 当一个团队在同一工作负荷中管理多个应用程序时,共享 AI 终结点最有效。 这些应用程序必须共享相同的治理规则、内容筛选器和 AI 模型配置。 此方案中的资源共享可降低开销并简化部署。

  • 了解 Azure 订阅和区域配额限制。 共享 AI 资源使用情况可能会触发服务速率限制或配额上限。 了解 Azure 的订阅配额限制 ,以避免意外的服务中断。

  • 考虑如何在共享 AI 资源时跨团队分配成本。 如果组织按工作负荷、团队或业务部门(退款方案)跟踪成本,请为每个计费边界创建单独的 AI 服务实例。 例如,使用 Azure AI Foundry 时,为每个项目设置一个中心。 这种做法提供准确的成本跟踪、简化治理,并明确将资源与组织边界保持一致。

管理 AI 模型

AI 模型管理包括设置治理结构、持续监控和重新训练,以长期保持良好性能。 这一流程可帮助企业根据道德标准来调整模型,跟踪模型性能,并确保 AI 系统始终有效且与业务目标保持一致。

  • 建立 AI 监督治理结构。 创建 AI 卓越中心 (AI CoE) 或任命一位 AI 主管。 它们应确保遵守负责任的 AI 标准。 他们应根据这些报告来决定是否需要对系统进行调整。 使用人工智能责任仪表板来生成关于模型输出的报告。

  • 定义 AI 度量基线。 建立衡量基线,确保 AI 模型与业务目标和道德标准相一致。 使用与负责任 AI 原则相关的 KPI,如公平性、透明度和准确性。 将这些 KPI 映射到 AI 工作负荷。 例如,在客户服务聊天机器人中,通过评估模型在不同人口群体中的表现来衡量公平性。 要进行这些衡量,可从负责任 AI 仪表板中使用的工具开始。

  • 实现持续监控。 由于数据、模型更新或用户行为的变化,AI 工作负荷会随着时间的推移而发生变化。 监控 AI 模型AI 资源AI 数据,以便确保这些工作负荷与 KPI 保持一致。 进行审核,根据确定的负责任的 AI 原则和指标对 AI 系统进行评估。

  • 找出性能问题的根本原因。 通过监控 AI,在检测到性能或准确性下降时,准确找出问题的根源。 确保能够对交互的每个阶段都更深入地了解,以便隔离问题并更快采取纠正措施。 例如,如果客户服务聊天机器人生成了不准确的回复,监控功能应能帮助确定错误是出在提示编写还是模型对上下文的理解上。 使用 Azure Monitor 和 Application Insights 等内置工具来主动识别性能瓶颈和异常。

  • 跟踪模型停用。 跟踪预先训练模型的停用情况,以便防止在供应商支持结束时出现性能问题。 例如,生成式 AI 模型可能已被弃用,因此需要对其进行更新方可让功能保持正常。 Azure AI Foundry 门户 显示所有部署的模型停用日期。

  • 根据需要重新训练 AI 模型。 要考虑到模型因数据变化而随时间降级的情况。 根据模型性能或业务需求定期重新训练,以确保 AI 系统保持持续相关性。 重新训练的成本可能会很高,因此要评估初始训练成本,并利用该成本来评估重新训练 AI 模型的频率。 维护模型的版本控制,并确保为性能不佳的版本提供回滚机制。

  • 建立模型推广流程。 根据性能标准,使用质量入口将经训练、微调和重新训练的模型提升到更高的环境。 每种应用程序的性能标准都是独一无二的。

管理 AI 成本

管理 AI 成本需要清楚了解与计算、存储和令牌处理等资源相关的费用。 应实现成本管理最佳做法、监控使用情况并设置自动提醒,以避免产生意外支出并优化资源效率。

  • 遵循每项服务的成本管理最佳做法。 每项 Azure 服务都有特定的功能和最佳做法,它们可最大限度地优化成本。 熟悉以下指南,了解如何在 azure AI FoundryAzure OpenAI 服务中规划和管理成本,以及 Azure 机器学习

  • 监控并最大限度地提高计费效率。 了解成本断点,以便避免不必要的收费。 例如,充分利用固定价格阈值进行图像生成或每小时微调。 跟踪使用模式,包括每分钟令牌数 (TPM) 和每分钟请求数 (RPM),并对模型和体系结构进行相应的调整。 考虑采用基于承诺的计费模式,以实现一致的使用模式。

  • 设置自动化成本警报。 使用预算警报通知你意外费用,并制定预算策略,以控制并预测 AI 支出。

对于使用 Azure OpenAI 的生成式 AI 应用程序,请参阅这些成本优化建议

管理 AI 数据

有效的 AI 数据管理专注于在整个 AI 生命周期内保持数据的准确性、完整性和敏感性。 在整理高质量数据集并确保数据管道安全时,组织就能确保数据始终可靠,并满足不断变化的监管要求。

  • 保持数据的准确性并整理黄金数据集。 开发一组权威数据,用于对两种 AI 类型进行定期测试和验证。 不断整理该数据集,确保其反映了最新的准确信息。

  • 确保数据管道完整性。 开发和维护自定义数据管道,以便确保从数据收集到预处理和存储的数据完整性。 管道的每一步都必须确保安全,以保持这两类 AI 应用程序的性能和可靠性。

  • 管理数据敏感性变化。 了解数据的敏感度分类会随着时间的推移而改变。 由于业务或监管方面的变化,可能需要将低敏感性数据重新归类为高敏感性数据。 制定删除或替换下游系统中敏感数据的流程。 Microsoft Defender for CloudMicrosoft Purview 有助于对敏感数据进行标记和管理。 这一过程始于在 AI 引入之前建立一个良好的数据目录。 在发生变化时,确定会使用敏感数据的所有模型或系统。 如有可能,使用不包括重新分类的敏感数据的数据集来重新训练 AI 模型。

管理 AI 业务连续性

AI 的业务连续性和灾难恢复涉及到创建多区域部署和定期测试恢复计划。 这些策略有助于确保 AI 系统在中断期间保持运行,并最大限度地降低长期中断或数据丢失的风险。

  • 使用多区域部署来应用 AI。 实现多区域部署,确保生成式和非生成式 AI 的高可用性和复原能力。 这些策略最大限度地减少了停机时间,并确保关键的 AI 应用程序在发生区域性中断或基础设施故障时仍能正常运行。 确保为经训练和微调的模型实施必要的冗余,以避免在中断期间进行重新训练的需要。

  • 定期测试和验证灾难恢复计划。 定期对灾难恢复计划进行测试,以验证能否有效恢复生成式和非生成式 AI 系统。 包括测试数据还原过程和验证过程,以确保所有 AI 组件在恢复后都能正常运行。 定期验证可确保组织做好应对实际事件的准备,并最大限度地降低恢复过程中出现故障的风险。

  • 管理和跟踪 AI 系统的变更。 确保通过 Git 等版本控制系统管理对模型、数据和配置的所有更改。 这样做对于跟踪修改和确保在恢复过程中还原为以前版本的能力至关重要。 对于生成式和非生成式 AI,应该对模型和系统更改进行自动审核,以便快速识别和还原计划外更改。

下一步