你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
本文为使用 Azure AI 平台即服务 (PaaS) 解决方案的组织提供治理建议。 这些建议可帮助你建立负责任的 AI 做法,降低安全性、成本和合规性风险,同时确保 AI 投资符合业务目标。
治理 AI 平台
AI 平台治理在 Azure AI 服务中实施策略控制,以确保操作的一致性。 平台级治理在整个 AI 生态系统中强制实施安全、合规性和运营标准。 必须实施全面的策略,以保持监督和加强 AI 管理实践。 操作方法如下:
为每个 AI 平台应用内置治理策略。 Azure Policy 提供预定义的策略定义,用于满足 AI 服务的常见治理要求。 这些策略有助于在不进行自定义开发的情况下强制实施安全配置、成本控制和合规性要求。 使用 Azure Policy 为 Azure AI Foundry、 Azure AI 服务和Azure AI 搜索实现内置策略定义。
启用 Azure 登陆区域 AI 策略以实现全面覆盖。 Azure 着陆区域包括满足特定于工作负载的治理要求的精心策划策略集。 这些策略提供与 AI 工作负载Microsoft建议一致的测试配置。 在 Azure 登陆区域部署期间,在 “工作负荷特定符合性 ”类别下选择适当的策略计划,包括 Azure OpenAI、 Azure 机器学习、 Azure AI 搜索和 Azure 机器人服务。
治理 AI 模型
模型治理控制可确保 AI 模型生成安全、可靠且道德的输出。 明确的模型输入和输出政策防范有害内容生成和滥用,同时保持合规性标准。 必须实施系统模型监督,以保护用户并支持负责任的 AI 部署做法。 操作方法如下:
创建和维护 AI 代理清单。 Microsoft Entra 代理 ID 提供通过 Azure AI Foundry 和 Copilot Studio 创建的所有 AI 代理的集中视图。 完整的清单可在整个组织中实现访问控制强制实施和策略合规性监视。 使用 Microsoft Entra 代理 ID 跟踪和管理 AI 代理。
强制实施模型限制。 Azure Policy 允许你控制组织可以使用哪些 AI 模型。 在 Azure AI Foundry 中应用 特定于模型的策略 ,以确保符合组织标准和要求。
实现 AI 风险检测过程。 使用 Defender for Cloud 识别 AI 工作负载 ,并在部署之前 评估风险 。 定期对生成 AI 模型进行 红队评估。 记录所有发现并更新治理策略,以解决新风险。
步骤 行动 DESCRIPTION 启用 Defender for Cloud AI 工作负荷发现 使用 Defender for Cloud 识别 AI 工作负载,并在部署之前评估风险。 此步骤可确保了解 AI 工作负载,并帮助尽早检测潜在漏洞。 安排定期红队评估 定期对生成 AI 模型进行红队评估。 定期评估有助于识别弱点并改善 AI 模型的安全状况。 记录和跟踪已识别的风险 保持评估期间发现的风险记录。 跟踪风险可确保责任,并支持治理策略的持续改进。 基于调查结果更新策略 修改治理策略以解决新确定的风险。 策略更新可确保治理措施保持有效,并与当前风险保持一致。 在所有模型中应用内容安全控制。Azure AI 内容安全 提供阻止有害内容生成的筛选器。 一致的应用程序维护安全标准,并减少不适当的 AI 输出的法律责任。
应用模型基础技术。 通过 系统消息 和 检索扩充生成 (RAG)控制 AI 模型输出。 使用 PyRIT 等工具测试基础有效性,以确保一致和适当的响应。
治理 AI 成本
成本管理控制可避免不必要的 AI 支出,同时最大程度地提高运营效率。 有效控制确保 AI 投资符合业务目标,并防止预算溢出资源滥用。 必须实施财务监督和资源优化做法,以保持经济高效的 AI 运营。 操作方法如下:
为工作负荷模式选择适当的计费模型。 承诺层和预配的吞吐量为稳定的工作负荷提供可预测的成本。 Azure OpenAI 模型提供 预配的吞吐量单位 (PTU),其成本低于即用即付定价,以采用一致的使用模式。 将 PTU 终结点与基于消耗的终结点相结合,以经济高效地处理流量高峰。 使用 PTU 作为主终结点,并使用基于消费的终结点处理溢出流量。 有关更多指南,请参阅 介绍多个 Azure OpenAI 实例的网关。
选择符合要求且不超支的模型。 模型选择直接影响成本,同时影响功能要求。 成本较低的模型通常为许多用例提供足够的性能,而无需牺牲必要的功能。 有关 Azure AI Foundry,请参阅 Azure AI Foundry 定价 和 模型计费信息。 使用 Azure Policy 定义 允许满足成本要求的特定模型 。
设置配额和限制以防止成本溢出。 预配配额控制资源分配,并防止产生意外费用。 根据预期的工作负荷为每个模型分配配额。 持续监视动态配额,确保它们与实际需求匹配,并对其进行调整,以保持最佳吞吐量,而无需超支。
选择经济高效的部署选项。 Azure AI Foundry 模型提供不同的 部署选项。 为用例选择最经济高效且合规的选项。
控制客户端使用模式。 客户端行为直接影响使用付费服务中的消耗成本。 通过网络控制、密钥和基于角色的访问控制(RBAC)等安全协议限制客户端访问。 强制实施 API 约束,例如最大令牌数量和最大完成次数。 尽可能进行批处理请求以优化效率,并在提供必要上下文时保持提示简洁,以减少令牌消耗。
自动关闭非生产工作负荷的资源。 自动关闭可防止在空闲期间产生不必要的计算成本。 定义并强制实施要求 AI 资源在 Azure AI Foundry 和 Azure 机器学习中的虚拟机和计算实例上使用自动关闭功能的策略。 应为非生产环境,以及那些可在特定时段离线的生产工作负荷,配置自动关闭策略。
为成本管理实现网关控制。 生成式 AI 网关跨 AI 终结点提供集中成本控制。 网关跟踪令牌使用情况、限制消耗、应用断路器,并将流量路由到不同的终结点以优化成本。
有关其他成本管理指南,请参阅 Azure OpenAI 基线体系结构中的“管理 AI 成本和成本优化”。
治理 AI 安全
AI 安全治理可保护 AI 工作负载免受数据、模型或基础结构威胁。 安全控制可保护系统免受未经授权的访问和数据泄露。 必须实施全面的安全措施来维护 AI 解决方案的完整性和可靠性。 操作方法如下:
在所有 AI 资源中启用全面的威胁检测。 Microsoft Defender for Cloud 为 AI 工作负载提供安全监视和威胁检测。 此服务在出现漏洞之前会识别错误配置和安全风险。 在每个订阅上启用 Defender for Cloud 并激活 AI 威胁防护 ,以监视特定于 AI 的安全风险。
实现最低特权访问控制。 基于角色的访问控制(RBAC)仅将用户权限限制为必要的函数。 此方法可减少攻击面,并防止未经授权的访问敏感 AI 资源。 从所有用户的“读者”角色开始,仅当开发工作需要其他权限时,才提升为“参与者”角色。 当内置角色提供过多权限时,请使用 自定义角色 。
使用托管标识进行服务身份验证。 托管标识无需在代码或配置文件中存储凭据。 此方法可降低凭据盗窃风险并简化身份验证管理。 在所有支持的 Azure 服务上实现 托管标识 ,这些服务可以访问 AI 模型终结点,并授予对应用程序资源的最低特权访问权限。
为管理操作应用实时访问。 Privileged Identity Management (PIM) 在需要时提供临时提升的访问权限。 此方法可最大程度地减少高特权帐户的暴露时间,并降低安全风险。 使用 Privileged Identity Management 管理 AI 资源的管理访问权限,并要求对敏感操作进行审批工作流。
保护对 AI 终结点的网络访问。 网络控制可防止未经授权的从不受信任的网络访问 AI 服务。 专用终结点和虚拟网络集成可保护 AI 资源免受基于 Internet 的攻击。 为 Azure AI 服务配置 专用终结点 ,并使用 虚拟网络服务终结点 仅限制对已批准的网络的访问。
治理 AI 运营
AI 运营治理可建立对 AI 服务管理和维护的控制,以确保稳定的性能。 运营治理提供 AI 投资的长期可靠性和一致的业务价值。 必须实施集中监督和连续性计划,以防止停机并保持运营效率。 操作方法如下:
建立模型生命周期管理策略。 模型版本控制策略可确保更新之间的兼容性和平滑转换。 版本控制可防止在模型升级或停用时中断,并在整个部署中保持系统稳定性。 为组织中的所有 AI 平台创建定义模型版本控制标准、兼容性测试要求和回滚过程的策略。
实现业务连续性和灾难恢复计划。 灾难恢复计划可保护 AI作免受服务中断和数据丢失的影响,同时确保业务运营在中断期间继续。 这些计划维护关键 AI 工作负载的服务可用性。 为托管 AI 模型终结点的资源配置基线灾难恢复,包括 Azure AI Foundry、 Azure OpenAI 和 Azure AI 服务。
为 AI 工作负载配置监视和警报。 基线指标在影响用户之前提供性能下降和运营问题的预警。 警报规则支持主动响应,以防止服务中断。 为 Azure AI 搜索、Azure AI Foundry 代理服务部署和单个 Azure AI 服务启用建议的警报规则。
治理 AI 法规遵从性
AI 法规合规性建立控制措施,以满足 AI 部署的行业标准和法律要求。 合规性控制可降低责任风险,并建立利益干系人信任,同时避免监管处罚。 必须实施系统合规性流程,以保持法规一致性并演示负责任的 AI 做法。 操作方法如下:
自动执行合规性评估和管理过程。 Microsoft Purview 合规性管理器跨云环境提供集中的合规性跟踪。 自动评估可减少手动监督负担,并确保一致的合规性监视。 使用 Microsoft Purview 合规性管理器 评估合规性状态,并在 Azure Policy 中针对行业要求应用 法规合规性计划 。
开发行业特定的合规性框架。 法规要求因行业和地理位置而异。 自定义合规性框架可解决业务上下文的特定义务。 创建符合性清单,反映与行业相关的法规要求,并使用 ISO/IEC 23053:2022(使用机器学习的人工智能系统框架)来审核应用于 AI 工作负载的策略。
治理 AI 数据
AI 数据管理可保护敏感信息和知识产权,同时确保高质量的 AI 输出。 数据控制可防止未经授权的访问,并在整个 AI 工作负载中保持法规合规性。 必须实施全面的数据保护措施,以保护隐私和维护 AI 解决方案完整性。 操作方法如下:
实现集中式数据发现和分类。 Microsoft Purview 跨组织系统提供统一的数据治理。 集中式分类可确保一致的数据处理标准和法规合规性。 使用 Microsoft Purview 扫描、编录和分类组织中系统中的数据,并实施 Microsoft Purview SDK ,以编程方式强制实施合规性策略。
跨 AI 系统维护数据安全边界。 数据安全边界可防止敏感信息访问未经授权的 AI 终结点。 索引进程可以删除数据源周围的现有安全控制。 确保在 AI 模型中引入的数据符合分类标准,并在 AI 应用程序中使用之前进行安全审查。
防止 AI 输出中侵犯版权。 内容筛选系统可防止 AI 生成的内容中的知识产权冲突。 版权保护可降低法律风险,并维护道德 AI 做法。 在 Azure AI 内容安全中使用受保护的材料检测 来筛选受版权保护的材料,并确保训练或微调数据使用合法获取和适当许可的源。
为 AI 训练数据建立版本控制。 用于基础数据的版本控制可确保一致性并启用回滚功能。 数据版本控制维护部署稳定性,并支持跨 AI 系统的更改管理。 实施版本控制流程,以便在检索增强生成(RAG)实施中锁定基础数据,跟踪变化并保持各个部署之间的一致性。